“大数据系统”版本间的差异
来自iCenter Wiki
(→MapReduce) |
(→分布式系统) |
||
第1行: | 第1行: | ||
+ | =设计原则= | ||
+ | |||
+ | =设计思路= | ||
+ | 大数据系统设计的基本思路: | ||
+ | |||
+ | #单台机器能力有限,需要多机系统;(并行性) | ||
+ | #数据要分布在不同机器上,之间需要网络通信;(扩展性) | ||
+ | #单台机器容易出现故障,系统要能容错;(可靠性) | ||
+ | #用户程序在多台机器上运行,编程要简单。(易用性) | ||
+ | |||
+ | 大数据的存储/管理/处理 | ||
+ | |||
+ | #Hadoop项目集成了大数据存储与处理技术 | ||
+ | #Spark项目是目前最热门的大数据平台 | ||
+ | |||
=分布式系统= | =分布式系统= | ||
第5行: | 第20行: | ||
#M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007. | #M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007. | ||
− | === | + | ==分布式文件系统== |
+ | |||
+ | |||
+ | == MapReduce== | ||
Map/Reduce编程模型 (Abstraction)和实现框架。 | Map/Reduce编程模型 (Abstraction)和实现框架。 | ||
2017年4月12日 (三) 02:21的版本
设计原则
设计思路
大数据系统设计的基本思路:
- 单台机器能力有限,需要多机系统;(并行性)
- 数据要分布在不同机器上,之间需要网络通信;(扩展性)
- 单台机器容易出现故障,系统要能容错;(可靠性)
- 用户程序在多台机器上运行,编程要简单。(易用性)
大数据的存储/管理/处理
- Hadoop项目集成了大数据存储与处理技术
- Spark项目是目前最热门的大数据平台
分布式系统
- M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007.
分布式文件系统
MapReduce
Map/Reduce编程模型 (Abstraction)和实现框架。
用户只要编写 map()和 reduce()函数。
Map/Reduce 框架能够自动将程序分配到集群上运行,并汇总运行结果
Hadoop
- 大数据存储
- Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." ACM SIGOPS operating systems review. Vol. 37. No. 5. ACM, 2003.
- Jeffrey Dean and Sanjay Ghemawat. "MapReduce: simplified data processing on large clusters." Communications of the ACM 51.1 (2008): 107-113.
Spark
- Zaharia, Matei, et al. "Spark: cluster computing with working sets.“ Proceedings of the 2nd USENIX conference on Hot topics in cloud computing. Vol. 10. 2010.
Druid
大数据解析