“大数据系统”版本间的差异

来自iCenter Wiki
跳转至: 导航搜索
MapReduce
分布式系统
第1行: 第1行:
 +
=设计原则=
 +
 +
=设计思路=
 +
大数据系统设计的基本思路:
 +
 +
#单台机器能力有限,需要多机系统;(并行性)
 +
#数据要分布在不同机器上,之间需要网络通信;(扩展性)
 +
#单台机器容易出现故障,系统要能容错;(可靠性)
 +
#用户程序在多台机器上运行,编程要简单。(易用性)
 +
 +
大数据的存储/管理/处理
 +
 +
#Hadoop项目集成了大数据存储与处理技术
 +
#Spark项目是目前最热门的大数据平台
 +
 
=分布式系统=
 
=分布式系统=
  
第5行: 第20行:
 
#M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007.
 
#M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007.
  
=== MapReduce===
+
==分布式文件系统==
 +
 
 +
 
 +
== MapReduce==
 
Map/Reduce编程模型 (Abstraction)和实现框架。
 
Map/Reduce编程模型 (Abstraction)和实现框架。
  

2017年4月12日 (三) 02:21的版本

设计原则

设计思路

大数据系统设计的基本思路:

  1. 单台机器能力有限,需要多机系统;(并行性)
  2. 数据要分布在不同机器上,之间需要网络通信;(扩展性)
  3. 单台机器容易出现故障,系统要能容错;(可靠性)
  4. 用户程序在多台机器上运行,编程要简单。(易用性)

大数据的存储/管理/处理

  1. Hadoop项目集成了大数据存储与处理技术
  2. Spark项目是目前最热门的大数据平台

分布式系统

Distributed Systems

  1. M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007.

分布式文件系统

MapReduce

Map/Reduce编程模型 (Abstraction)和实现框架。

用户只要编写 map()和 reduce()函数。

Map/Reduce 框架能够自动将程序分配到集群上运行,并汇总运行结果

Hadoop

  • 大数据存储
  1. Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." ACM SIGOPS operating systems review. Vol. 37. No. 5. ACM, 2003.
  2. Jeffrey Dean and Sanjay Ghemawat. "MapReduce: simplified data processing on large clusters." Communications of the ACM 51.1 (2008): 107-113.

Spark

  1. Zaharia, Matei, et al. "Spark: cluster computing with working sets.“ Proceedings of the 2nd USENIX conference on Hot topics in cloud computing. Vol. 10. 2010.

Druid

大数据解析