2017年4月12日 (三) 02:21的版本

设计原则

大数据系统设计的基本思路：

大数据的存储/管理/处理

M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007.

Map/Reduce编程模型 (Abstraction)和实现框架。

用户只要编写 map()和 reduce()函数。

Map/Reduce 框架能够自动将程序分配到集群上运行，并汇总运行结果

Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." ACM SIGOPS operating systems review. Vol. 37. No. 5. ACM, 2003.
Jeffrey Dean and Sanjay Ghemawat. "MapReduce: simplified data processing on large clusters." Communications of the ACM 51.1 (2008): 107-113.

Zaharia, Matei, et al. "Spark: cluster computing with working sets.“ Proceedings of the 2nd USENIX conference on Hot topics in cloud computing. Vol. 10. 2010.

大数据解析

@@ 第1行： / 第1行： @@
+=设计原则=
+=设计思路=
+大数据系统设计的基本思路：
+#单台机器能力有限，需要多机系统；（并行性）
+#数据要分布在不同机器上，之间需要网络通信；（扩展性）
+#单台机器容易出现故障，系统要能容错；（可靠性）
+#用户程序在多台机器上运行，编程要简单。（易用性）
+大数据的存储/管理/处理
+#Hadoop项目集成了大数据存储与处理技术
+#Spark项目是目前最热门的大数据平台
 =分布式系统=
@@ 第5行： / 第20行： @@
 #M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007.
-=== MapReduce===
+==分布式文件系统==
+== MapReduce==
 Map/Reduce编程模型 (Abstraction)和实现框架。