查看“大数据系统”的源代码

=设计原则=
基本原则：信息系统组织计算、存储、通信的模式和系统的功用的相适应，类似“经济基础与上层建筑”

问题：集中式与分布式？

=设计思路=
大数据系统设计的基本思路：

#单台机器能力有限，需要多机系统；（并行性）
#数据要分布在不同机器上，之间需要网络通信；（扩展性）
#单台机器容易出现故障，系统要能容错；（可靠性）
#用户程序在多台机器上运行，编程要简单。（易用性）

大数据的存储/管理/处理

#Hadoop项目集成了大数据存储与处理技术
#Spark项目是目前最热门的大数据平台

=分布式系统=

[https://www.distributed-systems.net Distributed Systems]

#M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007.

==分布式文件系统==
运行在由很多机器组成的集群(Cluster)上的文件系统

所有文件都做了冗余备份，存放在不同的机器上；

机器的随机的故障，不会导致文件系统的可用性问题；

典型例子：

#谷歌文件系统GFS
每台机器分配不同角色，称为Master和Slave

Master负责存储文件的元数据和在slave中的具体位置

Slave负责存储文件的具体内容，以块为单位，每块64MB

研究论文：
# Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." ACM SIGOPS operating systems review. Vol. 37. No. 5. ACM, 2003.
# Jeffrey Dean and Sanjay Ghemawat. "MapReduce: simplified data processing on large clusters." Communications of the ACM 51.1 (2008): 107-113.

== MapReduce==
Map/Reduce编程模型 (Abstraction)和实现框架。

用户只要编写 map()和 reduce()函数。

Map/Reduce 框架能够自动将程序分配到集群上运行，并汇总运行结果

=== HDFS (Hadoop Distributed File System) ===

#Hadoop分布式文件系统，是谷歌文件系统GFS的一个开源实现

每台机器分配不同角色，称为Namenode和Datanode

Namenode负责存储文件的元数据和在datanode中的具体位置

Datanode负责存储文件的具体内容，以块为单位

* [http://hadoop.apache.org Hadoop]

=== Spark ===

* [http://spark.apache.org Spark]

# Zaharia, Matei, et al. "Spark: cluster computing with working sets.“ Proceedings of the 2nd USENIX conference on Hot topics in cloud computing. Vol. 10. 2010.

=== Druid ===
大数据解析

* [http://druid.io Druid]