“大数据系统”版本间的差异

来自iCenter Wiki
跳转至: 导航搜索
分布式文件系统
分布式文件系统
第24行: 第24行:
  
 
==分布式文件系统==
 
==分布式文件系统==
运行在由很多机器组成的集群(Cluster)上的文件系统
+
运行在由很多机器组成的集群上的文件系统;
  
 
所有文件都做了冗余备份,存放在不同的机器上;
 
所有文件都做了冗余备份,存放在不同的机器上;
  
机器的随机的故障,不会导致文件系统的可用性问题;
+
机器的随机宕机,不会导致文件系统的可用性问题;
  
 
典型例子:
 
典型例子:
  
#谷歌文件系统GFS
+
谷歌文件系统GFS
 +
 
 
每台机器分配不同角色,称为Master和Slave
 
每台机器分配不同角色,称为Master和Slave
  
第40行: 第41行:
  
 
研究论文:
 
研究论文:
# Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." ACM SIGOPS operating systems review. Vol. 37. No. 5. ACM, 2003.
+
# Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." SOSP 2003.
 +
 
 +
 
 
# Jeffrey Dean and Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters, OSDI 2004.
 
# Jeffrey Dean and Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters, OSDI 2004.
  

2017年4月12日 (三) 02:48的版本

设计原则

基本原则:信息系统组织计算、存储、通信的模式和系统的功用的相适应,类似“经济基础与上层建筑”

问题:集中式与分布式?

设计思路

大数据系统设计的基本思路:

  1. 单台机器能力有限,需要多机系统;(并行性)
  2. 数据要分布在不同机器上,之间需要网络通信;(扩展性)
  3. 单台机器容易出现故障,系统要能容错;(可靠性)
  4. 用户程序在多台机器上运行,编程要简单。(易用性)

大数据的存储/管理/处理

  1. Hadoop项目集成了大数据存储与处理技术
  2. Spark项目是目前最热门的大数据平台

分布式系统

Distributed Systems

  1. M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007.

分布式文件系统

运行在由很多机器组成的集群上的文件系统;

所有文件都做了冗余备份,存放在不同的机器上;

机器的随机宕机,不会导致文件系统的可用性问题;

典型例子:

谷歌文件系统GFS

每台机器分配不同角色,称为Master和Slave

Master负责存储文件的元数据和在slave中的具体位置

Slave负责存储文件的具体内容,以块为单位,每块64MB

研究论文:

  1. Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." SOSP 2003.


  1. Jeffrey Dean and Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters, OSDI 2004.

MapReduce

Map/Reduce编程模型 (Abstraction)和实现框架。

用户只要编写 map()和 reduce()函数。

Map/Reduce 框架能够自动将程序分配到集群上运行,并汇总运行结果

HDFS (Hadoop Distributed File System)

  1. Hadoop分布式文件系统,是谷歌文件系统GFS的一个开源实现

每台机器分配不同角色,称为Namenode和Datanode

Namenode负责存储文件的元数据和在datanode中的具体位置

Datanode负责存储文件的具体内容,以块为单位

Spark

  1. Zaharia, Matei, et al. "Spark: cluster computing with working sets.“ Proceedings of the 2nd USENIX conference on Hot topics in cloud computing. Vol. 10. 2010.

Druid

大数据解析