查看“大数据系统”的源代码
←
大数据系统
跳转至:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
您刚才请求的操作只对以下1个用户组开放:
用户
。
您可以查看并复制此页面的源代码:
=设计原则= 基本原则:信息系统组织计算、存储、通信的模式和系统的功用的相适应,类似“经济基础与上层建筑” 问题:集中式与分布式? =设计思路= 大数据系统设计的基本思路: #单台机器能力有限,需要多机系统;(并行性) #数据要分布在不同机器上,之间需要网络通信;(扩展性) #单台机器容易出现故障,系统要能容错;(可靠性) #用户程序在多台机器上运行,编程要简单。(易用性) 大数据的存储/管理/处理 #Hadoop项目集成了大数据存储与处理技术 #Spark项目是目前最热门的大数据平台 =分布式系统= [https://www.distributed-systems.net Distributed Systems] #M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007. ==分布式文件系统== 运行在由很多机器组成的集群(Cluster)上的文件系统 所有文件都做了冗余备份,存放在不同的机器上; 机器的随机的故障,不会导致文件系统的可用性问题; 典型例子: #谷歌文件系统GFS 每台机器分配不同角色,称为Master和Slave Master负责存储文件的元数据和在slave中的具体位置 Slave负责存储文件的具体内容,以块为单位,每块64MB 研究论文: # Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." ACM SIGOPS operating systems review. Vol. 37. No. 5. ACM, 2003. # Jeffrey Dean and Sanjay Ghemawat. "MapReduce: simplified data processing on large clusters." Communications of the ACM 51.1 (2008): 107-113. == MapReduce== Map/Reduce编程模型 (Abstraction)和实现框架。 用户只要编写 map()和 reduce()函数。 Map/Reduce 框架能够自动将程序分配到集群上运行,并汇总运行结果 === HDFS (Hadoop Distributed File System) === #Hadoop分布式文件系统,是谷歌文件系统GFS的一个开源实现 每台机器分配不同角色,称为Namenode和Datanode Namenode负责存储文件的元数据和在datanode中的具体位置 Datanode负责存储文件的具体内容,以块为单位 * [http://hadoop.apache.org Hadoop] === Spark === * [http://spark.apache.org Spark] # Zaharia, Matei, et al. "Spark: cluster computing with working sets.“ Proceedings of the 2nd USENIX conference on Hot topics in cloud computing. Vol. 10. 2010. === Druid === 大数据解析 * [http://druid.io Druid]
返回
大数据系统
。
导航菜单
个人工具
创建账户
登录
名字空间
页面
讨论
变种
查看
阅读
查看源代码
查看历史
操作
搜索
导航
首页
实践教学
个性化3D设计与实现
人工智能实践教学
区块链技术及应用
虚拟现实技术与内容制作
超越学科界限的认知基础课程
电子工艺实习
Nand2Tetris Engine Curriculum
TULLL Creative Learning Group
Wiki上手说明
Wiki账户创建
最近更改
工具
链入页面
相关更改
特殊页面
页面信息