“大数据系统”版本间的差异
来自iCenter Wiki
(→大数据系统的定义) |
|||
第1行: | 第1行: | ||
=大数据系统的定义= | =大数据系统的定义= | ||
− | + | 大数据系统可以认为是为数据管理和数据分析用途而设计的[[分布式系统]]。 | |
大数据系统的实现整合数据管理与数据分析的功能。 | 大数据系统的实现整合数据管理与数据分析的功能。 | ||
− | + | 在数据管理的层面,包括数据的读取、存储和操作三方面。索引是数据管理中非常重要的内容,如[[大数据索引]]。 | |
在数据分析层面,处理的算法[[大数据算法]]以及统计分析的工具。 | 在数据分析层面,处理的算法[[大数据算法]]以及统计分析的工具。 | ||
− | |||
= 大数据的存储/管理/处理现状 = | = 大数据的存储/管理/处理现状 = |
2017年5月9日 (二) 04:51的版本
目录
大数据系统的定义
大数据系统可以认为是为数据管理和数据分析用途而设计的分布式系统。
大数据系统的实现整合数据管理与数据分析的功能。
在数据管理的层面,包括数据的读取、存储和操作三方面。索引是数据管理中非常重要的内容,如大数据索引。
在数据分析层面,处理的算法大数据算法以及统计分析的工具。
大数据的存储/管理/处理现状
- Hadoop项目集成了大数据存储与处理技术
- Spark项目是目前最热门的大数据平台
- Real-time Analytics Platform 还没有统治性的软件框架
Hadoop
Hadoop分布式文件系统HDFS(Hadoop Distributed File System),是谷歌文件系统GFS的一个开源实现。
每台机器分配不同角色,称为Namenode和Datanode
Namenode负责存储文件的元数据和在datanode中的具体位置
Datanode负责存储文件的具体内容,以块为单位
Spark
BDAS (Berkeley Data Analytics Stack)
BDAS 是加州大学伯克利分校推出的大数据处理框架。BDAS以Spark软件为核心,结合其他处理软件,组成一套解决方案。
以databricks公司为主。
- Zaharia, Matei, et al. "Spark: cluster computing with working sets.“ Proceedings of the 2nd USENIX conference on Hot topics in cloud computing. Vol. 10. 2010.
Druid
RADS(Real-time Analytics Data Stack)
RADS以Druid为核心,构建大数据实时解析系统。
事件大数据的可视化的创业公司Imply。
- Yang, Fangjin, et al. "Druid: a real-time analytical data store." SIGMOD 2014.
- Yang, Fangjin, et al. "The RADStack: Open source lambda architecture for interactive analytics." Proceedings of the 50th Hawaii International Conference on System Sciences. 2017.