信息系统(Information system)就是涉及信息的存储,传输与处理的软硬件设备。
大数据系统是实现大数据存储、管理、处理和服务的分布式信息系统。分布式系统定义:“A distributed system is a collection of autonomous computing elements that appears to its users as a single coherent system.”
[https://www.distributed-systems.net Distributed Systems]
#M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007.
==信息系统的设计原则==
设计问题:集中式与分布式?
==信息系统的设计思路分布式系统的设计思路==大数据系统设计的基本思路:分布式系统设计的基本思路: #单台机器能力有限,需要多机系统。(并行性、扩展性)#单台机器容易出现故障,系统要能容错。(可靠性)#多机系统之间需要高速可靠的网络通信。(局部网络)#集群上的编程要简单。(易用性) 防范多机系统中,单台机器故障导致系统功能不正常: #数据要冗余备份,分布在不同机器上。#任务要能够切分成独立的单个任务小任务。#系统能监控不同计算任务的运行状况,保障每个计算任务的正确执行。#遇到单台机器故障时,系统能重新部署该机器上的计算任务。计算任务超时则重启和重新部署。 用户与系统交互: #用户程序在多台机器上运行,用户编程不必要关心底层细节。
#单台机器能力有限,需要多机系统;(并行性)
#数据要分布在不同机器上,之间需要网络通信;(扩展性)
#单台机器容易出现故障,系统要能容错;(可靠性)
#用户程序在多台机器上运行,编程要简单。(易用性)
=分布式存储与并行处理系统=
机器的随机宕机,不会导致文件系统的可用性问题;
=== 谷歌文件系统GFS ===
研究论文:
# Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." SOSP 2003.
== 并行处理 ==
研究论文:
# Jeffrey Dean and Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters, OSDI 2004.
==分布式数据库系统==
Massive Parallel Processing MPP
PostgreSQL vs. Greenplum
#Obe, Regina O., and Leo S. Hsu. PostgreSQL: Up and Running: A Practical Introduction to the Advanced Open Source Database. " O'Reilly Media, Inc.", 2014.
#何勇,陈晓峰,Greenplum 企业应用实战,机械工业出版社,2014
=参考教材=
#M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007. [https://www.distributed-systems.net Distributed Systems]