信息系统(Information system)就是涉及信息的存储,传输与处理的软硬件设备。
大数据系统是实现大数据存储、管理、处理和服务的分布式信息系统。分布式系统定义:“A distributed system is a collection of autonomous computing elements that appears to its users as a single coherent system.”
设计问题:集中式与分布式?
==信息系统的设计思路分布式系统的设计思路==大数据系统设计的基本思路:分布式系统设计的基本思路:
#单台机器能力有限,需要多机系统。(并行性、扩展性)
机器的随机宕机,不会导致文件系统的可用性问题;
=== 谷歌文件系统GFS ===
研究论文:
# Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. "The Google file system." SOSP 2003.
== 并行处理 ==
研究论文:
# Jeffrey Dean and Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters, OSDI 2004.
==分布式数据库系统==
Massive Parallel Processing MPP
PostgreSQL vs. Greenplum
#Obe, Regina O., and Leo S. Hsu. PostgreSQL: Up and Running: A Practical Introduction to the Advanced Open Source Database. " O'Reilly Media, Inc.", 2014.
#何勇,陈晓峰,Greenplum 企业应用实战,机械工业出版社,2014
=参考教材=
#M Steen, AS Tanenbaum, Distributed systems: principles and paradigms, Prentice Hall, 2007. [https://www.distributed-systems.net Distributed Systems]