数据科学(Data Science)是一种跨学科的知识体系,是领域专家知识、数学与统计和计算机科学的交集。数据科学用于对不同领域的数据进行解析,分析与知识发现。=全球数据总量的增长= 2015年全球数据总量为8.6泽字节 (ZettaByte),2016年将达到12泽字节,到2020年全球数据总量将达到40泽字节,相当于4万亿GB,数据量为2011年的22倍,人均数据量达到5.2TB。 移动互联网流量:全球移动数据流量2015年每月数据量为3.7艾字节(exabyte),比2014年增长74%。移动数据流量在过去十年增长了4000倍。 计算与存储成本越来越低,每家组织都积累了大量数据 每家组织都希望能从运营的数据中发现一些洞察,改进服务。 =大数据时代= *大数据特征4V数据的大小Volume 数据的类别Variety 数据的速度Velocity 数据的价值Value *数据量大、多样性、产生速度快,蕴含价值大。 大数据的出现对数据存储、数据处理及数据挖掘提出了新的挑战,同时正深刻影响着人类的生活、工作及思维。 =大数据运动= 2012年3月,美国奥巴马政府宣布 “大数据的研究和发展计划。”期望提高从大型复杂的数字数据提取知识和 观点的能力,抢占大数据的科研制高点,加强国家安全。 2014年3月“大数据”首次写入《政府工作报告》以来,李克强总理提出的“大数据是新时代的钻石矿”,政府要在其中发挥作用,促进数据开发,打破信息孤岛。 如何有效利用大数据解决科学、能源、医疗、商业、政务等领域的问题,已成为当前产业界的热点。 =数据中心= 数据中心(Data Center)是数据管理与处理的基础设施。 Google 上百万台机器的集群计算,具体数目是保密数字 思路:用廉价的PC机器,代替昂贵的主机 =大数据源头= 大数据源自搜索引擎。 大数据这个术语最早的引用可追溯到搜索引擎 大数据用来描述为更新网络搜索索引时,需要同时进行批量处理或分析的大量数据集 大数据核心技术源自谷歌Google,因为谷歌是当今最大的搜索引擎公司。