“大数据与机器智能”版本间的差异
2015011315(讨论 | 贡献) (→第一组) |
2015011315(讨论 | 贡献) (→第一组) |
||
第55行: | 第55行: | ||
组长: | 组长: | ||
姚沛然 | 姚沛然 | ||
+ | |||
组员: | 组员: | ||
王逸伦 张正彦 | 王逸伦 张正彦 |
2016年10月11日 (二) 03:41的版本
教学团队
互联网+实验室 iNetLab
陈震 马晓东 章屹松 王蓓蓓 高英
助教:郑文勋 李辰星
协同开发
iCenter-cloud iCenter-cloud
Gitlab GitLab
教学目标
以完成一种以大数据为基础的智能系统的原型开发为目标,在实践中运用大数据智能理论与技术。团队成员学习大数据系统与机器智能的理论知识和专业技能,完成项目团队结构设计和原型开发的实践环节,全面提高学生的技术实践能力。
课程内容
技术本质浅论
课程实践准备
Azure云平台使用
Flask Web服务器搭建
大数据索引
bitmap index
- Chambi, Samy, Daniel Lemire, Owen Kaser, and Robert Godin. "Better bitmap performance with Roaring bitmaps." Software: practice and experience, 2015.
- Vallentin, Matthias, Vern Paxson, and Robin Sommer. "VAST: a unified platform for interactive network forensics." 13th USENIX Symposium on Networked Systems Design and Implementation (NSDI 16). 2016.
- Vallentin, Matthias. Scalable Network Forensics. Diss. University of California, Berkeley, 2016.
inverted list
- Culpepper, J. Shane, and Alistair Moffat. "Efficient set intersection for inverted indexing." ACM Transactions on Information Systems (TOIS), 2010.
- Schlegel, Benjamin, Thomas Willhalm, and Wolfgang Lehner. Fast Sorted-Set Intersection using SIMD Instructions, ADMS 2011.
- Inoue, Hiroshi, Moriyoshi Ohara, and Kenjiro Taura, Faster Set Intersection with SIMD instructions by Reducing Branch Mispredictions, VLDB 2014.
- Kane, Andrew, and Frank Wm Tompa, Skewed Partial Bitvectors for List Intersection, SIGIR 2014.
大数据系统
Hadoop
Spark
机器智能
机器学习
深度学习
项目分组
第一组
组长: 姚沛然
组员: 王逸伦 张正彦
第二组
组长:王亦凡
组员:刘梦旸、邱昱田
第三组
组长:李子豪
组员:娄晨耀 张若天 邹逍遥
第五组
组长:
组员:
第八组
组长:熊铮
组员:范承泽,秦梓鑫
... ...
论文研读
要求:提交研读论文的PPT(正文部分不超过10页)。
时间:10月14日中午12点之前。
10月19日下午安排每组做一个小报告,每组时间不超过10分钟。
第一组
RUBIK: Efficient Threshold Queries on Massive Time Series, SSDBM 2015.
第二组
SciCSM: Novel Contrast Set Mining over Scientific Datasets Using Bitmap Indices, SSDBM 2015.
第三组
ALACRITY: Analytics-Driven Lossless Data Compression for Rapid In-Situ Indexing, Storing, and Querying, TLDKS X, 2013.
第四组
VSEncoding: Efficient Coding and Fast Decoding of Integer Lists via Dynamic Programming, CIKM 2010.
第五组
Super-Scalar RAM-CPU Cache Compression, ICDE 2006.
第六组
Partitioned Elias-Fano Indexes, SIGIR 2014.
第七组
Fast Set Intersection through Run-Time Bitmap Construction over PForDelta-Compressed Indexes, Euro-Par 2014.
第八组
Optimal Space-time Tradeoffs for Inverted Indexes, WSDM 2015.
课程项目
项目1-大数据
描述
任务:基于位图索引的概念和原理,用C++实现一个位图索引数据库。
检验:完成对一段网流数据的索引建立,查询。在虚拟机上运行成功,得到正确结果。
网流数据:\\166.111.134.110\team-saturn\网流数据
代码托管:http://gitlab.icenter.tsinghua.edu.cn
时间:10月7日中午12点之前(特殊情况,推迟一周)
组织:以组为单位,要求要看到所有同学的贡献。
作业提交
Group1
Group2
Group3
Group4
Group5
Group6
Group7
Group8
项目2-机器智能
描述
完成一个展示的智能系统
步骤1:设置azure虚拟机;
步骤2:架构flask-web服务;
步骤3:建立AI服务(Google Tensorflow);
步骤4:lucida.ai;
步骤5:智能端开发(移动平台、嵌入式硬件)+thrift协议联调;
作业提交
Group1
Group2
Group3
Group4
Group5
Group6
Group7
Group8
致谢
本课程获得微软Azure云计算与机器学习捐赠支持。
参考文献
- Hennessy, John L., and David A. Patterson. Computer architecture: a quantitative approach. Elsevier, 2011.
- Matthew, Neil, and Richard Stones. Beginning linux programming. John Wiley & Sons, 2011.
- Stroustrup, Bjarne. The C++ programming language. Pearson Education, 2013.
- Weiss, Mark Allen. Data structures and algorithm analysis in Java. Addison-Wesley Longman Publishing Co., Inc., 1998.
- Flanagan, David. JavaScript: The definitive guide: Activate your web pages. " O'Reilly Media, Inc.", 2011.
- Grinberg, Miguel. Flask Web Development: Developing Web Applications with Python. O'Reilly Media, Inc., 2014.
- Yoshua Bengio, Ian Goodfellow, Aaron Courville, Deep Learning, MIT Press, 2016.
- Google brain team, TensorFlow: Large-scale machine learning on heterogeneous systems, whitepaper, 2015.
- Vijay Agneeswaran, Real-Time Applications with Storm, Spark, and More Hadoop Alternatives, 2014.