“大数据系统-科研”版本间的差异
来自iCenter Wiki
(→本组工作) |
|||
第14行: | 第14行: | ||
==本组工作== | ==本组工作== | ||
+ | 位图索引方法 | ||
**CODIS (Compressing Dirty Snippet) (C++ ) | **CODIS (Compressing Dirty Snippet) (C++ ) | ||
2017年5月16日 (二) 13:18的版本
目录
本组研究
实验室研究。
研究定位
数据分析层面:关联规则分析、对比集分析、协同过滤( Collaborative Learning)(系统级、功能)
算法实现层面: Apriori 算法、相似度计算( Similarity)、对比集挖掘(Contrast Set Mining)(进程级)
数据结构层面:Bitmap/bit_array/bitset/ (C++/Go/函数库)(编程语言)
处理器执行层面:BMI/SSE/AVX/AVX2/FMA (通用机器指令 Instructions)(专用机器指令、软硬件协同设计(HW/SW co-design)
本组工作
位图索引方法
- CODIS (Compressing Dirty Snippet) (C++ )
- BAH(Byte Aligned Hybrid) (C++ Language)
- CAMP(Common Affix Merging with Partition) (Java Language)
- SPLWAH (SPLASH WAH))(CUDA Language)
- COMBAT (COMbining Binary And Ternary encoding)(C++)
- MASC(MAximized Stride with Carrier)(C++)
- 本组论文
- Wenxun Zheng et al., CODIS: A New Compression Scheme for Bitmap Indexes, ANCS 2017.
- Chenxing Li et al., BAH: A Bitmap Index Compression Algorithm for Fast Data Retrieval, LCN 2016.
- Yinjun Wu et al., CAMP: A new bitmap index for data retrieval in traffic archival, Communication Letters, Vol. 20, No. 6, pp.1128 - 1131, June 2016.
- Jiahui Chang et al., SPLWAH: A bitmap index compression scheme for searching in archival Internet traffic. ICC 2015.
- Yinjun Wu et al., COMBAT: a new bitmap index coding algorithm for big data. TST 2016.
研究方向
研究点:使用位图索引支撑的算法。
MPSoC增强的索引运算
- Sebastian Haas et al., An MPSoC for Energy-Efficient Database Query Processing, DAC 2016.
- Sebastian Haas et al., HW/SW-Database-CoDesign for Compressed Bitmap Index Processing, ASAP 2016.
非循环图的可达性查询
- Sebastiaan J. van Schaik et al., A Memory Efficient Reachability Data Structure Through Bit Vector Compression, SOGMOD 2011.
对比集分析
- Gangyi Zhu et al., SciCSM: Novel Contrast Set Mining over Scientific Datasets Using Bitmap Indices, SSDBM 2015.
ISA增强的集运算
- O. Arnold et al., An application-specific instruction set for accelerating set-oriented database primitives. SIGMOD 2014.
关联规则挖掘
关联规则挖掘(association rule mining),查找频繁项目集(Frequent ItemSets)。其中最有名的算法是Apriori算法。
基于位图的Apriori算法加速。
- Sung-Tan Kim et al., "BAR: bitmap-based association rule: an implementation and its optimizations." ACM MoMM 2009.
对比度设置学习
对比度设置学习(对比集分析)是一种关联规则的学习 ,旨在找出有意义的不同的群体之间的差异,通过逆向工程的关键预测指标,确定每一个特定的组。
基于位图的对比集挖掘算法加速。
- Gangyi Zhu et al., SciCSM: Novel Contrast Set Mining over Scientific Datasets Using Bitmap Indices, SSDBM 2015.
相关性挖掘
- 相关性测度(Correlation Metrics )
- 地球移动距离(Earth Mover's Distance, EMD)
- 香农熵(Shannon's Entropy)、互信息(Mutual Information)、条件熵(Conditional Entropy)
相关性分析位图索引加速。
- Yu Su et al., In-Situ Bitmaps Generation and Efficient Data Analysis based on Bitmaps, HPDC 2015.
子群发现
子群发现(subgroup mining)是数据分析的一个重要方法。
基于位图索引的子群发现方法加速。
- Yi Wang et al., SciSD: Novel Subgroup Discovery Over Scientific Datasets Using Bitmap Indices, #OSU-CISRC-3/15-TR03, March 2015.
有限状态机运行并行加速
使用Intel Xeon Phi加速卡。
- Peng Jiang et al., Combining SIMD and Many Multi-core Parallelism for Finite State Machines with Enumerative Speculation,PPoPP 2017.