查看“大数据系统-科研”的源代码

=本组研究 =
实验室研究。

==研究定位==

数据分析层面（系统级、功能）：关联规则分析、对比集分析、协同过滤、图的可达性查询

算法实现层面（进程级）：  A-Priori 算法、相似度计算、对比集挖掘

数据结构层面（编程语言）：Bitmap/Bit_array/Bitset/... （C++、Go、Java 函数库）

硬件执行层面（处理器层面）：BMI/SSE/AVX/AVX2/FMA   （通用机器指令 Instructions）

硬件执行层面（FPGA 层面）：专用机器指令、软硬件协同设计（HW/SW co-design）

==本组工作==

===数据分析层面===
协同过滤（Collaborative filtering）

===数据结构层面===
位图索引方法
**CODIS （Compressing Dirty Snippet）  （C++ ）

**[http://gitlab.icenter.tsinghua.edu.cn/zhenchen/BAH BAH]（Byte Aligned Hybrid）   （C++ Language）

**[https://github.com/thuwuyinjun/CAMP CAMP]（Common Affix Merging with Partition） （Java Language）

**SPLWAH （SPLASH WAH）（CUDA Language）

**COMBAT （COMbining Binary And Ternary encoding）（C++）

**MASC（MAximized Stride with Carrier）（C++）


*本组论文

# Wenxun Zheng  et al., CODIS: A New Compression Scheme for Bitmap Indexes, ANCS 2017. 
# Chenxing Li et al., BAH: A Bitmap Index Compression Algorithm for Fast Data Retrieval, LCN 2016.
# Yinjun Wu et al., CAMP: A new bitmap index for data retrieval in traffic archival, Communication Letters, Vol. 20, No. 6, pp.1128 - 1131, June 2016.
# Jiahui Chang et al.,  SPLWAH: A bitmap index compression scheme for searching in archival Internet traffic.  ICC 2015.
# Yinjun Wu et al., COMBAT: a new bitmap index coding algorithm for big data. TST 2016.


*论文列表

http://net.icenter.tsinghua.edu.cn/netplus/paper.html

==研究方向==

研究点：使用位图索引支撑的[[大数据算法]]。

==底层 ==

处理器与FPGA

=== MPSoC增强的索引运算===

#Sebastian Haas et al., An MPSoC for Energy-Efficient Database Query Processing, DAC 2016.
#Sebastian Haas et al., HW/SW-Database-CoDesign for Compressed Bitmap Index Processing, ASAP 2016.

=== ISA增强的集运算===

#O. Arnold et al., An application-specific instruction set for accelerating set-oriented database primitives. SIGMOD 2014.


=== 有限状态机运行并行加速===

使用Intel Xeon Phi加速卡。

#Peng Jiang et al., Combining SIMD and Many Multi-core Parallelism for Finite State Machines with Enumerative Speculation, PPoPP 2017.

==上层 ==

=== 非循环图的可达性查询===

#Sebastiaan J. van Schaik et al., A Memory Efficient Reachability Data Structure Through Bit Vector Compression, SOGMOD 2011.

=== 频繁项目集发现  ===

查找频繁项目集（Frequent ItemSets）。其中最有名的算法是A-Priori算法。

从数据集中抽取频繁集，抽取的结果往往采用if-then 形式的规则集合来表示，这些规则被称为关联规则（association rule）。频繁项目集发现常常被看成关联规则挖掘（association rule mining）或关联规则发现。

基于位图的Apriori算法加速。

#Sung-Tan Kim et al., "BAR: bitmap-based association rule: an implementation and its optimizations." ACM MoMM 2009.

=== 对比度设置学习===

对比度设置学习（对比集分析）是一种关联规则的学习 ，旨在找出有意义的不同的群体之间的差异，通过逆向工程的关键预测指标，确定每一个特定的组。

基于位图的对比集挖掘算法加速。

#Gangyi Zhu et al., SciCSM: Novel Contrast Set Mining over Scientific Datasets Using Bitmap Indices, SSDBM 2015.

=== 数据采样 ===
数据采样（Data Sampling）。

基于位图索引的数据采样方法。

# Su, Yu, et al. "Taming massive distributed datasets: data sampling using bitmap indices." HPDC 2013.

=== 相关性挖掘===

* 相关性测度（Correlation Metrics ）
**地球移动距离（Earth Mover's Distance, EMD）
**香农熵（Shannon's Entropy）、互信息（Mutual Information）、条件熵（Conditional Entropy）

相关性分析位图索引加速。

#Yu Su et al., In-Situ Bitmaps Generation and Efficient Data Analysis based on Bitmaps, HPDC 2015.

=== 子群发现 ===

子群发现（subgroup mining）是数据分析的一个重要方法。

基于位图索引的子群发现方法加速。

# Yi Wang et al., SciSD: Novel Subgroup Discovery Over Scientific Datasets Using Bitmap Indices, #OSU-CISRC-3/15-TR03, March 2015.

=== 相似性查询 ===

相似性查询 （Similarity searches）是探索式数据分析（exploratory data analysis）的一个重要任务。距离度量（Distance metrics）方法是相似性查询的基础。

基于BSI(Bit Slice Index)位图索引方法加速K-近邻（kNN）方法。

#Gheorghi Guzun et al., "Supporting Dynamic Quantization for High-Dimensional Data Analytics." ExploreDB 2017.

=研究应用=

数码视讯、中国联通、百度公司、华为技术


=教材=
# Leskovec, Jure, Anand Rajaraman, and Jeffrey David Ullman. Mining of massive datasets. Cambridge University Press, 2014. [http://www.mmds.org/ MMDS_book]