更改 - iCenter Wiki

大数据系统-科研

添加2,809字节、2017年9月24日 (日) 02:40

=本组研究 =

实验室研究。

==背景==

云计算（Cloud Computing）对产业影响巨大，云平台提供商为了获得最大化的经济收益，对计算资源的优化使用具有很强的经济动能，将计算资源的效率发挥到了极致。

云平台提供商对软硬件计算资源的一体化掌控，对软件的性能、能效等专用目标的最优化。

*趋势1：软硬件协同设计，对一些负载（work load）进行加速器（accelerator）的设计，达到性能、能效等专用目标的最优化。

*趋势2：软件一体化设计，达到性能度量指标的最优能力。

==研究定位==

~~数据分析层面：关联规则分析、对比集分析、协同过滤（ Collaborative Learning）（系统级、功能）~~数据分析层面（系统级、功能）：关联规则分析、对比集分析、协同过滤、图的可达性查询

~~算法实现层面：~~ 算法实现层面（进程级）： ~~Apriori 算法、相似度计算（ Similarity）、对比集挖掘（Contrast Set Mining）（进程级）~~A-Priori 算法、相似度计算、对比集挖掘

~~数据结构层面：Bitmap~~数据结构层面（编程语言）：Bitmap/~~bit_array~~Bit_array/~~bitset~~Bitset/ ... （C++~~/Go/函数库）（编程语言）~~、Go、Java 函数库）

~~处理器执行层面：BMI~~硬件执行层面（处理器层面）：BMI/SSE/AVX/AVX2/FMA （通用机器指令 ~~Instructions）（专用机器指令、软硬件协同设计（HW~~Instructions）硬件执行层面（FPGA 层面）：专用机器指令、软硬件协同设计（HW/SW co-design）

==本组工作==

===数据分析层面===

协同过滤（Collaborative filtering）

===数据结构层面===

2014年，本校学生温禹豪提出了SECOMPAX，进一步改进COMPAX算法。

2014年，本校学生常嘉辉提出了PLWAH+算法，改进了PLWAH算法。

2015年，本校学生常嘉辉提出了SPLWAH 算法。

2015年，本校学生吴垠鋆提出了CAMP算法，进一步改进WT(Wavelet Trie)算法。

2015年，本校学生吴垠鋆和温禹豪提出了COMBAT算法，进一步改进了了SECOMPAX算法。

2016年，本校学生温禹豪和王晗提出了MASC算法，进一步改进BBC/WAH算法。

2016年，本校学生李辰星等，提出了BAH算法，进一步改进了BBC算法。

2017年，本校学生郑文勋提出了CODIS方法，进一步改进性能。

位图索引方法

**[https://github.com/thuwuyinjun/CAMP CAMP]（Common Affix Merging with Partition）（Java Language）

**SPLWAH （SPLASH ~~WAH)）（CUDA~~ WAH）（CUDA Language）

**COMBAT （COMbining Binary And Ternary encoding）（C++）

# Jiahui Chang et al., SPLWAH: A bitmap index compression scheme for searching in archival Internet traffic. ICC 2015.

# Yinjun Wu et al., COMBAT: a new bitmap index coding algorithm for big data. TST 2016.

*论文列表

http://net.icenter.tsinghua.edu.cn/netplus/paper.html

==研究方向==

~~研究点：使用位图索引支撑的算法。~~研究点：使用位图索引支撑的[[大数据算法]]。 ==底层 == 处理器与FPGA

=== MPSoC增强的索引运算===

#Sebastian Haas et al., An MPSoC for Energy-Efficient Database Query Processing, DAC 2016.

#Sebastian Haas et al., HW/SW-Database-CoDesign for Compressed Bitmap Index Processing, ASAP 2016.

=== ISA增强的集运算===

#O. Arnold et al., An application-specific instruction set for accelerating set-oriented database primitives. SIGMOD 2014.

=== 有限状态机运行并行加速===

使用Intel Xeon Phi加速卡。

#Peng Jiang et al., Combining SIMD and Many Multi-core Parallelism for Finite State Machines with Enumerative Speculation, PPoPP 2017.

==上层 ==

=== 非循环图的可达性查询===

#Sebastiaan J. van Schaik et al., A Memory Efficient Reachability Data Structure Through Bit Vector Compression, SOGMOD 2011.

=== ~~ISA增强的集运算~~频繁项目集发现 === ~~#O. Arnold et al., An application-specific instruction set for accelerating set-oriented database primitives. SIGMOD 2014.~~

~~=== 关联规则挖掘 ===~~查找频繁项目集（Frequent ItemSets）。其中最有名的算法是A-Priori算法。

~~关联规则挖掘（association~~ 从数据集中抽取频繁集，抽取的结果往往采用if-then 形式的规则集合来表示，这些规则被称为关联规则（association rule）。频繁项目集发现常常被看成关联规则挖掘（association rule ~~mining），查找频繁项目集（Frequent ItemSets）。其中最有名的算法是Apriori算法。~~mining）或关联规则发现。

基于位图的Apriori算法加速。

#Gangyi Zhu et al., SciCSM: Novel Contrast Set Mining over Scientific Datasets Using Bitmap Indices, SSDBM 2015.

=== 数据采样 ===

数据采样（Data Sampling）。

2014年，俄亥俄州立大学的Yu Su等提出了位图索引取样技术处理大规模分布式数据集，这样能保留原始数据的特征，并且造成的损失亦处在可接受范围内。

基于位图索引的数据采样方法。

# Su, Yu, et al. "Taming massive distributed datasets: data sampling using bitmap indices." HPDC 2013.

=== 相关性挖掘===

#Yu Su et al., In-Situ Bitmaps Generation and Efficient Data Analysis based on Bitmaps, HPDC 2015.

=== 子群发现 ===

# Yi Wang et al., SciSD: Novel Subgroup Discovery Over Scientific Datasets Using Bitmap Indices, #OSU-CISRC-3/15-TR03, March 2015.

~~=== 有限状态机运行并行加速===~~

~~使用Intel Xeon Phi加速卡。~~=== 相似性查询 === 相似性查询（Similarity searches）是探索式数据分析（exploratory data analysis）的一个重要任务。距离度量（Distance metrics）方法是相似性查询的基础。基于BSI(Bit Slice Index)位图索引方法加速K-近邻（kNN）方法。 #Gheorghi Guzun et al., "Supporting Dynamic Quantization for High-Dimensional Data Analytics." ExploreDB 2017. =研究应用= 数码视讯、中国联通、百度公司、华为技术

=教材=#~~Peng Jiang et al.~~Leskovec, Jure, Anand Rajaraman, ~~Combining SIMD~~ and ~~Many Multi-core Parallelism for Finite State Machines with Enumerative Speculation~~Jeffrey David Ullman. Mining of massive datasets. Cambridge University Press,~~PPoPP 2017~~2014. [http://www.mmds.org/ MMDS_book]

Zhenchen

行政员、管理员

6,105

个编辑