=本组研究 =
实验室研究。
==背景==
云计算(Cloud Computing)对产业影响巨大,云平台提供商为了获得最大化的经济收益,对计算资源的优化使用具有很强的经济动能,将计算资源的效率发挥到了极致。
云平台提供商对软硬件计算资源的一体化掌控,对软件的性能、能效等专用目标的最优化。
*趋势1:软硬件协同设计,对一些负载(work load)进行加速器(accelerator)的设计,达到性能、能效等专用目标的最优化。
*趋势2:软件一体化设计,达到性能度量指标的最优能力。
==研究定位==
数据分析层面((系统级、功能)):关联规则分析、对比集分析、协同过滤、图的可达性查询数据分析层面(系统级、功能):关联规则分析、对比集分析、协同过滤、图的可达性查询
算法实现层面(进程级): Apriori A-Priori 算法、相似度计算、对比集挖掘
数据结构层面(编程语言):Bitmap/Bit_array/Bitset/... (C++、Go、Java 函数库)
处理器执行层面(硬件层面):BMI硬件执行层面(处理器层面):BMI/SSE/AVX/AVX2/FMA (通用机器指令 Instructions)(专用机器指令、软硬件协同设计(HWInstructions) 硬件执行层面(FPGA 层面):专用机器指令、软硬件协同设计(HW/SW co-design))design)
==本组工作==
===数据结构层面===
2014年,本校学生温禹豪提出了SECOMPAX,进一步改进COMPAX算法。
2014年,本校学生常嘉辉提出了PLWAH+算法,改进了PLWAH算法。
2015年,本校学生常嘉辉提出了SPLWAH 算法。
2015年,本校学生吴垠鋆提出了CAMP算法,进一步改进WT(Wavelet Trie)算法。
2015年,本校学生吴垠鋆和温禹豪提出了COMBAT算法,进一步改进了了SECOMPAX算法。
2016年,本校学生温禹豪和王晗提出了MASC算法,进一步改进BBC/WAH算法。
2016年,本校学生李辰星等,提出了BAH算法,进一步改进了BBC算法。
2017年,本校学生郑文勋提出了CODIS方法,进一步改进性能。
位图索引方法
**CODIS (Compressing Dirty Snippet) (C++ )
==研究方向==
研究点:使用位图索引支撑的算法。研究点:使用位图索引支撑的[[大数据算法]]。 ==底层 == 处理器与FPGA
=== MPSoC增强的索引运算===
#Sebastian Haas et al., An MPSoC for Energy-Efficient Database Query Processing, DAC 2016.
#Sebastian Haas et al., HW/SW-Database-CoDesign for Compressed Bitmap Index Processing, ASAP 2016.
=== ISA增强的集运算===
#O. Arnold et al., An application-specific instruction set for accelerating set-oriented database primitives. SIGMOD 2014.
=== 有限状态机运行并行加速===
使用Intel Xeon Phi加速卡。
#Peng Jiang et al., Combining SIMD and Many Multi-core Parallelism for Finite State Machines with Enumerative Speculation, PPoPP 2017.
==上层 ==
=== 非循环图的可达性查询===
#Sebastiaan J. van Schaik et al., A Memory Efficient Reachability Data Structure Through Bit Vector Compression, SOGMOD 2011.
=== ISA增强的集运算频繁项目集发现 ===
#O. Arnold et al., An application查找频繁项目集(Frequent ItemSets)。其中最有名的算法是A-specific instruction set for accelerating set-oriented database primitives. SIGMOD 2014. === 关联规则挖掘 ===Priori算法。
关联规则挖掘(association 从数据集中抽取频繁集,抽取的结果往往采用if-then 形式的规则集合来表示,这些规则被称为关联规则(association rule)。频繁项目集发现常常被看成关联规则挖掘(association rule mining),查找频繁项目集(Frequent ItemSets)。其中最有名的算法是Apriori算法。mining)或关联规则发现。
基于位图的Apriori算法加速。
#Gangyi Zhu et al., SciCSM: Novel Contrast Set Mining over Scientific Datasets Using Bitmap Indices, SSDBM 2015.
=== 数据采样 ===
数据采样(Data Sampling)。
2014年,俄亥俄州立大学的Yu Su等提出了位图索引取样技术处理大规模分布式数据集,这样能保留原始数据的特征,并且造成的损失亦处在可接受范围内。
基于位图索引的数据采样方法。
#Yu Su et al., In-Situ Bitmaps Generation and Efficient Data Analysis based on Bitmaps, HPDC 2015.
=== 子群发现 ===
# Yi Wang et al., SciSD: Novel Subgroup Discovery Over Scientific Datasets Using Bitmap Indices, #OSU-CISRC-3/15-TR03, March 2015.
=== 相似性查询 ===
#Gheorghi Guzun et al., "Supporting Dynamic Quantization for High-Dimensional Data Analytics." ExploreDB 2017.
=== 有限状态机运行并行加速===
使用Intel Xeon Phi加速卡。
#Peng Jiang et al., Combining SIMD and Many Multi-core Parallelism for Finite State Machines with Enumerative Speculation, PPoPP 2017.
=研究应用=