查看“大数据系统-科研”的源代码
←
大数据系统-科研
跳转至:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
您刚才请求的操作只对以下1个用户组开放:
用户
。
您可以查看并复制此页面的源代码:
=本组研究 = 实验室研究。 ==研究定位== 数据分析层面(系统级、功能):关联规则分析、对比集分析、协同过滤、图的可达性查询 算法实现层面(进程级): A-Priori 算法、相似度计算、对比集挖掘 数据结构层面(编程语言):Bitmap/Bit_array/Bitset/... (C++、Go、Java 函数库) 硬件执行层面(处理器层面):BMI/SSE/AVX/AVX2/FMA (通用机器指令 Instructions) 硬件执行层面(FPGA 层面):专用机器指令、软硬件协同设计(HW/SW co-design) ==本组工作== ===数据分析层面=== 协同过滤(Collaborative filtering) ===数据结构层面=== 位图索引方法 **CODIS (Compressing Dirty Snippet) (C++ ) **[http://gitlab.icenter.tsinghua.edu.cn/zhenchen/BAH BAH](Byte Aligned Hybrid) (C++ Language) **[https://github.com/thuwuyinjun/CAMP CAMP](Common Affix Merging with Partition) (Java Language) **SPLWAH (SPLASH WAH)(CUDA Language) **COMBAT (COMbining Binary And Ternary encoding)(C++) **MASC(MAximized Stride with Carrier)(C++) *本组论文 # Wenxun Zheng et al., CODIS: A New Compression Scheme for Bitmap Indexes, ANCS 2017. # Chenxing Li et al., BAH: A Bitmap Index Compression Algorithm for Fast Data Retrieval, LCN 2016. # Yinjun Wu et al., CAMP: A new bitmap index for data retrieval in traffic archival, Communication Letters, Vol. 20, No. 6, pp.1128 - 1131, June 2016. # Jiahui Chang et al., SPLWAH: A bitmap index compression scheme for searching in archival Internet traffic. ICC 2015. # Yinjun Wu et al., COMBAT: a new bitmap index coding algorithm for big data. TST 2016. *论文列表 http://net.icenter.tsinghua.edu.cn/netplus/paper.html ==研究方向== 研究点:使用位图索引支撑的[[大数据算法]]。 ==底层 == 处理器与FPGA === MPSoC增强的索引运算=== #Sebastian Haas et al., An MPSoC for Energy-Efficient Database Query Processing, DAC 2016. #Sebastian Haas et al., HW/SW-Database-CoDesign for Compressed Bitmap Index Processing, ASAP 2016. === ISA增强的集运算=== #O. Arnold et al., An application-specific instruction set for accelerating set-oriented database primitives. SIGMOD 2014. === 有限状态机运行并行加速=== 使用Intel Xeon Phi加速卡。 #Peng Jiang et al., Combining SIMD and Many Multi-core Parallelism for Finite State Machines with Enumerative Speculation, PPoPP 2017. ==上层 == === 非循环图的可达性查询=== #Sebastiaan J. van Schaik et al., A Memory Efficient Reachability Data Structure Through Bit Vector Compression, SOGMOD 2011. === 频繁项目集发现 === 查找频繁项目集(Frequent ItemSets)。其中最有名的算法是A-Priori算法。 从数据集中抽取频繁集,抽取的结果往往采用if-then 形式的规则集合来表示,这些规则被称为关联规则(association rule)。频繁项目集发现常常被看成关联规则挖掘(association rule mining)或关联规则发现。 基于位图的Apriori算法加速。 #Sung-Tan Kim et al., "BAR: bitmap-based association rule: an implementation and its optimizations." ACM MoMM 2009. === 对比度设置学习=== 对比度设置学习(对比集分析)是一种关联规则的学习 ,旨在找出有意义的不同的群体之间的差异,通过逆向工程的关键预测指标,确定每一个特定的组。 基于位图的对比集挖掘算法加速。 #Gangyi Zhu et al., SciCSM: Novel Contrast Set Mining over Scientific Datasets Using Bitmap Indices, SSDBM 2015. === 数据采样 === 数据采样(Data Sampling)。 基于位图索引的数据采样方法。 # Su, Yu, et al. "Taming massive distributed datasets: data sampling using bitmap indices." HPDC 2013. === 相关性挖掘=== * 相关性测度(Correlation Metrics ) **地球移动距离(Earth Mover's Distance, EMD) **香农熵(Shannon's Entropy)、互信息(Mutual Information)、条件熵(Conditional Entropy) 相关性分析位图索引加速。 #Yu Su et al., In-Situ Bitmaps Generation and Efficient Data Analysis based on Bitmaps, HPDC 2015. === 子群发现 === 子群发现(subgroup mining)是数据分析的一个重要方法。 基于位图索引的子群发现方法加速。 # Yi Wang et al., SciSD: Novel Subgroup Discovery Over Scientific Datasets Using Bitmap Indices, #OSU-CISRC-3/15-TR03, March 2015. === 相似性查询 === 相似性查询 (Similarity searches)是探索式数据分析(exploratory data analysis)的一个重要任务。距离度量(Distance metrics)方法是相似性查询的基础。 基于BSI(Bit Slice Index)位图索引方法加速K-近邻(kNN)方法。 #Gheorghi Guzun et al., "Supporting Dynamic Quantization for High-Dimensional Data Analytics." ExploreDB 2017. =研究应用= 数码视讯、中国联通、百度公司、华为技术 =教材= # Leskovec, Jure, Anand Rajaraman, and Jeffrey David Ullman. Mining of massive datasets. Cambridge University Press, 2014. [http://www.mmds.org/ MMDS_book]
返回
大数据系统-科研
。
导航菜单
个人工具
创建账户
登录
名字空间
页面
讨论
变种
查看
阅读
查看源代码
查看历史
操作
搜索
导航
首页
实践教学
个性化3D设计与实现
人工智能实践教学
区块链技术及应用
虚拟现实技术与内容制作
超越学科界限的认知基础课程
电子工艺实习
Nand2Tetris Engine Curriculum
TULLL Creative Learning Group
Wiki上手说明
Wiki账户创建
最近更改
工具
链入页面
相关更改
特殊页面
页面信息