“实验室探究课-智能问答与智能系统”版本间的差异
(→开源搜索引擎) |
|||
第1行: | 第1行: | ||
=版权申明= | =版权申明= | ||
+ | |||
CC BY-NC-SA | CC BY-NC-SA | ||
=课程介绍= | =课程介绍= | ||
+ | |||
45单元-智能问答与智能系统 | 45单元-智能问答与智能系统 | ||
=教学团队= | =教学团队= | ||
+ | |||
==saturnLab介绍== | ==saturnLab介绍== | ||
第13行: | 第16行: | ||
==学生准备== | ==学生准备== | ||
+ | |||
携带笔记本,智能手机 | 携带笔记本,智能手机 | ||
+ | |||
(Bring your own laptop computers and camera-ready smart phones) | (Bring your own laptop computers and camera-ready smart phones) | ||
第43行: | 第48行: | ||
===搜索引擎的原理=== | ===搜索引擎的原理=== | ||
+ | |||
#爬取网页 | #爬取网页 | ||
#建立索引 | #建立索引 | ||
第49行: | 第55行: | ||
===搜索引擎的系统=== | ===搜索引擎的系统=== | ||
+ | |||
#爬虫系统-Crawler | #爬虫系统-Crawler | ||
#索引系统-Indexer | #索引系统-Indexer | ||
第55行: | 第62行: | ||
===索引系统=== | ===索引系统=== | ||
+ | |||
索引(Index)是加快查找的数据结构(data structure) | 索引(Index)是加快查找的数据结构(data structure) | ||
+ | |||
#倒排索引(Inverted Index)是搜索引擎使用的数据结构 | #倒排索引(Inverted Index)是搜索引擎使用的数据结构 | ||
#倒排索引将关键字(keyword)映射到文档(document) | #倒排索引将关键字(keyword)映射到文档(document) | ||
#倒排索引多采用倒排列表(posting list)的数据结构 | #倒排索引多采用倒排列表(posting list)的数据结构 | ||
− | # | + | #倒排列表用来存放文档编号,单词频率和文档位置等,来配合单词编号,文档频率和文档位置进行查找 |
==开源搜索引擎== | ==开源搜索引擎== | ||
第70行: | 第79行: | ||
==智能助手IPA== | ==智能助手IPA== | ||
+ | |||
智能助手(Intelligent Personal Assistants, IPAs),是一种新型的人机交互方式,使用者通过语音,图像等自然方式与机器交互。 | 智能助手(Intelligent Personal Assistants, IPAs),是一种新型的人机交互方式,使用者通过语音,图像等自然方式与机器交互。 | ||
==智能问答== | ==智能问答== | ||
− | + | 苹果Siri,微软Cortana,谷歌Now,亚马逊Echo | |
===IBM沃森=== | ===IBM沃森=== | ||
+ | |||
====危险边缘(Jeopardy)==== | ====危险边缘(Jeopardy)==== | ||
+ | |||
危险边缘(Jeopardy)是一个真人竞争答题的电视节目。 | 危险边缘(Jeopardy)是一个真人竞争答题的电视节目。 | ||
+ | |||
#危险边缘设置3个竞赛选手互相对抗,通过丰富的自然语言回答主题涉及广泛的各种问题。 | #危险边缘设置3个竞赛选手互相对抗,通过丰富的自然语言回答主题涉及广泛的各种问题。 | ||
#回答问题必须具有置信度、准确度以及回答速度,基本上3秒之内完成答题。 | #回答问题必须具有置信度、准确度以及回答速度,基本上3秒之内完成答题。 | ||
====IBM Watson==== | ====IBM Watson==== | ||
+ | |||
2011年沃森参与危险边缘(Jeopardy),并战胜对手,获得奖金。Watson是继1997年5月深蓝战胜人类世界冠军卡斯帕罗夫,人机竞赛的一个新里程碑。 | 2011年沃森参与危险边缘(Jeopardy),并战胜对手,获得奖金。Watson是继1997年5月深蓝战胜人类世界冠军卡斯帕罗夫,人机竞赛的一个新里程碑。 | ||
第120行: | 第134行: | ||
===数据库=== | ===数据库=== | ||
+ | |||
三元数据库 | 三元数据库 | ||
+ | |||
[http://virtuoso.openlinksw.com/ Virtuoso Universal Server] | [http://virtuoso.openlinksw.com/ Virtuoso Universal Server] | ||
===开放知识库=== | ===开放知识库=== | ||
+ | |||
[http://wiki.dbpedia.org/ DBpedia] | [http://wiki.dbpedia.org/ DBpedia] | ||
第143行: | 第160行: | ||
===机器感知=== | ===机器感知=== | ||
+ | |||
语音识别 voice recognition | 语音识别 voice recognition | ||
第150行: | 第168行: | ||
===图片搜索=== | ===图片搜索=== | ||
+ | |||
腾讯优图团队 | 腾讯优图团队 | ||
===人脸识别=== | ===人脸识别=== | ||
− | + | ||
− | [http://www.faceplusplus.com/ Face++] | + | 旷视科技 [http://www.faceplusplus.com/ Face++] |
+ | |||
+ | 偏重于人脸识别与计算机视觉 | ||
===语音识别=== | ===语音识别=== | ||
− | + | ||
− | [http://chumenwenwen.com/ MobVoi] | + | 出门问问 [http://chumenwenwen.com/ MobVoi] |
+ | |||
+ | 偏重自然语言处理与语音识别 | ||
=致谢= | =致谢= | ||
+ | |||
本课程获得微软Azure云计算与机器学习捐赠支持。 | 本课程获得微软Azure云计算与机器学习捐赠支持。 | ||
感谢微软公司 杨滔经理,章艳经理,刘士君工程师,闫伟工程师。 | 感谢微软公司 杨滔经理,章艳经理,刘士君工程师,闫伟工程师。 |
2016年10月26日 (三) 17:13的版本
目录
版权申明
CC BY-NC-SA
课程介绍
45单元-智能问答与智能系统
教学团队
saturnLab介绍
课程内容
学生准备
携带笔记本,智能手机
(Bring your own laptop computers and camera-ready smart phones)
相关课程
云计算与数据中心
李兆基科技大楼三层B342房间
大数据平台
大数据存储
MapReduce处理
大数据解析
搜索引擎
搜索引擎的原理
- 爬取网页
- 建立索引
- 排序
- 搜索词处理
搜索引擎的系统
- 爬虫系统-Crawler
- 索引系统-Indexer
- 排序系统-Sorting
- 用户接口-UI
索引系统
索引(Index)是加快查找的数据结构(data structure)
- 倒排索引(Inverted Index)是搜索引擎使用的数据结构
- 倒排索引将关键字(keyword)映射到文档(document)
- 倒排索引多采用倒排列表(posting list)的数据结构
- 倒排列表用来存放文档编号,单词频率和文档位置等,来配合单词编号,文档频率和文档位置进行查找
开源搜索引擎
智能助手IPA
智能助手(Intelligent Personal Assistants, IPAs),是一种新型的人机交互方式,使用者通过语音,图像等自然方式与机器交互。
智能问答
苹果Siri,微软Cortana,谷歌Now,亚马逊Echo
IBM沃森
危险边缘(Jeopardy)
危险边缘(Jeopardy)是一个真人竞争答题的电视节目。
- 危险边缘设置3个竞赛选手互相对抗,通过丰富的自然语言回答主题涉及广泛的各种问题。
- 回答问题必须具有置信度、准确度以及回答速度,基本上3秒之内完成答题。
IBM Watson
2011年沃森参与危险边缘(Jeopardy),并战胜对手,获得奖金。Watson是继1997年5月深蓝战胜人类世界冠军卡斯帕罗夫,人机竞赛的一个新里程碑。
如果沃森想要战胜人类选手,需要以自然语言给出问题的70%的答案,正确率需要高于80%,且三秒内完成每道题的回答。 这就需要沃森具备实时性以及自动性。
Ferrucci, David A. "Introduction to “this is Watson”." IBM Journal of Research and Development 56, no. 3.4 (2012): 1-1.
DeepQA
Ferrucci, David A. et al. "Building Watson: An overview of the DeepQA project." AI magazine 31, no. 3 (2010): 59-79.
这就是沃森
- 介绍“这就是Watson”
- 问题分析:Watson怎样读取一个线索
- Watson中的深度语法分析
- 文本资源的获取与工程
- 文档中自动的知识提取
- 大海捞针:搜索和候选答案生成
- 使用类型强制来分类候选答案
- 文本类证据获取与分析
- 深度问答中的关系提取与打分
- 深度问答中的结构化数据与推断
- 特殊问题和技术
- 识别隐含的关系
- 深度问答中基于事实的问题分解
- 深度问答中答案的合并和评级框架
- 让Watson更快
- Watson游戏策略中的仿真,学习和优化技术
- 比赛中:Watson和危险边缘的交互
沃森服务
知识库
数据库
三元数据库
开放知识库
Farzaneh Mahdisoltani, Joanna Biega, Fabian M. Suchanek, YAGO3: A Knowledge Base from Multilingual Wikipedias, Conference on Innovative Data Systems Research (CIDR 2015).
深度学习
LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature 521(7553), pp:436-444, 2015.
Jeff Dean, Large-Scale Deep Learning for Intelligent Computer Systems, WSDM 2016.
机器感知
语音识别 voice recognition
计算机视觉 computer vision
自然语言理解 natural language processing
图片搜索
腾讯优图团队
人脸识别
旷视科技 Face++
偏重于人脸识别与计算机视觉
语音识别
出门问问 MobVoi
偏重自然语言处理与语音识别
致谢
本课程获得微软Azure云计算与机器学习捐赠支持。
感谢微软公司 杨滔经理,章艳经理,刘士君工程师,闫伟工程师。