2016年10月22日 (六) 04:03的版本

版权申明

CC BY-NC-SA

课程介绍

45单元-智能问答与智能系统

教学团队

saturnLab介绍

iNetLab

课程内容

云计算与数据中心

李兆基科技大楼三层B342房间

iCenter-Cloud

大数据平台

大数据存储

Hadoop

MapReduce处理

大数据解析

Druid

搜索引擎

搜索引擎的工作原理

爬取网页
建立索引
排序
搜索词处理

搜索引擎的系统

爬虫系统-Crawler
索引系统-Indexer
排序系统-Sorting
用户接口-UI

索引系统

索引（Index）是加快查找的数据结构(data structure)

倒排索引(Inverted Index)是搜索引擎使用的数据结构
倒排索引将关键字(keyword)映射到文档(document)
倒排索引多采用倒排列表（posting list）的数据结构
倒排列表用来存放文档编号，单词频率和文档位置等，来配合单词编号，文档频率和文档位置进行查找。

智能助手IPA

智能助手(Intelligent Personal Assistants, IPAs)

智能问答

苹果Siri，微软Cortana，谷歌Now，亚马逊Echo。

IBM沃森

危险边缘(Jeopardy)

危险边缘(Jeopardy)是一个真人竞争答题的电视节目，危险边缘设置3个竞赛选手互相对抗，通过丰富的自然语言回答主题涉及广泛的各种问题。

回答问题必须具有置信度、准确度以及回答速度，基本上3秒之内完成答题。

IBM Watson

2011年沃森参与危险边缘(Jeopardy)，并战胜对手，获得奖金。Watson是继1997年5月深蓝战胜人类世界冠军卡斯帕罗夫，人机竞赛的一个新里程碑。

如果沃森想要战胜人类选手，需要以自然语言给出问题的70%的答案，正确率需要高于80%，且三秒内完成每道题的回答。这就需要沃森具备实时性以及自动性。

Ferrucci, David A. "Introduction to “this is Watson”." IBM Journal of Research and Development 56, no. 3.4 (2012): 1-1.

DeepQA

Ferrucci, David A. et al. "Building Watson: An overview of the DeepQA project." AI magazine 31, no. 3 (2010): 59-79.

这就是沃森

介绍“这就是Watson”
问题分析：Watson怎样读取一个线索
Watson中的深度语法分析
文本资源的获取与工程
文档中自动的知识提取
大海捞针：搜索和候选答案生成
使用类型强制来分类候选答案
文本类证据获取与分析
深度问答中的关系提取与打分
深度问答中的结构化数据与推断
特殊问题和技术
识别隐含的关系
深度问答中基于事实的问题分解
深度问答中答案的合并和评级框架
让Watson更快
Watson游戏策略中的仿真，学习和优化技术
比赛中：Watson和危险边缘的交互

知识库

数据库

三元数据库 Virtuoso Universal Server

开放知识库

Farzaneh Mahdisoltani, Joanna Biega, Fabian M. Suchanek, YAGO3: A Knowledge Base from Multilingual Wikipedias, Conference on Innovative Data Systems Research (CIDR 2015).

深度学习

LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature 521(7553), pp:436-444, 2015.

Jeff Dean, Large-Scale Deep Learning for Intelligent Computer Systems, WSDM 2016.

机器感知

语音识别 voice recognition

计算机视觉 computer vision

自然语言理解 natural language processing

图片搜索

腾讯优图团队

人脸识别

旷视科技Face++，偏重于人脸识别与计算机视觉 Face++

语音识别

出门问问Mobvoi,偏重自然语言处理与语音识别 MobVoi

致谢

本课程获得微软Azure云计算与机器学习捐赠支持。

感谢微软公司杨滔经理，章艳经理，刘士君工程师，闫伟工程师。

@@ 第56行： / 第56行： @@
 #倒排列表用来存放文档编号，单词频率和文档位置等，来配合单词编号，文档频率和文档位置进行查找。
-==智能问答==
+==智能助手IPA==
-==智能助手==
 智能助手(Intelligent Personal Assistants, IPAs)
+==智能问答==
 苹果Siri，微软Cortana，谷歌Now，亚马逊Echo。
-===危险边缘(Jeopardy)===
+===IBM沃森===
+====危险边缘(Jeopardy)====
 危险边缘(Jeopardy)是一个真人竞争答题的电视节目，危险边缘设置3个竞赛选手互相对抗，通过丰富的自然语言回答主题涉及广泛的各种问题。
 回答问题必须具有置信度、准确度以及回答速度，基本上3秒之内完成答题。
-===IBM Watson===
+====IBM Watson====
 年沃森参与危险边缘(Jeopardy)，并战胜对手，获得奖金。Watson是继1997年5月深蓝战胜人类世界冠军卡斯帕罗夫，人机竞赛的一个新里程碑。
@@ 第75行： / 第77行： @@
 Ferrucci, David A. "Introduction to “this is Watson”." IBM Journal of Research and Development 56, no. 3.4 (2012): 1-1.
-===DeepQA===
+====DeepQA====
 Ferrucci, David A. et al. "Building Watson: An overview of the DeepQA project." AI magazine 31, no. 3 (2010): 59-79.
-=== 这就是沃森===
+==== 这就是沃森====
 #介绍“这就是Watson”

“实验室探究课-智能问答与智能系统”版本间的差异