所有这些智能个人助理,包括十几年前十分火热的掌上电脑(PDA),都包含一个共同的功能:对日历的操作,即:能够查看并安排日程。与曾经的 PDA 不同的是,智能个人助理能够利用机器学习,智能地理解人类以自然语言给出的操作日历的指令,如“把下午3点的会议改到4:30”、“下一个会议在哪里开?”、“我这个周五的日历上有什么安排?”等。这一功能极大地方便了用户,尤其是商业用户的使用。
[[文件:Siri calendar.PNG|256px|无框|Siri 的 Calendar Events Retrieval 功能截图]]
=== Framework ===
进入Learn页面,加入一张吉娃娃的图片。
[[文件:Add chihuahua1.png|300px500px]]
加入成功。
[[文件:Add chihuahua2.png|300px500px]]
再加入一张蓝莓松饼的图片。
[[文件:Add muffin1.png|300px500px]]
加入成功。
[[文件:Add muffin2.png|300px500px]]
接下来尝试匹配一张吉娃娃的图片。
[[文件:Chihuahua2.png|200px150px]]
进入Infer页面,上传这张图片,再单击ask按钮。
[[文件:Ask1.png|300px500px]]
遗憾的是由于训练数据过少,Lucida认为这张吉娃娃与蓝莓松饼的图片更加接近。
*在“学习”栏增加至少一段信息。例如“约翰25岁”
*转到“推断“栏,询问一个与你所添加信息相关的的问题。例如“约翰多少岁?”
<gallery>[[文件:Infer.png]]</gallery>
(2)网页信息类
*在“学习“栏加入一条wiki百科的网址。例如“https://en.wikipedia.org/wiki/University_of_Michigan”
*转到“推断“栏,询问与添加百科信息有关的问题。例如“密歇根大学位于哪里?”
<gallery>[[文件:Infer2.png]]</gallery>
(3)数据库信息类
(1)OpenEphyra:OpenEphyra 是一个使用 Java 开发的模块化、可扩展的开源问答系统。它从网络和其他资源检索自然语言问题的答案。开发者能基于这项项目开发新的问答系统,而不用关心端到端系统。
<gallery>[[文件:Oe.png</gallery>]]
(2)Indri:提供目前最先进的文本搜索,支持多种结构的询问语言。可在一台机器上实现对五千万个文档的文本收集;分配搜索后,量级能再增加一倍。支持linux,solaris,windows和mac os等多个系统。
采用多尺度,多人脸区域,训练多个CNN网络,最后得出一张人脸图像的多维度特征。
CNN的结构如下:
[[File文件:FACE-CNN.png|700px]]
*说明:
Face patches 是进过对齐过后的的人脸块,也就是说已左(右)眼为中心的人脸区域块,嘴角为中心的人脸区域块等等,这样就有多个不同的输入块输入到CNN中。
语音识别引擎的基本系统框架如下图所示,深度学习模型中包含多层LSTM网络。
[[文件:12.png|500px600px]]
LSTM通过巧妙的结构设计有效解决了RNN的上述问题,其核心在于细胞状态(Cell)的引入(如下图):细胞状态对应A中最上方的链式结构,负责保存长期信息。
[[文件:13.png|500px600px]]
三个σ表示sigmoid函数;由于sigmoid函数的输出范围为[0,1],其输出向量u和其它向量v点乘的结果等效于v中的每个元素受到u中对应元素的门限作用,所以这三个sigmoid的输出向量在LSTM中被定义为门限,从左至右依次为:忘记门,输入门,输出门。
语音识别引擎的基本系统框架如下图所示,深度学习模型中包含多层LSTM网络。
[[文件:14.png|600px]]
Kaldi中的LSTM模型结构及各个节点的计算公式如下图所示;整体结构和前文介绍的LSTM基本网络结构类似,主要区别在于两点:一是门限取决于当前时刻输入、前一时刻的输出及元胞状态这三项;二是为了降低LSTM输出数据维度、减少运算量,在输出门的输出状态后增加了一个projection线性变换层,用于实现输出数据降维。
[[文件:15.png|600px]]
对于n帧的语音特征输入,单层LSTM的处理流程伪代码如下图所示:
[[文件:16.png|600px]]
===Lucida中的实现方式===