“临界点”版本间的差异
第2行: | 第2行: | ||
*靳书杰 | *靳书杰 | ||
*孙嘉祎 | *孙嘉祎 | ||
− | *王凤漾 | + | *王凤漾 (桌面机器人,小型桌面机械臂) |
*李嘉城(躲闪机器人,最终目标:人形机器人对于飞过来的物体可以自动闪躲或者自动抓取) | *李嘉城(躲闪机器人,最终目标:人形机器人对于飞过来的物体可以自动闪躲或者自动抓取) | ||
+ | |||
+ | |||
+ | |||
+ | 语音识别调研情况: | ||
+ | 1. 研究背景以及意义: | ||
+ | 随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 | ||
+ | 2. 语音识别的基本原理; | ||
+ | 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。 | ||
+ | 计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 | ||
+ | 语音识别的目标是将人类语音中的内容转换为计算机可读取的输入,例如字符序列。 | ||
+ | |||
+ | 特征提取/前端处理:提取语音信号的相关特征 | ||
+ | 声学模型:对应于语音到音节概率的计算 | ||
+ | 语言模型:对应于音节到单词概率的计算 | ||
+ | 3. 重要技术: | ||
+ | (1) HMM:隐马尔可夫模型 | ||
+ | |||
+ | 预处理 | ||
+ | ·预滤波 | ||
+ | 语音信号和频谱分量 | ||
+ | 采样和量化 | ||
+ | ·预加重 | ||
+ | 语音衰减 | ||
+ | 信号提升/加重 | ||
+ | ·端点检测 | ||
+ | 短时平均能量 短时平均过零率 | ||
+ | (离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零次数叫做过零率) | ||
+ | |||
+ | 特征提取 | ||
+ | ·选取的合适的特征参数 | ||
+ | 升学特征的提取和选择 | ||
+ | 考虑特征参数的计算量 | ||
+ | ·进行适当的数据压缩 | ||
+ | 矢量量化技术 | ||
+ | 节省存储容量和识别运算量 | ||
+ | ·对于非特定人语音识别系统来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别系统来讲,则应该增加说话人的个人信息) | ||
+ | |||
+ | 声学特征:平滑音,爆破音等,按帧采样进行分析语音 | ||
+ | ·时域特征/频域特征 | ||
+ | 时域特征: 1.共振峰 2.短时平均能量 3.短时平均过零率 | ||
+ | |||
+ | 声学模型 | ||
+ | ·马尔可夫模型:离散时域的有限状态自动机 | ||
+ | ·隐马尔可夫模型HMM:则是指马尔可夫模型的内部状态外界不可见,当从一个状态转移到另一个状态时,外界只能观察到各个时刻的输入值,而不能观测到状态转移序列。 | ||
+ | ·对语音识别系统而言,输出值通常就是从各个帧提取计算而得的声学特征。 | ||
+ | ·HMM的两个假设 | ||
+ | 内部状态的转移只与前一个状态有关 | ||
+ | 输出值只与当前状态有关 | ||
+ | |||
+ | 声学模型指标: | ||
+ | 训练数据量,语音识别率,灵活性 | ||
+ | |||
+ | 模型识别单元/模型基元 | ||
+ | 词发音模型 | ||
+ | 音节模型 | ||
+ | 半音节模型 | ||
+ | 音素模型 | ||
+ | |||
+ | 一款优秀的产品:苹果siri | ||
+ | 1.Siri 变身闹钟 | ||
+ | 这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键,告诉Siri,“早上7点15的时候叫醒我”;想打会儿小盹,就说“40分钟后叫醒我”。只要准确地报上时间,Siri将是最好用的闹钟。 | ||
+ | 2.用 Siri 寻找咖啡厅 | ||
+ | 喝咖啡是很多上班族的习惯,一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候,想找个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri,寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求,Siri将反馈给还算不错的答案,很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求,还是用更专业的应用Help吧,它会给你更详细的答案。 | ||
+ | 3.想去哪,Siri 告诉你 | ||
+ | 查找出行路线的过程中往往要输入不少文字。想省事的话,还是用Siri完成这一切吧。报上要去的地点,Siri会调用 Google 地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看,Siri还没有出过什么差错,就像GPS那样好使。2016年9月14日,苹果iOS 10正式版问世,易到是目前iOS10中首个支持Siri语音叫车的软件。Siri可以直接启动易到,并帮用户完成订车。[6] | ||
+ | 4.用 Siri 播放随机音乐 | ||
+ | 如果你厌倦了固定顺序的音乐播放列表,可以试着用Siri播放随机音乐。首先,你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候,告诉Siri”放皇后乐队的歌曲”。紧接着,Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。 | ||
+ | 5.发送短信,Siri 代劳 | ||
+ | 还在边走路边发短信?行路不安全不说,发短信还费劲,以后用Siri代劳吧。走路的时候,将iPhone放在耳边,告诉Siri“用短信告诉她,我将晚点到家”。不用匆忙,告诉Siri你想表达的内容,即可轻轻松松地发送短信。 | ||
+ | 6.天气预报,Siri 知道 | ||
+ | 这也是Siri十分擅长的一项功能。关于气象信息的问题,Siri都能正确理解。想要知道明天的天气怎样,问问Siri就知道了。 | ||
+ | 7.用Siri提醒日程安排 | ||
+ | 既然能把Siri当闹钟用,你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯,用Google日历安排自己的各项日程。生活中的一些需要提醒的小事,完全没有必要一项项地加到Google日历中去,用Siri就可以搞定这个问题。比如说,“十点钟的时候,提醒我去刷牙”。 | ||
+ | 8.用 Siri 提醒地点 | ||
+ | Siri 提醒地点的功能还不是很完善。除了“家”或“上班处”,Siri 对于一些位置称呼的理解能力不佳。但是,Siri 对“这里”的理解十分准确,即当前的GPS坐标位置。所以你可以这样用 Siri 的提醒功能,途经一家不错的小店时,可以将它的位置标记为“这里”并设置好提醒,以便日后有时间时再次光顾。 | ||
+ | 9.Siri 为你答疑解惑 | ||
+ | 珠穆朗玛峰多高?美国的GDP是多少?回答不上来的话,无需 Google,张嘴问问 Siri 吧。Siri 本身是不知道这些问题的答案的,它会从“知识问答引擎”Wolfram Alpha中寻找答案。所有的回答都会以自然语言的形式呈现。这也是 Siri 被认为将对 Google 重要威胁的原因。当然,Siri 在相当长的一段时间肯定不能取代Google,但对 Google 的威胁将是长远的。当 Siri 足够智能的时候,人们用它取代 Google 并不是没有可能。 | ||
+ | 10.用 Siri 发送微博(支持新浪微博、腾讯微博) | ||
+ | 不过在使用 Siri 发微博前,还得做一些必要的设置。 | ||
+ | 11.用 Siri来订电影票。(美国) | ||
+ | iOS 9 中的 Siri 拥有新外观、新声音和新功能。它的界面经过重新设计,以淡入视图浮现于任意屏幕画面的最上层。Siri 回答问题的速度更快,还能查询更多信息源,如百度百科。它可以承担更多任务,如回电话、播放语音邮件、调节屏幕亮度,以及更多 |
2020年5月7日 (四) 12:37的最后版本
- 康卓栋
- 靳书杰
- 孙嘉祎
- 王凤漾 (桌面机器人,小型桌面机械臂)
- 李嘉城(躲闪机器人,最终目标:人形机器人对于飞过来的物体可以自动闪躲或者自动抓取)
语音识别调研情况: 1. 研究背景以及意义: 随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 2. 语音识别的基本原理; 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。 计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 语音识别的目标是将人类语音中的内容转换为计算机可读取的输入,例如字符序列。
特征提取/前端处理:提取语音信号的相关特征 声学模型:对应于语音到音节概率的计算 语言模型:对应于音节到单词概率的计算 3. 重要技术: (1) HMM:隐马尔可夫模型
预处理 ·预滤波
语音信号和频谱分量 采样和量化
·预加重
语音衰减 信号提升/加重
·端点检测
短时平均能量 短时平均过零率 (离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零次数叫做过零率)
特征提取 ·选取的合适的特征参数
升学特征的提取和选择 考虑特征参数的计算量
·进行适当的数据压缩
矢量量化技术 节省存储容量和识别运算量
·对于非特定人语音识别系统来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别系统来讲,则应该增加说话人的个人信息)
声学特征:平滑音,爆破音等,按帧采样进行分析语音 ·时域特征/频域特征
时域特征: 1.共振峰 2.短时平均能量 3.短时平均过零率
声学模型 ·马尔可夫模型:离散时域的有限状态自动机 ·隐马尔可夫模型HMM:则是指马尔可夫模型的内部状态外界不可见,当从一个状态转移到另一个状态时,外界只能观察到各个时刻的输入值,而不能观测到状态转移序列。 ·对语音识别系统而言,输出值通常就是从各个帧提取计算而得的声学特征。 ·HMM的两个假设
内部状态的转移只与前一个状态有关 输出值只与当前状态有关
声学模型指标:
训练数据量,语音识别率,灵活性
模型识别单元/模型基元
词发音模型 音节模型 半音节模型 音素模型
一款优秀的产品:苹果siri 1.Siri 变身闹钟 这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键,告诉Siri,“早上7点15的时候叫醒我”;想打会儿小盹,就说“40分钟后叫醒我”。只要准确地报上时间,Siri将是最好用的闹钟。 2.用 Siri 寻找咖啡厅 喝咖啡是很多上班族的习惯,一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候,想找个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri,寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求,Siri将反馈给还算不错的答案,很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求,还是用更专业的应用Help吧,它会给你更详细的答案。 3.想去哪,Siri 告诉你 查找出行路线的过程中往往要输入不少文字。想省事的话,还是用Siri完成这一切吧。报上要去的地点,Siri会调用 Google 地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看,Siri还没有出过什么差错,就像GPS那样好使。2016年9月14日,苹果iOS 10正式版问世,易到是目前iOS10中首个支持Siri语音叫车的软件。Siri可以直接启动易到,并帮用户完成订车。[6] 4.用 Siri 播放随机音乐 如果你厌倦了固定顺序的音乐播放列表,可以试着用Siri播放随机音乐。首先,你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候,告诉Siri”放皇后乐队的歌曲”。紧接着,Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。 5.发送短信,Siri 代劳 还在边走路边发短信?行路不安全不说,发短信还费劲,以后用Siri代劳吧。走路的时候,将iPhone放在耳边,告诉Siri“用短信告诉她,我将晚点到家”。不用匆忙,告诉Siri你想表达的内容,即可轻轻松松地发送短信。 6.天气预报,Siri 知道 这也是Siri十分擅长的一项功能。关于气象信息的问题,Siri都能正确理解。想要知道明天的天气怎样,问问Siri就知道了。 7.用Siri提醒日程安排 既然能把Siri当闹钟用,你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯,用Google日历安排自己的各项日程。生活中的一些需要提醒的小事,完全没有必要一项项地加到Google日历中去,用Siri就可以搞定这个问题。比如说,“十点钟的时候,提醒我去刷牙”。 8.用 Siri 提醒地点 Siri 提醒地点的功能还不是很完善。除了“家”或“上班处”,Siri 对于一些位置称呼的理解能力不佳。但是,Siri 对“这里”的理解十分准确,即当前的GPS坐标位置。所以你可以这样用 Siri 的提醒功能,途经一家不错的小店时,可以将它的位置标记为“这里”并设置好提醒,以便日后有时间时再次光顾。 9.Siri 为你答疑解惑 珠穆朗玛峰多高?美国的GDP是多少?回答不上来的话,无需 Google,张嘴问问 Siri 吧。Siri 本身是不知道这些问题的答案的,它会从“知识问答引擎”Wolfram Alpha中寻找答案。所有的回答都会以自然语言的形式呈现。这也是 Siri 被认为将对 Google 重要威胁的原因。当然,Siri 在相当长的一段时间肯定不能取代Google,但对 Google 的威胁将是长远的。当 Siri 足够智能的时候,人们用它取代 Google 并不是没有可能。 10.用 Siri 发送微博(支持新浪微博、腾讯微博) 不过在使用 Siri 发微博前,还得做一些必要的设置。 11.用 Siri来订电影票。(美国) iOS 9 中的 Siri 拥有新外观、新声音和新功能。它的界面经过重新设计,以淡入视图浮现于任意屏幕画面的最上层。Siri 回答问题的速度更快,还能查询更多信息源,如百度百科。它可以承担更多任务,如回电话、播放语音邮件、调节屏幕亮度,以及更多