“临界点”版本间的差异

2020年5月7日 (四) 12:37的最后版本

康卓栋
靳书杰
孙嘉祎
王凤漾 (桌面机器人，小型桌面机械臂)
李嘉城（躲闪机器人，最终目标：人形机器人对于飞过来的物体可以自动闪躲或者自动抓取）

语音识别调研情况： 1. 研究背景以及意义：随着计算机处理能力的迅速提高，语音识别技术得到了飞速发展，该技术的发展和应用改变了人们的生产和生活方式，正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 2. 语音识别的基本原理；语音识别系统本质是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需特征，在此基础上建立语音识别所需的模板。计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。语音识别的目标是将人类语音中的内容转换为计算机可读取的输入，例如字符序列。

特征提取/前端处理：提取语音信号的相关特征声学模型：对应于语音到音节概率的计算语言模型：对应于音节到单词概率的计算 3. 重要技术：（1） HMM：隐马尔可夫模型

预处理 ·预滤波

  语音信号和频谱分量
  采样和量化

·预加重

  语音衰减
  信号提升/加重

·端点检测

  短时平均能量   短时平均过零率
  （离散信号的相邻两个取样值具有不同的符号时，便出现过零现象，单位时间内过零次数叫做过零率）

特征提取 ·选取的合适的特征参数

  升学特征的提取和选择
  考虑特征参数的计算量

·进行适当的数据压缩

  矢量量化技术
  节省存储容量和识别运算量

·对于非特定人语音识别系统来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息（对特定人语音识别系统来讲，则应该增加说话人的个人信息）

声学特征：平滑音，爆破音等，按帧采样进行分析语音 ·时域特征/频域特征

  时域特征： 1.共振峰   2.短时平均能量   3.短时平均过零率

声学模型 ·马尔可夫模型：离散时域的有限状态自动机 ·隐马尔可夫模型HMM：则是指马尔可夫模型的内部状态外界不可见，当从一个状态转移到另一个状态时，外界只能观察到各个时刻的输入值，而不能观测到状态转移序列。 ·对语音识别系统而言，输出值通常就是从各个帧提取计算而得的声学特征。 ·HMM的两个假设

  内部状态的转移只与前一个状态有关
  输出值只与当前状态有关

声学模型指标：

  训练数据量，语音识别率，灵活性

模型识别单元/模型基元

  词发音模型
  音节模型
  半音节模型
  音素模型

一款优秀的产品：苹果siri 1.Siri 变身闹钟这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键，告诉Siri，“早上7点15的时候叫醒我”;想打会儿小盹，就说“40分钟后叫醒我”。只要准确地报上时间，Siri将是最好用的闹钟。 2.用 Siri 寻找咖啡厅喝咖啡是很多上班族的习惯，一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候，想找个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri，寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求，Siri将反馈给还算不错的答案，很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求，还是用更专业的应用Help吧，它会给你更详细的答案。 3.想去哪，Siri 告诉你查找出行路线的过程中往往要输入不少文字。想省事的话，还是用Siri完成这一切吧。报上要去的地点，Siri会调用 Google 地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看，Siri还没有出过什么差错，就像GPS那样好使。2016年9月14日，苹果iOS 10正式版问世，易到是目前iOS10中首个支持Siri语音叫车的软件。Siri可以直接启动易到，并帮用户完成订车。[6] 4.用 Siri 播放随机音乐如果你厌倦了固定顺序的音乐播放列表，可以试着用Siri播放随机音乐。首先，你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候，告诉Siri”放皇后乐队的歌曲”。紧接着，Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。 5.发送短信，Siri 代劳还在边走路边发短信?行路不安全不说，发短信还费劲，以后用Siri代劳吧。走路的时候，将iPhone放在耳边，告诉Siri“用短信告诉她，我将晚点到家”。不用匆忙，告诉Siri你想表达的内容，即可轻轻松松地发送短信。 6.天气预报，Siri 知道这也是Siri十分擅长的一项功能。关于气象信息的问题，Siri都能正确理解。想要知道明天的天气怎样，问问Siri就知道了。 7.用Siri提醒日程安排既然能把Siri当闹钟用，你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯，用Google日历安排自己的各项日程。生活中的一些需要提醒的小事，完全没有必要一项项地加到Google日历中去，用Siri就可以搞定这个问题。比如说，“十点钟的时候，提醒我去刷牙”。 8.用 Siri 提醒地点 Siri 提醒地点的功能还不是很完善。除了“家”或“上班处”，Siri 对于一些位置称呼的理解能力不佳。但是，Siri 对“这里”的理解十分准确，即当前的GPS坐标位置。所以你可以这样用 Siri 的提醒功能，途经一家不错的小店时，可以将它的位置标记为“这里”并设置好提醒，以便日后有时间时再次光顾。 9.Siri 为你答疑解惑珠穆朗玛峰多高?美国的GDP是多少?回答不上来的话，无需 Google，张嘴问问 Siri 吧。Siri 本身是不知道这些问题的答案的，它会从“知识问答引擎”Wolfram Alpha中寻找答案。所有的回答都会以自然语言的形式呈现。这也是 Siri 被认为将对 Google 重要威胁的原因。当然，Siri 在相当长的一段时间肯定不能取代Google，但对 Google 的威胁将是长远的。当 Siri 足够智能的时候，人们用它取代 Google 并不是没有可能。 10.用 Siri 发送微博（支持新浪微博、腾讯微博）不过在使用 Siri 发微博前，还得做一些必要的设置。 11.用 Siri来订电影票。（美国） iOS 9 中的 Siri 拥有新外观、新声音和新功能。它的界面经过重新设计，以淡入视图浮现于任意屏幕画面的最上层。Siri 回答问题的速度更快，还能查询更多信息源，如百度百科。它可以承担更多任务，如回电话、播放语音邮件、调节屏幕亮度，以及更多

“临界点”版本间的差异

2020年5月7日 (四) 12:37的最后版本

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具

@@ 第2行： / 第2行： @@
 *靳书杰
 *孙嘉祎
-*王凤漾
+*王凤漾 (桌面机器人，小型桌面机械臂)
 *李嘉城（躲闪机器人，最终目标：人形机器人对于飞过来的物体可以自动闪躲或者自动抓取）
+语音识别调研情况：
+.	研究背景以及意义：
+随着计算机处理能力的迅速提高，语音识别技术得到了飞速发展，该技术的发展和应用改变了人们的生产和生活方式，正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
+.	语音识别的基本原理；
+语音识别系统本质是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需特征，在此基础上建立语音识别所需的模板。
+计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
+语音识别的目标是将人类语音中的内容转换为计算机可读取的输入，例如字符序列。
+特征提取/前端处理：提取语音信号的相关特征
+声学模型：对应于语音到音节概率的计算
+语言模型：对应于音节到单词概率的计算
+.	重要技术：
+（1）	HMM：隐马尔可夫模型
+预处理
+·预滤波
+   语音信号和频谱分量
+   采样和量化
+·预加重
+   语音衰减
+   信号提升/加重
+·端点检测
+   短时平均能量   短时平均过零率
+   （离散信号的相邻两个取样值具有不同的符号时，便出现过零现象，单位时间内过零次数叫做过零率）
+特征提取
+·选取的合适的特征参数
+   升学特征的提取和选择
+   考虑特征参数的计算量
+·进行适当的数据压缩
+   矢量量化技术
+   节省存储容量和识别运算量
+·对于非特定人语音识别系统来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息（对特定人语音识别系统来讲，则应该增加说话人的个人信息）
+声学特征：平滑音，爆破音等，按帧采样进行分析语音
+·时域特征/频域特征
+   时域特征： 1.共振峰   2.短时平均能量   3.短时平均过零率
+声学模型
+·马尔可夫模型：离散时域的有限状态自动机
+·隐马尔可夫模型HMM：则是指马尔可夫模型的内部状态外界不可见，当从一个状态转移到另一个状态时，外界只能观察到各个时刻的输入值，而不能观测到状态转移序列。
+·对语音识别系统而言，输出值通常就是从各个帧提取计算而得的声学特征。
+·HMM的两个假设
+   内部状态的转移只与前一个状态有关
+   输出值只与当前状态有关
+声学模型指标：
+   训练数据量，语音识别率，灵活性
+模型识别单元/模型基元
+   词发音模型
+   音节模型
+   半音节模型
+   音素模型
+一款优秀的产品：苹果siri
+.Siri 变身闹钟
+这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键，告诉Siri，“早上7点15的时候叫醒我”;想打会儿小盹，就说“40分钟后叫醒我”。只要准确地报上时间，Siri将是最好用的闹钟。
+.用 Siri 寻找咖啡厅
+喝咖啡是很多上班族的习惯，一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候，想找个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri，寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求，Siri将反馈给还算不错的答案，很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求，还是用更专业的应用Help吧，它会给你更详细的答案。
+.想去哪，Siri 告诉你
+查找出行路线的过程中往往要输入不少文字。想省事的话，还是用Siri完成这一切吧。报上要去的地点，Siri会调用 Google 地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看，Siri还没有出过什么差错，就像GPS那样好使。2016年9月14日，苹果iOS 10正式版问世，易到是目前iOS10中首个支持Siri语音叫车的软件。Siri可以直接启动易到，并帮用户完成订车。[6]
+.用 Siri 播放随机音乐
+如果你厌倦了固定顺序的音乐播放列表，可以试着用Siri播放随机音乐。首先，你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候，告诉Siri”放皇后乐队的歌曲”。紧接着，Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。
+.发送短信，Siri 代劳
+还在边走路边发短信?行路不安全不说，发短信还费劲，以后用Siri代劳吧。走路的时候，将iPhone放在耳边，告诉Siri“用短信告诉她，我将晚点到家”。不用匆忙，告诉Siri你想表达的内容，即可轻轻松松地发送短信。
+.天气预报，Siri 知道
+这也是Siri十分擅长的一项功能。关于气象信息的问题，Siri都能正确理解。想要知道明天的天气怎样，问问Siri就知道了。
+.用Siri提醒日程安排
+既然能把Siri当闹钟用，你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯，用Google日历安排自己的各项日程。生活中的一些需要提醒的小事，完全没有必要一项项地加到Google日历中去，用Siri就可以搞定这个问题。比如说，“十点钟的时候，提醒我去刷牙”。
+.用 Siri 提醒地点
+Siri 提醒地点的功能还不是很完善。除了“家”或“上班处”，Siri 对于一些位置称呼的理解能力不佳。但是，Siri 对“这里”的理解十分准确，即当前的GPS坐标位置。所以你可以这样用 Siri 的提醒功能，途经一家不错的小店时，可以将它的位置标记为“这里”并设置好提醒，以便日后有时间时再次光顾。
+.Siri 为你答疑解惑
+珠穆朗玛峰多高?美国的GDP是多少?回答不上来的话，无需 Google，张嘴问问 Siri 吧。Siri 本身是不知道这些问题的答案的，它会从“知识问答引擎”Wolfram Alpha中寻找答案。所有的回答都会以自然语言的形式呈现。这也是 Siri 被认为将对 Google 重要威胁的原因。当然，Siri 在相当长的一段时间肯定不能取代Google，但对 Google 的威胁将是长远的。当 Siri 足够智能的时候，人们用它取代 Google 并不是没有可能。
+.用 Siri 发送微博（支持新浪微博、腾讯微博）
+不过在使用 Siri 发微博前，还得做一些必要的设置。
+.用 Siri来订电影票。（美国）
+iOS 9 中的 Siri 拥有新外观、新声音和新功能。它的界面经过重新设计，以淡入视图浮现于任意屏幕画面的最上层。Siri 回答问题的速度更快，还能查询更多信息源，如百度百科。它可以承担更多任务，如回电话、播放语音邮件、调节屏幕亮度，以及更多