“临界点”版本间的差异

来自iCenter Wiki
跳转至: 导航搜索
 
第2行: 第2行:
 
*靳书杰
 
*靳书杰
 
*孙嘉祎
 
*孙嘉祎
*王凤漾
+
*王凤漾 (桌面机器人,小型桌面机械臂)
 
*李嘉城(躲闪机器人,最终目标:人形机器人对于飞过来的物体可以自动闪躲或者自动抓取)
 
*李嘉城(躲闪机器人,最终目标:人形机器人对于飞过来的物体可以自动闪躲或者自动抓取)
 +
 +
 +
 +
语音识别调研情况:
 +
1. 研究背景以及意义:
 +
随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
 +
2. 语音识别的基本原理;
 +
语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。
 +
计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
 +
语音识别的目标是将人类语音中的内容转换为计算机可读取的输入,例如字符序列。
 +
 +
特征提取/前端处理:提取语音信号的相关特征
 +
声学模型:对应于语音到音节概率的计算
 +
语言模型:对应于音节到单词概率的计算
 +
3. 重要技术:
 +
(1) HMM:隐马尔可夫模型
 +
 +
预处理
 +
·预滤波
 +
  语音信号和频谱分量
 +
  采样和量化
 +
·预加重
 +
  语音衰减
 +
  信号提升/加重
 +
·端点检测
 +
  短时平均能量  短时平均过零率
 +
  (离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零次数叫做过零率)
 +
 +
特征提取
 +
·选取的合适的特征参数
 +
  升学特征的提取和选择
 +
  考虑特征参数的计算量
 +
·进行适当的数据压缩
 +
  矢量量化技术
 +
  节省存储容量和识别运算量
 +
·对于非特定人语音识别系统来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别系统来讲,则应该增加说话人的个人信息)
 +
 +
声学特征:平滑音,爆破音等,按帧采样进行分析语音
 +
·时域特征/频域特征
 +
  时域特征: 1.共振峰  2.短时平均能量  3.短时平均过零率
 +
 +
声学模型
 +
·马尔可夫模型:离散时域的有限状态自动机
 +
·隐马尔可夫模型HMM:则是指马尔可夫模型的内部状态外界不可见,当从一个状态转移到另一个状态时,外界只能观察到各个时刻的输入值,而不能观测到状态转移序列。
 +
·对语音识别系统而言,输出值通常就是从各个帧提取计算而得的声学特征。
 +
·HMM的两个假设
 +
  内部状态的转移只与前一个状态有关
 +
  输出值只与当前状态有关
 +
 +
声学模型指标:
 +
  训练数据量,语音识别率,灵活性
 +
 +
模型识别单元/模型基元
 +
  词发音模型
 +
  音节模型
 +
  半音节模型
 +
  音素模型
 +
 +
一款优秀的产品:苹果siri
 +
1.Siri 变身闹钟
 +
这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键,告诉Siri,“早上7点15的时候叫醒我”;想打会儿小盹,就说“40分钟后叫醒我”。只要准确地报上时间,Siri将是最好用的闹钟。
 +
2.用 Siri 寻找咖啡厅
 +
喝咖啡是很多上班族的习惯,一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候,想找个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri,寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求,Siri将反馈给还算不错的答案,很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求,还是用更专业的应用Help吧,它会给你更详细的答案。
 +
3.想去哪,Siri 告诉你
 +
查找出行路线的过程中往往要输入不少文字。想省事的话,还是用Siri完成这一切吧。报上要去的地点,Siri会调用 Google 地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看,Siri还没有出过什么差错,就像GPS那样好使。2016年9月14日,苹果iOS 10正式版问世,易到是目前iOS10中首个支持Siri语音叫车的软件。Siri可以直接启动易到,并帮用户完成订车。[6]
 +
4.用 Siri 播放随机音乐
 +
如果你厌倦了固定顺序的音乐播放列表,可以试着用Siri播放随机音乐。首先,你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候,告诉Siri”放皇后乐队的歌曲”。紧接着,Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。
 +
5.发送短信,Siri 代劳
 +
还在边走路边发短信?行路不安全不说,发短信还费劲,以后用Siri代劳吧。走路的时候,将iPhone放在耳边,告诉Siri“用短信告诉她,我将晚点到家”。不用匆忙,告诉Siri你想表达的内容,即可轻轻松松地发送短信。
 +
6.天气预报,Siri 知道
 +
这也是Siri十分擅长的一项功能。关于气象信息的问题,Siri都能正确理解。想要知道明天的天气怎样,问问Siri就知道了。
 +
7.用Siri提醒日程安排
 +
既然能把Siri当闹钟用,你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯,用Google日历安排自己的各项日程。生活中的一些需要提醒的小事,完全没有必要一项项地加到Google日历中去,用Siri就可以搞定这个问题。比如说,“十点钟的时候,提醒我去刷牙”。
 +
8.用 Siri 提醒地点
 +
Siri 提醒地点的功能还不是很完善。除了“家”或“上班处”,Siri 对于一些位置称呼的理解能力不佳。但是,Siri 对“这里”的理解十分准确,即当前的GPS坐标位置。所以你可以这样用 Siri 的提醒功能,途经一家不错的小店时,可以将它的位置标记为“这里”并设置好提醒,以便日后有时间时再次光顾。
 +
9.Siri 为你答疑解惑
 +
珠穆朗玛峰多高?美国的GDP是多少?回答不上来的话,无需 Google,张嘴问问 Siri 吧。Siri 本身是不知道这些问题的答案的,它会从“知识问答引擎”Wolfram Alpha中寻找答案。所有的回答都会以自然语言的形式呈现。这也是 Siri 被认为将对 Google 重要威胁的原因。当然,Siri 在相当长的一段时间肯定不能取代Google,但对 Google 的威胁将是长远的。当 Siri 足够智能的时候,人们用它取代 Google 并不是没有可能。
 +
10.用 Siri 发送微博(支持新浪微博、腾讯微博)
 +
不过在使用 Siri 发微博前,还得做一些必要的设置。
 +
11.用 Siri来订电影票。(美国)
 +
iOS 9 中的 Siri 拥有新外观、新声音和新功能。它的界面经过重新设计,以淡入视图浮现于任意屏幕画面的最上层。Siri 回答问题的速度更快,还能查询更多信息源,如百度百科。它可以承担更多任务,如回电话、播放语音邮件、调节屏幕亮度,以及更多

2020年5月7日 (四) 12:37的最后版本

  • 康卓栋
  • 靳书杰
  • 孙嘉祎
  • 王凤漾 (桌面机器人,小型桌面机械臂)
  • 李嘉城(躲闪机器人,最终目标:人形机器人对于飞过来的物体可以自动闪躲或者自动抓取)


语音识别调研情况: 1. 研究背景以及意义: 随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 2. 语音识别的基本原理; 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。 计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 语音识别的目标是将人类语音中的内容转换为计算机可读取的输入,例如字符序列。

特征提取/前端处理:提取语音信号的相关特征 声学模型:对应于语音到音节概率的计算 语言模型:对应于音节到单词概率的计算 3. 重要技术: (1) HMM:隐马尔可夫模型

预处理 ·预滤波

  语音信号和频谱分量
  采样和量化

·预加重

  语音衰减
  信号提升/加重

·端点检测

  短时平均能量   短时平均过零率
  (离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零次数叫做过零率)

特征提取 ·选取的合适的特征参数

  升学特征的提取和选择
  考虑特征参数的计算量

·进行适当的数据压缩

  矢量量化技术
  节省存储容量和识别运算量

·对于非特定人语音识别系统来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别系统来讲,则应该增加说话人的个人信息)

声学特征:平滑音,爆破音等,按帧采样进行分析语音 ·时域特征/频域特征

  时域特征: 1.共振峰   2.短时平均能量   3.短时平均过零率

声学模型 ·马尔可夫模型:离散时域的有限状态自动机 ·隐马尔可夫模型HMM:则是指马尔可夫模型的内部状态外界不可见,当从一个状态转移到另一个状态时,外界只能观察到各个时刻的输入值,而不能观测到状态转移序列。 ·对语音识别系统而言,输出值通常就是从各个帧提取计算而得的声学特征。 ·HMM的两个假设

  内部状态的转移只与前一个状态有关
  输出值只与当前状态有关

声学模型指标:

  训练数据量,语音识别率,灵活性

模型识别单元/模型基元

  词发音模型
  音节模型
  半音节模型
  音素模型

一款优秀的产品:苹果siri 1.Siri 变身闹钟 这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键,告诉Siri,“早上7点15的时候叫醒我”;想打会儿小盹,就说“40分钟后叫醒我”。只要准确地报上时间,Siri将是最好用的闹钟。 2.用 Siri 寻找咖啡厅 喝咖啡是很多上班族的习惯,一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候,想找个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri,寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求,Siri将反馈给还算不错的答案,很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求,还是用更专业的应用Help吧,它会给你更详细的答案。 3.想去哪,Siri 告诉你 查找出行路线的过程中往往要输入不少文字。想省事的话,还是用Siri完成这一切吧。报上要去的地点,Siri会调用 Google 地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看,Siri还没有出过什么差错,就像GPS那样好使。2016年9月14日,苹果iOS 10正式版问世,易到是目前iOS10中首个支持Siri语音叫车的软件。Siri可以直接启动易到,并帮用户完成订车。[6] 4.用 Siri 播放随机音乐 如果你厌倦了固定顺序的音乐播放列表,可以试着用Siri播放随机音乐。首先,你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候,告诉Siri”放皇后乐队的歌曲”。紧接着,Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。 5.发送短信,Siri 代劳 还在边走路边发短信?行路不安全不说,发短信还费劲,以后用Siri代劳吧。走路的时候,将iPhone放在耳边,告诉Siri“用短信告诉她,我将晚点到家”。不用匆忙,告诉Siri你想表达的内容,即可轻轻松松地发送短信。 6.天气预报,Siri 知道 这也是Siri十分擅长的一项功能。关于气象信息的问题,Siri都能正确理解。想要知道明天的天气怎样,问问Siri就知道了。 7.用Siri提醒日程安排 既然能把Siri当闹钟用,你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯,用Google日历安排自己的各项日程。生活中的一些需要提醒的小事,完全没有必要一项项地加到Google日历中去,用Siri就可以搞定这个问题。比如说,“十点钟的时候,提醒我去刷牙”。 8.用 Siri 提醒地点 Siri 提醒地点的功能还不是很完善。除了“家”或“上班处”,Siri 对于一些位置称呼的理解能力不佳。但是,Siri 对“这里”的理解十分准确,即当前的GPS坐标位置。所以你可以这样用 Siri 的提醒功能,途经一家不错的小店时,可以将它的位置标记为“这里”并设置好提醒,以便日后有时间时再次光顾。 9.Siri 为你答疑解惑 珠穆朗玛峰多高?美国的GDP是多少?回答不上来的话,无需 Google,张嘴问问 Siri 吧。Siri 本身是不知道这些问题的答案的,它会从“知识问答引擎”Wolfram Alpha中寻找答案。所有的回答都会以自然语言的形式呈现。这也是 Siri 被认为将对 Google 重要威胁的原因。当然,Siri 在相当长的一段时间肯定不能取代Google,但对 Google 的威胁将是长远的。当 Siri 足够智能的时候,人们用它取代 Google 并不是没有可能。 10.用 Siri 发送微博(支持新浪微博、腾讯微博) 不过在使用 Siri 发微博前,还得做一些必要的设置。 11.用 Siri来订电影票。(美国) iOS 9 中的 Siri 拥有新外观、新声音和新功能。它的界面经过重新设计,以淡入视图浮现于任意屏幕画面的最上层。Siri 回答问题的速度更快,还能查询更多信息源,如百度百科。它可以承担更多任务,如回电话、播放语音邮件、调节屏幕亮度,以及更多