更改 - iCenter Wiki

大数据智能-Lucida使用

添加1,002字节、2016年11月16日 (三) 06:19

/* 语音识别ASR */

[[文件:16.png]]

===Lucida中的实现方式===

我们发现，在Lucida中，ASR的任务完全交给了Kaldi GStreamer server来实现。

====GStreamer====

GStreamer 是一个开源的多媒体框架库。利用它，可以构建一系列的媒体处理模块，包括从简单的 ogg 播放功能到复杂的音频（混音）和视频（非线性编辑）的处理。

应用程序可以透明的利用解码和过滤技术。开发者可以使用简洁通用的接口来编写一个简单的插件来添加新的解码器或滤镜。

在这里，Kaldi的语音识别模型被视为GStreamer的一个插件。

====Master Server====

主服务器负责接收客户端的识别请求，为每一个请求分配一个Worker，Worker负责学习和识别的过程。

====Client====

用户可以调用给定的client程序，以指定的速率发送音频文件到服务器的监听端口，正常情况下会返回识别结果。

也可以使用提供的简单的HTTP API来发送和接收音频文件和识别结果。

个编辑