2015011705
来自iCenter Wiki
2017.7.11
今天创建了两个网站上的账户,并录制了24条语音指令。
2017.7.13
今天在主机上安装了windows系统,并安装了TensorFlow和anaconda python
2017.7.14
今天下午进行了初步的理论知识的学习,了解神经网络的基本知识,并且试用了tfexample,用convert_file对声频文件进行了转化,用sox对文件进行了加强,离开实验室时利用train对音频文件进行训练。因为CPU的运算速度较慢,因此效率较低。 整体操作中最需要注意的是文件路径,路径的错误在整个操作中带来了很大困扰。
2017.7.15
今天换了一台主机,重复昨天的步骤,不过将数据转移到GPU上进行运行,效率相比昨天提升极大,在离开实验室时已经完成3个epoch的训练。同时,对生成的.h5文件,利用create_pb将其生成model.pb和model.ckpt文件,初步体验了Android studio的操作环境。
2017.7.16
在昨天熟悉了Android studio的操作环境后,今天将生成的pd文件导入操作环境,生成了app-debug.apk文件,并将其导入安卓平板试验app。 不过最初时,识别的正确率一直维持在1/24左右(就是说训练基本没有任何意义),部分组的甚至低至1%。发现问题后,我们在gitlab上下载了最新的augmentation文档,之后正确率立刻明显提升,在三个epoch的训练后,识别的正确率就达到了80%以上。随后在app上进行体验,发现对部分语句识别效果极佳,比如“蓝牙播放音乐”,但也有一些语句效果不佳,比如“蓝牙开机”。