2015011705
2017.7.11
今天创建了两个网站上的账户,并录制了24条语音指令。
2017.7.13
今天在主机上安装了windows系统,并安装了TensorFlow和anaconda python
2017.7.14
今天下午进行了初步的理论知识的学习,了解神经网络的基本知识,并且试用了tfexample,用convert_file对声频文件进行了转化,用sox对文件进行了加强,离开实验室时利用train对音频文件进行训练。因为CPU的运算速度较慢,因此效率较低。 整体操作中最需要注意的是文件路径,路径的错误在整个操作中带来了很大困扰。
2017.7.15
今天换了一台主机,重复昨天的步骤,不过将数据转移到GPU上进行运行,效率相比昨天提升极大,在离开实验室时已经完成3个epoch的训练。同时,对生成的.h5文件,利用create_pb将其生成model.pb和model.ckpt文件,初步体验了Android studio的操作环境。明天要通过Android studio生成安卓的app,非常期待。
2017.7.16
在昨天熟悉了Android studio的操作环境后,今天将生成的pd文件导入操作环境,生成了app-debug.apk文件,并将其导入安卓平板试验app。 不过最初时,识别的正确率一直维持在1/24左右(就是说训练基本没有任何意义),部分组的甚至低至1%。经过和老师的讨论,我们发现是因为之前的模型中,很多样本都是噪声,就是说之前一直在训练“噪声”。发现问题后,我们在gitlab上下载了最新的augmentation文档,之后正确率立刻明显提升,在三个epoch的训练后,识别的正确率就达到了80%以上。随后在app上进行体验,发现对部分语句识别效果极佳,比如“蓝牙播放音乐”,但也有一些语句效果不佳,比如“蓝牙开机”。 晚上阅读了深度学习方面的文献,英文文献加上不少组合数学的内容,让人觉得阅读起来比较艰涩,任重而道远。
2017.7.17
今天早上来到实验室,发现已经跑完了40个epoch,代码训练的准确率已经达到了99%以上,说明语音识别的准确率已经令人非常满意了。 今天上午主要学习了PYNQ开发板,这是一个开源框架的硬件开发平台。一上午中,我们先在空白SD卡中烧入镜像文件,并用usb接口给开发板供电,用网线连接电脑和开发板,之后就可以连接到 Jypyter 进行在线编程。上午的学习中,分别进行了按键控制LED和录音及音频处理的实验。通过实验,我初步感受到了硬件开发的过程和效果。
下午,我在PYNQ开发板的usb接口上接入摄像头,完成了拍照和人脸识别的实验,进一步了解了PYNQ开发板的多样功能。挑战单元即将走向尾声,感觉有些不舍。