2015011713

来自iCenter Wiki
跳转至: 导航搜索

2017-7-11

完成wiki.icenter和Gitlab账户的创建 录制24条指令语句.

2017-7-13

完成tensorflow以及Anaconda Python的安装

2017-7-14

进行了初步的理论知识的学习,大体了解了学习网络的构造,并且下载了tfExample,利用sox对声频文件进行加强,但是利用convert_file对声频文件进行转为.h文件时必须要有ffmpeg文件进行格式整理,否则运行不了。

整体的操作步骤需要注意的是对于文件地址的输入一定要准确,否则将会带来不必要的麻烦。

2017-7-15

今天我们运行 train.py 和 client.py train文件是主运行文件,通过利用tensorflow,代码中调用了model函数,对train中fit_generator函数进行了讨论和理解,这对于我们之后自主设计model应该会有比较大的作用。之后就运行client,这其中backgroundAlter中

ALTER_RATE=1.0 RANDOM_GAIN=0.6 BGM_GAIN=0.9。挂机等待结果。但是从前几个成果来看,与理想差的很远,训练acc很高,但是test的acc很低,差不多在4%左右徘徊。今天已经完成了教学计划中的所有任务,之后的时间就是调整参数,设计模型来提高准确率。

2017-7-16

今天老师提醒,昨天我们跑的文件噪声背景的强度太大,今天就改成了ALTER_RATE=0.6 RANDOM_GAIN=0.2 BGM_GAIN=0.2 的弱噪声背景参数。但是由于我们的电脑GPU性能带不动,运行时总是报错memory limited。所以将train 和 test 的 sockDataGenerator改为了 25 和 5,这样才可以不报错。

但是这个后果就是在同样的时间内,我们的acc提升的数值就要小于更高的sockDataGenerator,这个也是没有办法的。并且有个现象就是,在最初的四个epoch过程中,训练的acc总是低于测试的acc,但是到90%以后两个基本上差不多了。截止到14:27,跑了13个epoch, 测试的acc为94%,之前曾经达到过95%。越往后将会越慢,所以感觉应该把step变小一些,比如,一个epoch包含100-30个,这样在达到95+之后就可以更加精细一些。

2017-7-17

经过了周末的努力,我们基本上一切都步入正轨。一晚上的运行基本上准确率可以达到98%+,通过实际的运行现场状况也很良好,不管是很标准的普通话或者带有方言的口音我们的只能语音识别都可以识别出来。只不过对于上 下两个字识别力比较低,之后如果还有时间的话,可以对这两个字惊醒着重联系构建模型。

之后又进行了PYNQ开发板的训练,这个板子功能十分强大,我们进行了按键控制LED和录音及音频处理的实验。利用Jupyter notebook 进行在线编程,我们下午又继续进行了摄像头的拍照和头像识别的功能,十分有趣和精准。

2017-7-18

今天彻底结束了,持续了一个周的智能语音识别挑战,收获很大。从一开始什么都不懂的小白,和同学们一起研究程序,努力读懂部分段落,当然,由于时间有限,我们并不能全部弄懂,但是在老师的讲解下,我们已经对于deeplearning有了比较深入的了解。

智能学习对于我这样的普通学生来说,曾经显得十分遥远,只知道这是一个很高端的东西,然而并没有想过有一天我可以去亲自接触他。所以当老师第一天上来让我们报名的时候,我毫不犹豫的报名了,很幸运,被选中了。老师非常的nice,性格超级好,讲解的知识也十分清晰,由于时间的缘故很多东西不能展开去讲,但是我已经能够感受到智能学习的美妙了。

结束了,很舍不得,希望可以继续进行下去。以后如果有机会了,还是要和老师申请再去机房摸索摸索更加深入学习智能学习deeplearning了。