|
|
第128行: |
第128行: |
| == 机器感知 == | | == 机器感知 == |
| | | |
− | 机器感知(Machine Perception),如语音,图像,视频,手势,姿态等
| + | 机器感知(Machine Perception),如语音,图像,视频,手势,姿态等 |
− | | + | |
− | 以下重点讨论
| + | |
− | '''基于深度学习的机器感知'''
| + | |
| | | |
| === 语音识别 === | | === 语音识别 === |
| | | |
− | 语音识别(Automatic Speech Recognition),简称ASR
| + | [[语音识别]],Automatic Speech Recognition,简称ASR |
− | | + | |
− | 传统方法综述
| + | |
− | | + | |
− | :#Karpagavalli, S., and E. Chandra. "A Review on Automatic Speech Recognition Architecture and Approaches." International Journal of Signal Processing, Image Processing and Pattern Recognition 9, no. 4 (2016): 393-404.
| + | |
− | | + | |
− | 基本工具
| + | |
− | | + | |
− | *: Long short term memory neural network (LSTM)
| + | |
− | :# Long short term memory neural computation, Neural computation 9 (8), 1735-1780, 1997. [http://ieeexplore.ieee.org/document/6795963 LSTM]
| + | |
− | | + | |
− | *: Connectionist temporal classification (CTC)
| + | |
− | :# Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks, ICML 2006.
| + | |
− | | + | |
− | *: Gated Recursive Unit (GRU)
| + | |
− | :# On the Properties of Neural Machine Translation: Encoder-Decoder Approaches, SSST-8, 2014.
| + | |
− | | + | |
− | [http://www.cs.toronto.edu/~graves/ Alex Graves],DeepMind研究员,语音识别多项技术开创者。 | + | |
− | | + | |
− | :# Towards End-To-End Speech Recognition with Recurrent Neural Networks, ICML 2014.
| + | |
− | :# Speech recognition with deep recurrent neural networks, 2013.
| + | |
− | :# Hybrid speech recognition with deep bidirectional LSTM, ASRU 2013.
| + | |
− | :# Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks, ICML 2006.
| + | |
− | | + | |
− | Google Speech
| + | |
− | | + | |
− | :# Google Speech Processing from Mobile to Farfield, CHiME 2016. [http://spandh.dcs.shef.ac.uk/chime_workshop/presentations/CHiME_2016_Bacchiani_keynote.pdf Google_Speech_Processing]
| + | |
| | | |
| === 计算机视觉 === | | === 计算机视觉 === |
| | | |
− | 计算机视觉(Computer Vision),简称 CV
| + | [[计算机视觉]],Computer Vision,简称CV |
− | | + | |
− | Object Detection
| + | |
− | | + | |
− | [http://www.rossgirshick.info/ Ross Girshick],FAIR研究员,R-CNN算法的开创者。 | + | |
− | | + | |
− | :<B>R-CNN (Region-based Convolutional Network method)</B>
| + | |
− | ::#Region based convolutional networks for accurate object detection and segmentation, TPAMI, 2015.
| + | |
− | ::#Rich feature hierarchies for accurate object detection and semantic segmentation, CVPR 2014.
| + | |
− | | + | |
− | :<B>Fast R-CNN (Fast Region-based Convolutional Network method)</B>
| + | |
− | ::#Fast R-CNN, ICCV 2015.
| + | |
− | | + | |
− | :<B>Faster R-CNN (Faster Region-based Convolutional Network method)</B>
| + | |
− | ::#Faster R-CNN Towards real-time object detection with region proposal networks, NIPS, 2015.
| + | |
− | | + | |
− | ::• R-CNN(Matlab): https://github.com/rbgirshick/rcnn
| + | |
− | | + | |
− | ::• Fast_R-CNN(Python): https://github.com/rbgirshick/fast-rcnn
| + | |
− | | + | |
− | ::• Faster_R-CNN(Matlab): https://github.com/ShaoqingRen/faster_rcnn
| + | |
− | | + | |
− | ::• Faster_R-CNN(Python): https://github.com/rbgirshick/py-faster-rcnn
| + | |
| | | |
| == 机器认知 == | | == 机器认知 == |
第195行: |
第144行: |
| '''技术手段:''' | | '''技术手段:''' |
| 深度学习(Deep Learning)+ 增强学习(Reinforcement Learning) | | 深度学习(Deep Learning)+ 增强学习(Reinforcement Learning) |
− |
| |
− | == 前沿应用进展 ==
| |
| | | |
| === 自然语言理解 === | | === 自然语言理解 === |
2017年1月26日 (四) 17:53的版本
人工智能
人工智能(Artificial Intelligence),是指计算机系统具备从听说读写到搜索、推理、决策和回答问题等类人智能的能力,即感知、理解、决策的能力。
人工智能历史
过去经历了2次高潮与2次低谷
网络和云计算所支持的计算能力
基于大数据的机器学习的算法进步
四个层面
- 语音识别、机器视觉、自然语言理解
- 智能问答是综合以上功能的高级系统
- 特定算法、机器学习算法、深度神经网络
- TensorFlow / Caffe / Torch
- 可编程逻辑阵列 FPGA / 通用图形处理器 GPGPU / 通用处理器 CPU 群集
国际研究
Google Brain
(Jeffrey Dean)
Facebook AI Research (FAIR)
(Yann LeCun)
MSR Deep Learning Technology Center (DLTC)
(Li Deng)
OpenAI
(Ilya Sutskever)
机器学习
机器学习(Machine Learning),是指机器从数据中自动分析获得规律,并利用规律对未知数据进行预测。
阅读材料
- Jordan, M. I., and T. M. Mitchell. "Machine learning: Trends, perspectives, and prospects." Science 349, no. 6245 (2015): 255-260. Machine_Learning_Science_2015
工具
Python
scikit-learn
(Source Code)
深度学习
深度学习(Deep Learning),机器学习中一种基于对数据进行表征学习的方法,试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。
神经网络
深度神经网络,Deep Neural Networks,简称DNN
卷积神经网络,Convolutional Neural Networks,简称CNN
历史:The rebirth of neural networks, ISCA 2010.
Rebirth_NN
阅读材料
深度学习-入门导读
工具
Google
TensorFlow
(Source Code)
TensorFlow_Whitepaper
Facebook
Torch
(Source Code)
fbcunn
Microsoft
CNTK
(Source Code)
DMLC
MXNet
(Source Code)
Université de Montréal
Theano
(Source Code)
增强学习
增强学习(Reinforcement Learning),是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
阅读材料
增强学习-入门导读
工具
Google
DeepMind Lab
OpenAI
OpenAI Universe
(Source Code)
机器感知
机器感知(Machine Perception),如语音,图像,视频,手势,姿态等
语音识别
语音识别,Automatic Speech Recognition,简称ASR
计算机视觉
计算机视觉,Computer Vision,简称CV
机器认知
机器认知(Machine Cognition),自然语言理解、推理、注意、知识、学习、决策、交互等。
技术手段:
深度学习(Deep Learning)+ 增强学习(Reinforcement Learning)
自然语言理解
自然语言理解(Natural Language Understanding),使用的技术称为自然语言处理(Natural Language Processing,简称NLP)。
智能问答
整合语音识别ASR,计算机视觉CV和自然语言处理NLP的问答系统QA。
相关阅读:
Reasoning in vector space: An exploratory study of question answering, ICLR 2016.
相关课程:
实验室探究课-智能问答与智能系统