计算机视觉
计算机视觉(Computer Vision),简称CV,包含对象检测、人脸识别、文字识别等。
计算机视觉任务(Visual Task)包括:分类(Classification)、定位(localization)、 检测(detection)和 分割(segmentation),即识别对象的类别,位置,以及所在场景解析与标记。
对象检测
对象检测,Object Detection,是计算机视觉一项基本功能。
R-CNN
Ross Girshick,FAIR研究员,R-CNN 和YOLO 算法的开创者。
R-CNN ((Region-based Convolutional Network)) (Code: Matlab)
- Region based convolutional networks for accurate object detection and segmentation, TPAMI, 2015.
- Rich feature hierarchies for accurate object detection and semantic segmentation, CVPR 2014.
Fast R-CNN (Code: Python)
- Fast R-CNN, ICCV 2015.
Faster R-CNN (Code: Matlab, Python)
- Faster R-CNN Towards real-time object detection with region proposal networks, NIPS, 2015.
YOLO
(Code Yolo)
- You Only Look Once: Unified, Real-Time Object Detection, CVPR 2016
SSD
- Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, SSD: Single Shot MultiBox Detector, ECCV 2016.
图像语义分割
Semantic Segmentation
mask r-CNN
[x] Ronghang Hu, Piotr Dollár, Kaiming He, Trevor Darrell, Ross Girshick, Learning to Segment Every Thing, https://arxiv.org/abs/1711.10370
计算机视觉应用
人脸识别和辨识
人脸识别和辨识,Face Detection, Recognition and Identification,分为传统机器学习和深度神经网络两大类方法。
- 传统机器学习
特征脸算法(Eigenface), 局部二值模式(Local Binary Patterns,简称LBP), Fisherface算法
- 深度神经网络
基于深度神经网络的方法,如 CMU - OpenFace
交通标志识别
学术界和工业界对于交通标志识别(Traffic Sign Recognition,TSR)和交通标志检测(Traffic Sign Detection,TSD)领域的研究由来已久。TSD在TSR正确识别标志类型的基础上,还要求对识别出的交通标志进行定位,与目标检测类似。
在2011年IJCNN的交通标志识别比赛中,Ciresan等人使用深度神经网络的方法,获得了比人类平均识别水平更高的结果,使得科学家们将研究的目光转到了基于深度学习的检测方法上来。
病变图像识别
深度学习在医学领域的应用有广阔的前景。对深度学习用在医学影像的检测研究文献中,谷歌采用深度学习检测糖尿病视网膜病变并得出与医生诊断结果高度一致的结论。
- 北京大学第一医院医学影像科高歌等人对CT虚拟结肠镜(CTC)CAD系统的总结,但仍又待对大规模随机临床试验的验证。
- 台湾的交通大学的Peng-Jen Chen等人开发了结肠镜成像的计算机辅助诊断系统对结直肠息肉进行类型分类,其识别速度比内镜师更快,而且还具有分析其他医学图像的潜力。
- 香港中文大学的Yu等人提出一种在线和离线的三维深度学习集成框架,可以从结肠镜手术中学习到更多的时空特征,已经得到更好的表现。
- 芝加哥大学的Xu等人提出了在CT结肠成像术中分类息肉区域与非息肉区域,并使用了两类SVM并比较其结果,显示出了针对息肉区域的96.6%的敏感性。
- 台湾的国立云林科技大学的Fu等人开发了结肠镜成像的计算机辅助诊断系统对结直肠息肉进行类型分类,其中使用了人工选择的特征应用到SVM分类器上并达到了96%的准确率。
- 来自加拿大的温哥华综合医院和几个院校的Byrne等人提出了一个基于深度学习的光学活检挑战息肉分化成NICE类型1和2使用非放大结肠镜检查并使用了实时的内窥镜视频流,模型的表现与专家的表现相一致,并正在进行技术的临床试验。
- 美国达特茅斯的Geisel医学院的Korbar等人使用深度学习的残差网络结构设计了一个自动图像分析方法可以准确分类在全幻灯片上不同种的结直肠息肉,达到了95%的准确率并拥有比较高的置信度。