机器学习
目录
机器学习的目标与任务
问题:人类的天性比较懒散,而且重复的工作容易疲劳。
解决方法:发明算法,解决重复性的劳动。
机器学习的定义
机器学习(Machine Learning),是指计算机从数据中自动分析获得规律,并利用规律对未知数据进行预测。因此,机器学习又称为统计学习(statistical learning)或统计机器学习(statistical machine learning)。
机器学习的一个简洁的定义:对于某类任务T(Task)和性能度量P(Performance),一个计算机程序被认为可以从经验E(Experience)中学习是指通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。
机器学习的内容
机器学习的内容可以分为监督学习(Supervised Learning)、非监督学习(unsupervised Learning)和半监督学习(Semi-Supervised Learning),还有强化学习(reinforcement learning)和推荐算法(Recommender algorithm)等。
机器学习的主要任务是预测(Regression)与分类(Classification)。
机器学习的特点
李航在《统计学习方法》一书中,总结为:
- 以计算机为平台
- 以数据为研究对象
- 以方法为中心
- 概率论、计算理论、最优化理论和计算机科学等学科的交叉学科
- 具有独有的理论体系和方法论
主要机器学习方法
感知机
感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。它是神经网络与支持向量机的基础。
=k近邻
k近邻法(k-nearest neighbor, k-NN)是一种基本分类与回归方法。k近邻法假设给定一个训练数据集,其中的实例类别己定。分类时,对新的实例,根据其k个最近邻的训练实例的类别通过多数表决等方式进行预测。k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。
决策树
ID3算法
C4.5算法
CART算法
朴素贝叶斯方法
逻辑斯提回归模型和最大熵
支撑向量机
AdaBoost
隐马尔可夫
条件随机场
机器学习的任务
预测
- 线性预测:
线性回归模型
分类
- 二元分类的逻辑斯提回归模型
- 多元分类的逻辑斯提回归模型
软件工具
(Python)
阅读材料
- Jordan, M. I., and T. M. Mitchell. "Machine learning: Trends, perspectives, and prospects." Science 349, no. 6245 (2015): 255-260. Machine_Learning_Science_2015
- 李航,统计学习方法,清华大学出版社。
参考课程
- STA414 (U. Toronto), Statistical Methods for Machine Learning and Data Mining, https://www.cs.toronto.edu/~rsalakhu/STA414_2015/.
- CS229 (Stanford U.), Machine Learning, http://cs229.stanford.edu/.