一、机器学习简介
(一)是什么?
对象:具有一定统计规律的数据
方法:监督学习、无监督学习、半监督学习、强化学习
目的:最小化损失函数来预测模型参数,从而使得模型具有更好的泛化能力
(二)分类
监督学习:根据带标签的数据来训练模型。分类任务、回归任务、序列标注任务
无监督学习:从未标记的训练数据来训练模型。聚类任务、降维任务
半监督学习:根据大量未标记数据和少量已标注数据来训练模型
强化学习:根据系统与环境的交互获得信息来训练模型
(三)模型训练常见的问题
1、过拟合
是什么?
模型能很好拟合训练数据,但是泛化能力低,在测试集上表现差——高方差
怎么解决?
重新清洗数据、减少模型复杂度、增加数据量、正则化、增加噪声、集成多种模型,early stopping、神经网络中采用dropout等
2、欠拟合
是什么?
模型不能很好的拟合训练数据,未知数据上的表现也很差——高偏差
怎么解决?
更改模型,添加其他特征项、减少正则化参数
(四)模型评估和选择
1、评估
训练误差:模型关于训练数据的损失
测试误差:模型关于测试数据的损失
泛化性能:模型对位置数据的预测能力
查准率
查全率
2、选择
交叉验证:将数据集划分为k个大小相似的互斥子集。通过分层采样得到每个子集Di,保持数据分布一致性。每次用k-1个子集的并集作为训练集,余下那个作测试集。即可获得K组训练/测试集,进行K次训练和测试,最终返回k个测试结果的均值。也称”k折交叉验证”
正则化:选择经验风险与模型复杂度同时较小的模型。损失函数中正则化项的系数衡量了模型的复杂度,从贝叶斯角度看正则化项对应于模型的鲜艳概率。