博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习简介
阅读量:6821 次
发布时间:2019-06-26

本文共 748 字,大约阅读时间需要 2 分钟。

一、机器学习简介 

(一)是什么?

对象:具有一定统计规律的数据

方法:监督学习、无监督学习、半监督学习、强化学习

目的:最小化损失函数来预测模型参数,从而使得模型具有更好的泛化能力

(二)分类

监督学习:根据带标签的数据来训练模型。分类任务、回归任务、序列标注任务

无监督学习:从未标记的训练数据来训练模型。聚类任务、降维任务

半监督学习:根据大量未标记数据和少量已标注数据来训练模型

强化学习:根据系统与环境的交互获得信息来训练模型

(三)模型训练常见的问题

1、过拟合

是什么?

模型能很好拟合训练数据,但是泛化能力低,在测试集上表现差——高方差

怎么解决?

重新清洗数据、减少模型复杂度、增加数据量、正则化、增加噪声、集成多种模型,early stopping、神经网络中采用dropout等

2、欠拟合

是什么?

模型不能很好的拟合训练数据,未知数据上的表现也很差——高偏差

怎么解决?

更改模型,添加其他特征项、减少正则化参数

(四)模型评估和选择

1、评估

训练误差:模型关于训练数据的损失

测试误差:模型关于测试数据的损失

 泛化性能:模型对位置数据的预测能力

查准率

查全率

2、选择

交叉验证:将数据集划分为k个大小相似的互斥子集。通过分层采样得到每个子集Di,保持数据分布一致性。每次用k-1个子集的并集作为训练集,余下那个作测试集。即可获得K组训练/测试集,进行K次训练和测试,最终返回k个测试结果的均值。也称”k折交叉验证”

正则化:选择经验风险与模型复杂度同时较小的模型。损失函数中正则化项的系数衡量了模型的复杂度,从贝叶斯角度看正则化项对应于模型的鲜艳概率。

转载于:https://www.cnblogs.com/articleM2H/p/10137508.html

你可能感兴趣的文章
祖宗十八代的称谓
查看>>
如何配置Hyper-V的虚拟机通过主机网络上网 (NAT)
查看>>
Linux make语法
查看>>
淘宝下单高并发解决方案
查看>>
[华为机试练习题]55.最大公约数 & 多个数的最大公约数
查看>>
文章标题
查看>>
对js原型对象的拓展和原型对象的重指向的区别的研究
查看>>
将数值四舍五入后格式化,带有千分位
查看>>
Atitit.反编译apk android源码以及防止反编译apk
查看>>
EF增删改查操作
查看>>
更改文件和目录的所有者
查看>>
jquery------使用jQuery的委托方法
查看>>
redis运维的一些知识点
查看>>
ZZZZ
查看>>
Win7或Windows server 2008中IIS7支持ASP+Access解决方法
查看>>
intent 图片调用问题
查看>>
div仿框架布局
查看>>
Windows 服务(附服务开发辅助工具)
查看>>
ScrollView反弹效果 仿小米私密短信效果
查看>>
Redis命令拾遗五(有序集合)
查看>>