爱看中文

手机浏览器扫描二维码访问

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
诛天魔神

诛天魔神

诛天魔神情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,诛天魔神-黑洋芋-小说旗免费提供诛天魔神最新清爽干净的文字章节在线阅读和TXT下载。...

空中孤岛[末世]

空中孤岛[末世]

“他人即地狱。” 周耘从末世后回档重生, 选择了远离人群,归守孤楼。 不过这一次,他希望能留住关远峰。 想要变强大,是从想要保护一个人开始的。 我于云海中的孤岛固守一隅,星月都是过客。 “在我的空中孤岛上,我是首屈一指的,无与伦比的。” 而你来了,为你,我愿建一座城。 “世界上只有一种真正的英雄主义,就是认清了生活的真相后还依然热爱它。”...

太素-看泉听风

太素-看泉听风

《太素-看泉听风》太素-看泉听风小说全文番外_慕临渊何宛然太素-看泉听风,阿乐资源库,更多小说,广播剧,漫画,影视资源加微信ale202202进免费资源【更多精彩好书尽在书包】书名:太素作者:看泉听风乱世将起,众生皆苦,天地为炉,造化为工,阴阳为炭,万物为铜,问苍茫大地,谁主沉浮?...

绝世狂医

绝世狂医

身为玄龙门传人的苏逸从乡下来到城里报恩,寻找名花,以古法碾压武道强者,以医术冠绝通天。万花丛中过,只取万紫一点红。......

山海图

山海图

深冬的洛城,雪花漫天。空无一人的大街上,寒风凛冽,一个五六岁的小男孩嚎啕大哭,拼命往前奔跑,在追赶着什么。「娘……你不要走……」风雪的尽头,一个执着纸伞的窈窕身影听见了声音,停下了脚步。世人总喜欢用眉目如画,来形容一位女子的美丽。可是眼前这个执着伞的年轻女人,她的美,却是没法用笔墨来形容。她的肌肤很白,白若胜雪;她的双唇很红,红如焰火;她的美眸很亮,亮若星辰。她的气质,更是雍容高贵得令人自惭形秽,不敢亵渎。高挑修长的窈窕身姿,在一身淡雅素裙的衬托下,美艳绝伦,仿似天仙。只要是个正常男人,望见她的第一眼,便绝不会想要移开眼睛。...

仙道少年行

仙道少年行

一个凡人少年的修仙之路……...