正在阅读:盘点:机器学习实践中应避免几种常见错误

盘点:机器学习实践中应避免几种常见错误

2016-06-02 10:29:51来源:数据分析网 原标题:机器学习实践中应避免的七种常见错误 关键词:机器学习大数据人工智能阅读量:30339

导读:在这篇文章中,我将分享一些常见的认识误区(要避免的)。在今后的文章中再介绍一些佳实践方法(应该做的)。
  【中国智能制造网 技术前沿】在机器学习领域,每个给定的建模问题都存在几十种解法,本文作者认为,模型算法的假设并不一定适用于手头的数据;在追求模型佳性能时,重要的是选择适合数据集(尤其是“大数据”)的模型算法。

盘点:机器学习实践中应避免几种常见错误
  
  统计建模和工程开发很相似。在工程开发中,人们有多种方法搭建一套键-值存储系统,每种设计针对使用模式有一套不同的假设。在统计建模中,也有很多算法来构造一个分类器,每种算法对数据也有各自的假设集合。
  
  当处理少量数据时,因为实验成本很低,我们尽可能多的尝试各种算法,从而选出效果优的算法。但提到“大数据”,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,产品化)是事半功倍的。
  
  正如在我以前的文章里提到,每个给定的建模问题都存在几十种解法。每个模型会提出不同的假设条件,我们也很难直观辨别哪些假设是合理的。在业界,大多数从业人员倾向于挑选他们熟悉的建模算法,而不是适合数据集的那个。在这篇文章中,我将分享一些常见的认识误区(要避免的)。在今后的文章中再介绍一些佳实践方法(应该做的)。
  
  1.想当然地使用默认损失函数
  
  很多从业者喜欢用默认的损失函数(比如平方误差)来训练和选择优模型。事实上,默认的损失函数很少能满足我们的业务需求。拿诈骗检测来说。当我们检测诈骗交易时,我们的业务需求是尽量减少诈骗带来的损失。然而现有二元分类器默认的损失函数对误报和漏报的危害一视同仁。对于我们的业务需求,损失函数不仅对漏报的惩罚要超过误报,对漏报的惩罚程度也要和诈骗金额成比例。而且,诈骗检测的训练数据集往往正负样本极度不均衡。在这种情况下,损失函数就要偏向于照顾类(如通过升/降采样等)。
  
  2.用普通线性模型处理非线性问题
  
  当需要构建一个二元分类器时,很多人马上就想到用逻辑回归,因为它很简单。但是,他们忘记了逻辑回归是线性模型,非线性因素的交叉特征需要靠手工编码处理。回到刚才诈骗检测的例子,要获得好的模型效果,就需要引入“帐单地址=送货地址&&交易金额<$50”之类的高阶交叉特征。因此,在处理包含交叉特征的问题上我们应该尽可能选择非线性模型,比如有核函数的SVM,或者基于树的分类器。
  
  3.忽视异常值
  
  异常值很有意思。根据上下文情况,它们要么需要被特别处理,要么应该被完全忽略。就拿收入预测来说。如果观察到收入有异常尖峰,我们可能要加倍注意他们,并分析是什么原因造成这些峰值。但如果异常值是由于机械误差、测量误差或者其它任何非普遍化因素导致的,那我们好在准备训练数据之前过滤掉这些异常值。
我要评论
  • 中国生成式人工智能用户规模达5.15亿人,普及率36.5%

    《生成式人工智能应用发展报告(2025)》显示,截至2025年6月,我国生成式人工智能用户规模达5.15亿人,普及率为36.5%。上半年,国产生成式人工智能产品取得显著进步,在春节期间成为社会关注热点,推动生成式人工智能快速渗透。
    人工智能生成式人工智能
    2025-10-20 09:07:04
  • 人工智能和物联网如何协作以实现更智能的技术

    人工智能与物联网的融合代表着科技发展的新方向。物联网通过分布在各处的传感器、设备和网络基础设施,持续生成海量的实时数据。而人工智能则通过机器学习与深度学习算法,对这些数据进行分析、建模与优化。
    人工智能物联网
    2025-10-20 10:57:54
  • OpenAI联合创始人:人工智能代理真正发挥作用还需10年

    OpenAI联合创始人预估,要系统解决上述所有问题,大约还需要十年时间。尽管众多投资者将2025年称为“智能体之年”,但现实发展仍面临显著挑战。广义上,AI智能体被定义为能够自主执行任务的虚拟助手,具备问题拆解、方案规划与自主实施的能力。
    OpenAI人工智能
    2025-10-20 10:58:05
  • 物联网和 Agentic AI 助力未来智能医院

    随着物联网(IoT)与新一代智能体人工智能(Agentic AI)的融合,这一复杂体系正在被重新定义。越来越多的医院开始引入基于实时数据的智能运营模式,使医疗体系逐步从“经验驱动”走向“数据驱动”,甚至是“自主优化”的新阶段。
    医疗应用方案人工智能
    2025-10-17 13:23:02
  • 快讯|HDL与海康威视达成战略合作;特斯联与新华三达成战略合作

    中国智能控制品牌河东科技HDL与安防企业海康威视宣布达成战略合作,双方产品实现互联互通,为海外用户提供更完整的智能生活解决方案;特斯联与新华三正式宣布达成战略合作,双方将集中优势资源,围绕AIoT算力平台打造及异构算力生态建设进行深度合作......
    AIoT算力人工智能
    2025-10-17 11:27:16
  • 网信办、发改委:政务领域人工智能大模型13大典型应用场景

    政务部门可围绕政务服务、社会治理、机关办公和辅助决策等工作中的共性、高频需求,因地制宜、结合实际,选择典型场景进行人工智能大模型探索应用。
    人工智能大模型
    2025-10-17 08:30:05
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了