正在阅读:人工智能发展一大瓶颈:缺乏高质量数据集

人工智能发展一大瓶颈:缺乏高质量数据集

2016-07-07 10:35:57来源:数据分析网 原标题:制约人工智能领域的并非算法不够先进,而是缺乏高质量数据集 关键词:人工智能大数据机器人阅读量:32559

导读:制约人工智能(AI)领域很多重大突破的,并非算法不够先进,而是缺乏高质量数据集。拥有针对特定领域的庞大数据集,能够成为竞争优势的一个重要来源。
  【中国智能制造网 名家论坛】用于机器学习用途的数据,其“不合理的有效性”引发了多年的广泛争论。也有观点认为,制约人工智能(AI)领域很多重大突破的,并非算法不够先进,而是缺乏高质量数据集。想要开发出先进的机器学习技术,数据至关重要,这是贯穿那些讨论的共同主题。
  
  人工智能发展一大瓶颈:缺乏高质量数据集
  
  对于在业务中将机器学习作为核心技术的初创公司来说,能否获得高质量的训练数据极为关键。虽然很多算法和软件工具都是开源和共享的,但好的数据集通常是专有的,且很难创建。因此,拥有针对特定领域的庞大数据集,能够成为竞争优势的一个重要来源,尤其是在初创公司能够快速引发数据网络效应的情况下(更多的用户→更多的数据→更智能的算法→更好的产品→更多的用户)。
  
  所以,如何创建高质量数据集以用于训练学习算法,这是机器学习初创公司必须作出的一个重要的战略决定。不幸的是,在刚开始的时候,初创公司的标记数据常常十分有限,甚至缺失,为他们在数据驱动型产品的打造上取得重大进展增添了阻碍。因此,在聘请数据科学团队或者部署昂贵的核心设施之前,有必要从一开始就研究制定好数据采集的策略。
  
  很多方法都可以帮助初创公司克服数据采集的冷启动问题。数据策略/来源的选择通常与商业模式的选择、公司的关注点(消费者或企业,水平或垂直,等等)以及融资的情况息息相关。以下是五种数据采集策略,虽然并不详尽,且多少互有重叠,但能让你对很多可用的方法有一个直观的感受。
  
  策略一:人工作业
  
  从零开始创建好的专有数据集,几乎永远意味着预先投入大量人力采集数据,执行难以规模化的人工任务。靠蛮力开路的初创公司有很多。例如,很多聊天机器人初创公司聘请人类担任“AI训练师”,让他们手动创建或核实虚拟助手作出的预测(实际效果各异,且员工流动率高)。就连科技巨头都采用这种策略:Facebook虚拟助手M的所有回答,都由一支合同工队伍进行检查和编辑。
  
  只要数据网络效应在某个时候生效,所需人力不再跟随客户数量同步增加,那么用蛮力来手动标记数据点的策略就能取得成功。一旦AI系统的进步速度够快,不明确的异常值就会变得更少,进行手动标记的人员数量就可以减少或者保持不变。
  
  适用于:几乎所有的机器学习初创公司
  
  例子:
  
  *很多聊天机器人初创公司(包括Magic、GoButler、x.ai和Clara)
  
  *MetaMind(手动采集和标记的食物分类数据集)
  
  *BuildingRadar(由员工/实习生手动标记建筑物图片)
  
  策略二:缩小范围

  
  大多数初创公司都会试图从用户那里直接采集数据,但问题在于,在机器学习的好处尚未全部体现出来之前,会很难说服早期采用者使用产品(因为先要有数据才能训练和改进算法)。避开这种两难处境的一个方法是大幅缩小问题域(如果以后有需要再扩大范围)。克里斯·迪克森(ChrisDixon)说:“你需要的数据量与你试图解决的问题广度有关。”
  
  关于缩小范围的好处,聊天机器人再次成为很好的例子。这个领域的初创公司可以在两个市场进入策略之间做出选择:一种是打造水平型虚拟助手,也就是帮助解答很多问题并响应即时请求的机器人,例如Viv、Magic、Awesome、Maluuba和Jam;一种是打造垂直型虚拟助手,也就是力求极为出色地完成某项明确具体工作的机器人,例如x.ai、Clara、DigitalGenius、Kasisto、Meekan和近期的GoButler。虽然两个方法都可行,但解决闭域问题的初创公司在数据的采集上要容易许多。
  
  适用于:垂直整合型公司
  
  例子:
  
  *高度专业化的垂直型聊天机器人(比如x.ai、Clara和GoButler)
  
  *DeepGenomics(利用深度学习技术对基因变异进行分类和解读)
  
  *QuantifiedSkin(利用客户自拍照进行皮肤分析)

我要评论
  • 中国生成式人工智能用户规模达5.15亿人,普及率36.5%

    《生成式人工智能应用发展报告(2025)》显示,截至2025年6月,我国生成式人工智能用户规模达5.15亿人,普及率为36.5%。上半年,国产生成式人工智能产品取得显著进步,在春节期间成为社会关注热点,推动生成式人工智能快速渗透。
    人工智能生成式人工智能
    2025-10-20 09:07:04
  • 人工智能和物联网如何协作以实现更智能的技术

    人工智能与物联网的融合代表着科技发展的新方向。物联网通过分布在各处的传感器、设备和网络基础设施,持续生成海量的实时数据。而人工智能则通过机器学习与深度学习算法,对这些数据进行分析、建模与优化。
    人工智能物联网
    2025-10-20 10:57:54
  • OpenAI联合创始人:人工智能代理真正发挥作用还需10年

    OpenAI联合创始人预估,要系统解决上述所有问题,大约还需要十年时间。尽管众多投资者将2025年称为“智能体之年”,但现实发展仍面临显著挑战。广义上,AI智能体被定义为能够自主执行任务的虚拟助手,具备问题拆解、方案规划与自主实施的能力。
    OpenAI人工智能
    2025-10-20 10:58:05
  • 物联网和 Agentic AI 助力未来智能医院

    随着物联网(IoT)与新一代智能体人工智能(Agentic AI)的融合,这一复杂体系正在被重新定义。越来越多的医院开始引入基于实时数据的智能运营模式,使医疗体系逐步从“经验驱动”走向“数据驱动”,甚至是“自主优化”的新阶段。
    医疗应用方案人工智能
    2025-10-17 13:23:02
  • 快讯|HDL与海康威视达成战略合作;特斯联与新华三达成战略合作

    中国智能控制品牌河东科技HDL与安防企业海康威视宣布达成战略合作,双方产品实现互联互通,为海外用户提供更完整的智能生活解决方案;特斯联与新华三正式宣布达成战略合作,双方将集中优势资源,围绕AIoT算力平台打造及异构算力生态建设进行深度合作......
    AIoT算力人工智能
    2025-10-17 11:27:16
  • 网信办、发改委:政务领域人工智能大模型13大典型应用场景

    政务部门可围绕政务服务、社会治理、机关办公和辅助决策等工作中的共性、高频需求,因地制宜、结合实际,选择典型场景进行人工智能大模型探索应用。
    人工智能大模型
    2025-10-17 08:30:05
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了