对于在业务中将机器学习作为核心技术的初创公司来说,能否获得高质量的训练数据极为关键。虽然很多算法和软件工具都是开源和共享的,但好的数据集通常是专有的,且很难创建。因此,拥有针对特定领域的庞大数据集,能够成为竞争优势的一个重要来源,尤其是在初创公司能够快速引发数据网络效应的情况下(更多的用户→更多的数据→更智能的算法→更好的产品→更多的用户)。
所以,如何创建高质量数据集以用于训练学习算法,这是机器学习初创公司必须作出的一个重要的战略决定。不幸的是,在刚开始的时候,初创公司的标记数据常常十分有限,甚至缺失,为他们在数据驱动型产品的打造上取得重大进展增添了阻碍。因此,在聘请数据科学团队或者部署昂贵的核心设施之前,有必要从一开始就研究制定好数据采集的策略。
很多方法都可以帮助初创公司克服数据采集的冷启动问题。数据策略/来源的选择通常与商业模式的选择、公司的关注点(消费者或企业,水平或垂直,等等)以及融资的情况息息相关。以下是五种数据采集策略,虽然并不详尽,且多少互有重叠,但能让你对很多可用的方法有一个直观的感受。
策略一:人工作业
从零开始创建好的专有数据集,几乎永远意味着预先投入大量人力采集数据,执行难以规模化的人工任务。靠蛮力开路的初创公司有很多。例如,很多聊天机器人初创公司聘请人类担任“AI训练师”,让他们手动创建或核实虚拟助手作出的预测(实际效果各异,且员工流动率高)。就连科技巨头都采用这种策略:Facebook虚拟助手M的所有回答,都由一支合同工队伍进行检查和编辑。
只要数据网络效应在某个时候生效,所需人力不再跟随客户数量同步增加,那么用蛮力来手动标记数据点的策略就能取得成功。一旦AI系统的进步速度够快,不明确的异常值就会变得更少,进行手动标记的人员数量就可以减少或者保持不变。
适用于:几乎所有的机器学习初创公司
例子:
*很多聊天机器人初创公司(包括Magic、GoButler、x.ai和Clara)
*MetaMind(手动采集和标记的食物分类数据集)
*BuildingRadar(由员工/实习生手动标记建筑物图片)
策略二:缩小范围
大多数初创公司都会试图从用户那里直接采集数据,但问题在于,在机器学习的好处尚未全部体现出来之前,会很难说服早期采用者使用产品(因为先要有数据才能训练和改进算法)。避开这种两难处境的一个方法是大幅缩小问题域(如果以后有需要再扩大范围)。克里斯·迪克森(ChrisDixon)说:“你需要的数据量与你试图解决的问题广度有关。”
关于缩小范围的好处,聊天机器人再次成为很好的例子。这个领域的初创公司可以在两个市场进入策略之间做出选择:一种是打造水平型虚拟助手,也就是帮助解答很多问题并响应即时请求的机器人,例如Viv、Magic、Awesome、Maluuba和Jam;一种是打造垂直型虚拟助手,也就是力求极为出色地完成某项明确具体工作的机器人,例如x.ai、Clara、DigitalGenius、Kasisto、Meekan和近期的GoButler。虽然两个方法都可行,但解决闭域问题的初创公司在数据的采集上要容易许多。
适用于:垂直整合型公司
例子:
*高度专业化的垂直型聊天机器人(比如x.ai、Clara和GoButler)
*DeepGenomics(利用深度学习技术对基因变异进行分类和解读)
*QuantifiedSkin(利用客户自拍照进行皮肤分析)

智能制造网APP
智能制造网手机站
智能制造网小程序
智能制造网官微
智能制造网服务号











智能控制
机器人
仪器仪表
物联网
3D打印
工业软件

回放

预告



浙公网安备 33010602000006号
智能制造网APP
智能制造网小程序
微信公众号


