正在阅读:建立统一数据平台 是开展大数据服务的关键

建立统一数据平台 是开展大数据服务的关键

2016-06-15 10:22:52来源:数据分析网 原标题:前优酷土豆大数据平台研发负责人杨大海:建立统一数据平台的重要性 关键词:数据平台数据服务数据分析阅读量:32788

导读:在WOT2016互联网运维与峰会上,来自前优酷土豆的大数据开放平台研发负责人杨大海做了以“建立统一数据平台的重要性”为主题的演讲。
  【中国智能制造网 名家论坛】在WOT2016互联网运维与峰会上,来自前优酷土豆的大数据开放平台研发负责人杨大海做了以“建立统一数据平台的重要性”为主题的演讲。本文章是把本次分享干货亮点整理成文字形式,呈献广大的用户。

建立统一数据平台 是开展大数据服务的关键
  
  杨大海表示,对于一个外行人或刚入门的人来说,建立一个数据平台就是搭一个Hadoop集群而已。但基于这个集群,想要把它很好的用起来会暴露很多的问题。那么针对这些问题就需要研发很多系统来应对,所以建立统一数据平台是非常重要的。
  
  为什么说建立统一数据平台是重要的
  
  门槛,这里杨大海表示,并不是现在做大数据的门槛有多高,因为整个大数据领域的技术非常成熟,人员也很多,很多公司都自己的团队做大数据。这里所说的门槛是指非大数据领域的一些人,如分析师可能只会写一些SQL语句或只能看懂一些数据,出一些报表,如果让这类人写Mapreduce或数据收集研发东西,就会觉得非常难,如果建立一个完善的数据平台,可有效帮助他们。
  
  共享,假设某公司有很多技术团队、不同部门、不同业务团队。如每个团队都搭一套Hadoop群,中间的数据共享就成了问题。还就是资源浪费,像人力资源浪费和服务器资源浪费等。
  
  规范,基于大数据系统做一个数据产品,需要数据采集、收集、存储和计算等多个步骤,这样整个流程是非常长,花30%时间做业务系统开发,70%时间用于平台搭建或一些开源的完善,是非常不划算的。设想做数据产品之前就已经有系统供选择,有数据需要采集,有新计算模型需要诞生时候只需要接入,不需要再花时间调研。制定规范之后,日志放在哪,通过标准配置,就可以把日志采上来供使用。这样一来,就保证尽可能缩短数据采集整个的流程。
  
  成本,这里指人力成本和服务器,就是硬件资源的成本。有统一数据平台,就可以做很多优化。面对一千台规模的服务器,可通过一些修改原码、参数优化等提升10%,就可节省约64G或者128G、4核服务器一百台。
  
  时间,开发一套业务系统,大可不必花一个月的时间调研Hadoop,花一个月时间的调研Kafka,因为这些不在业务团队的竞争范围之内。更多的精力应放在产品或系统,如何把系统做得更,而不是怎么把Hadoop打好。
  
  Hadoop集群的发展进程

 Hadoop发展规模

  如上图,杨大海表示,从2012年到2016年,Hadoop集群在不断进化发展中。集群初起点比较低,只是为了满足数据分析团队和推荐团队使用,只有三四十台的规模。在2012年到2013年的时间,集群扩张的非常快。到2013年接入很多用户,公司其他团队如广告、分成等团队接进。集群膨胀厉害,半年时间翻了四五倍,到200台左右的规模。到2016年时间,整个集群将近一千台规模,中间做了一次升级,就是1.3升级2.3,当时升级是为了满足周边的一些生态圈。
  
  Hadoop集群发展过程中遇到的问题

  hadoop问题演变
   
  如上图,杨大海表示,整个集群发展过程中遇到的问题是随着阶段的推移不断地变化的,也就是说不同阶段遇到的不同的问题各不一样。
  
  50台规模时,整个生态圈不完善,像Hive等本身还有很多Bug,但因为刚开始,应用简单所以并没有发现。此时团队技术功底非常差,集群管理基本上没做,直接搭了一条集群,裸奔的集群。
  
  200百台规模时,遇到的问题相对多一些,杨大海在这里介绍了权限问题、用户管理、资源调度、调度系统、数据安全、目录规范、参数规范、本地化八大问题。
  
  ·权限问题,用户增多,十个上百个,那权限就成了问题。
  
  ·用户管理,如何把用户管理好,保证用户的作业及时提交,而不是因为某个用户提交一个大作业,把整个集群资源占完,其他的脚本没法跑。如何保证这个用户存储不会无限扩张。如何给用户规划存储。
  
  ·资源调度,保证用户一定独立空间,控制占有的资源数目,不至于把整个集群的资源给占完。
  
  ·调度系统,一台服务器,一台客户端,可能会给三个团队用,每天晚上会有上万个,甚至几千个、几百个作业来提交,通过这台机器来提交。调度系统是为了解决客户端单节点的问题,单点故障的问题。
  
  ·数据安全,公司内部虽是同一个集团公司,但分为不同的BU,这些BU之间的数据是需要共享、也需隔离。
  
  ·目录规范,日志如何存储,用户目录如何规划,目录需要多大的空间,如果超过空间我如何提醒删除。
  
  ·参数规范,Hadoop有很多参数,需要增加,也需要优化。
  
  ·本地化,有时需对Mapreduce本地化,因为突然间上了两百台机器,Mapreduce从中取数据,但本地没有需远程,这还需要对本地化参数做优化。
  
  1000台左右高可用多计算模型共存时,问题就更多,更加繁琐。如用户水平、高可用、小文件、数据迁移、任务问题、存储计划、机房瓶颈、归档、资源争强分类、资源隔离、任务监控、列队监控等。
  
  ·用户水平,用户水平有低有高,这就需要有一个人专门解答每天用户的问题。
 
我要评论
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了