正在阅读:大数据架构遭遇瓶颈 技术集成亟需突破

大数据架构遭遇瓶颈 技术集成亟需突破

2016-11-07 10:49:53来源:TechTarget中国 编辑:沐子飞 关键词:大数据云存储阅读量:32235

导读:企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求。但把所有的技术集成在一起并不是一件容易的事。
  【中国智能制造网 市场分析】企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求。但把所有的技术集成在一起并不是一件容易的事。

大数据架构遭遇瓶颈 技术集成亟需突破
  
  IT团队寻求构建大数据架构时有大量的技术可供选择,他们可以混合搭配各种技术以满足数据处理和分析需求。但是有一个问题存在:把所有需要的技术框架组合到一起是一项艰巨的任务。
  
  在不断扩展的Hadoop生态系统中,选择和部署合适的大数据技术是一个长期反复的过程,周期要以年计。除非公司管理者愿花大量财力和资源来加速推动项目。选择技术的过程中有失误判断是很常见的,一家公司的架构蓝图不一定适用于另一家组织,即便是完全相同的行业也不行。
  
  Bryan Lari是美国德克萨斯州大学MD安德森癌症研究中心(位于休斯顿)研究分析主任,他说:“我经常跟人说,这不是像你在亚马逊下个订单或者从苹果商店买个东西那么简单的事。这是一件复杂的事,它需要一个过程。我们在半年或者一年之内是做不完的。这也不是可以套用公式就能应用的技术,尽管有很多案例或者用户有成功经验,但我们也可能用不同的工具来满足我们的需求。”
  
  MD安德森的大数据环境集中在Hadoop集群中,在三月份的时候投入了生产环境,初步打算用来处理病人房间监视设备传输回来的重要信号数据。不过,数据湖平台还包括HBase(与Hadoop配合的NoSQL数据库),Hive(Hadoop支持SQL的软件),还有各种其他Apache开源技术,例如:Pig、Sqoop、Oozie和Zookeeper。此外,这家癌症治疗和研究组织还部署了Oracle数据仓库作为信息库来支持分析和报表应用,还有IBM的Watson认知计算系统提供自然语言处理和机器学习功能。未来出现新的数据可视化、治理和安全工具也必然会参与进来。
  
  MD安德森癌症中心的IT团队在2015年初就开始使用Hadoop。为了演示可能的应用情况同时熟悉该技术,该中心首先使用基本的Apache Hadoop软件构建了试点集群环境。后来,他们部署了Hadoop Hortonworks分布式架构用于生产环境。
  
  Vamshi Punugoti是MD安德森癌症中兴研究信息系统的副主任,他说从这次试点项目中得到的经验可以使他们处理架构调整更容易。随着新的大数据工具出现,总会有调整架构的可能性,一定需要功能增强或者替换组件。Punugoti说:“这是个持续更新的过程,包括我们收集到的数据都在不断变化着。如果我们认为(现有架构)可以处理一切那就太天真了。”
  
  演进更好的架构
  
  Uber平台工程师团队花了大约一年时间设计了多层大数据架构,但是这么多技术组件搭建的有点仓促。Uber公司Hadoop团队工程师Vinoth Chandar说,该公司的现有系统跟不上业务运营带来的快速增长的数据量。结果,大部分数据不能进行实时分析,Chandar认为这对于Uber公司倡导实质性“实时叫车”理念来说是个大问题。
  
  为了帮助运营经理实现数据驱动,Chandar和他的同事们搭建了Hadoop数据湖环境,其中包括HBase、Hive、Spark处理引擎、Kafka消息队列系统,还有其它一些技术。其中一些技术是内部构建的,例如:有一款数据提取工具Streamific。
  
  有了该架构之后,Uber公司将追赶大数据和分析的艺术状态。但是,这并不是容易做到的。他半开玩笑地补充说:“为了把这些技术组件整合到一起,我们十个人几乎一年没有睡觉。”
  
  架构的挑战对于组织来说可不是闹着玩的。Gartner咨询公司预测,到2018年,70%的Hadoop部署将无法实现他们节约成本和收入增长的目标,主要原因是技能不足和技术整合困难。Gartner公司分析师Merv Adrian说,整合障碍还在加剧,Hadoop分发商与大数据技术有关的数字还在稳步攀升,这代表了部署Hadoop的公司对Hadoop技术支持的需求量趋势。
  
  在2016年太平洋西北地区BI峰会上,Adrian列举了46种Hadoop相关的开源技术创新,这些产品都是由一家或者多家分发商提供支持服务的。但是,要把这些组件放到大数据架构中却是留给使用方的工作。“大多数Hadoop项目都像是艺术工作,我们都要把这些技术组件整合到一起使用。”
  
我要评论
  • 物流智能转型新引擎:DeepSeek+物流

    DeepSeek 物流不仅是技术的革新,更是城市发展的重要推动力。它通过智能化手段提升物流效率、优化资源利用、减少环境影响,并为智慧城市建设提供支撑。未来,随着AI技术的不断进步,物流行业将迎来更深刻的变革。
    物流大数据服务平台
    2025-04-30 10:11:15
  • 2025年4月1日开始施行的重要新规一览

    四月,一系列新规定即将实施,包括《公共安全视频图像信息系统管理条例》、《车联网网络安全异常行为检测机制》等。
    大数据服务平台
    2025-04-02 09:31:36
  • 铁塔大数据灾害分析平台:提升自然灾害智能化预警水平

    目前,我国灾害预防面临着监测预警网络不健全、实效性不高、精准性不强,“三断”(断路、断网、断电)无法及时发现等问题,亟需建立防灾减灾预警网络,实现“灾后救助”向“灾前预防”转变的目标。
    大数据灾害分析平台
    2025-03-19 10:47:45
  • 淄博市召开大数据系统工作会议暨“三拼三比”动员部署会

    会议指出,2024年是新一轮机构改革后全市大数据系统全面履职的第一年,全市大数据系统在市委市政府的坚强领导和省大数据局的有力指导下,数据要素价值加速释放、数字经济发展步伐加快、数字政府建设深入推进、数字支撑底座更为夯实,数字淄博建设取得明显成效。
    大数据服务平台
    2025-03-18 10:07:30
  • 公司重要动态速览|海康威视、新华三、宇树科技......

    近期,智慧城市领域的企业有哪些动态呢?小编整理了一下,一起来回顾。海康威视发布视觉大模型周界摄像机;宇树科技入驻阿里速卖通AliExpress出海......
    大数据服务平台
    2025-03-16 14:10:47
  • 贵州省大数据局召开数字企业座谈会

    会上,朱宗尧介绍了全省数据工作“一体两翼三大转型”总体思路及数字产业重点发展方向,数字产业处就起草促进数字产业发展相关政策措施有关情况作了说明。
    大数据服务平台
    2025-03-10 11:14:27
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了