正在阅读:大数据多领域创新 或将迈进与AI融合迸发时代

大数据多领域创新 或将迈进与AI融合迸发时代

2016-12-27 09:15:19来源:InfoQ 编辑:沐子飞 关键词:大数据人工智能数据挖掘阅读量:36868

导读:即将过去的2016年,大数据技术在持续火热发展的同时,也在各细分领域取得了不同的创新。回顾大数据的2016,我们都得到了什么?2017年,会是大数据技术与人工智能融合迸发的时代吗?
  【中国智能制造网 市场分析】即将过去的2016年,大数据技术在持续火热发展的同时,也在各细分领域取得了不同的创新。回顾大数据的2016,我们都得到了什么?2017年,会是大数据技术与人工智能融合迸发的时代吗?

大数据多领域创新 或将迈进与AI融合迸发时代
 
  ▊大数据管理日趋重要
 
  随着大数据在不同的领域越来越多的应用场景的发现,如何对数据资产进行管理就变得越来越重要。由此也产生了很多的创业公司和开源项目。
 
  ◈WhereHows
 
  WhereHows是LinkedIn在2016年开源的一套数据目录发现和数据世系管理的平台。可以当作企业的中心元数据管理系统,对接不同的数据存储和数据处理系统,从而能够全面的管理企业数据目录、数据结构以及数据世系。
 
  ◈Alation
 
  Alation是一套企业级的数据管理和数据发现的平台,与WhereHows不同的是Alation并不是一个开源的平台,而是一套商用的平台。除了基础的数据管理、数据发现,这个平台还支持多角色的协作,因为对于数据相关的工作,更好的协作才能提高生产的效率。Alation公司是成立于2012年的一家创业公司,2015年获得了900万美金的A轮融资。
 
  大数据应用平台化
 
  随着大数据处理技术的进一步发展,如何整合大数据不同的底层大数据处理技术,将数据集管理、数据加工流水线、数据应用管理融合在一个统一的平台无疑能够大大降低大数据从数据引入到数据变成有价值的产品的复杂度。
 
  ◈CDAP
 
  CDAP是CASK公司开源的大数据应用平台。通过将数据接入、数据管理、数据处理流水线和数据应用开发管理集成在一个统一的平台,CDAP可以使得企业象开发普通的应用一样开发大数据的应用产品,降低开发的复杂度。如果做一个类比,CDAP的整体思路类似于在J2EE时代的WebLogic,是一个针对数据应用的中间件平台产品。
 
  ◈StreamSets
 
  StreamSets是一个侧重数据集成、数据加工流程构建的平台,也是一个开源的产品。通过StreamSets,用户可以方便的接入不同的数据源,并且完成数据加工流程的构建。SteamSets有可视化的数据流构建工具,并且能够对运行态的数据应用进行监控。相对于CDAP,StreamSets更侧重于数据的接入和数据流的构建、监控和管理。
 
  ▊大数据流式处理成为趋势
 
  在2016年,大数据流式处理技术取得了飞速的发展,并且逐渐的变成了大数据处理的新的趋势。在这个大数据流式处理大潮中,几个关键的开源项目逐渐的取得了更多人的注意。
 
  ◈Flink
 
  Apache Flink并不是一个新的开源项目,但是随着大数据流式处理的日益重要,Flink因为其对流式处理的支持能力,得到了越来越多的人的重视。在2016年,几乎所有的大数据技术大会上,都能够看到Flink的身影。
 
  在Flink的设计理念中,数据流是一等公民,而批量操作仅仅是流式处理的一种特殊形式。Flink的开发接口的设计和Spark非常的相像,支持Java,Scala等编程语言,并且也有支持SQL的Table API,因此有非常好的易用性。另外Flink支持将已经存在的MapReduce任务直接运行在Flink的运行环境上。
 
  同Spark一样,Flink也是期望基于它的核心打造一个大数据的生态系统,它的核心是支持流式的DataStream API和支持批量计算的DataSet API。在上层则是应用层的API,包括:
 
  CEP
 
  在Flink上提供了支持CEP(复杂事件处理)的库,从而使用者可以非常方便的构造基于CEP的应用。
 
  FlinkML
 
  在Flink上提供了机器学习算法库,类似于Spark的MLLib。当前的Flink 1.1版本的机器学习算法库包含了一些主流的机器学习算法的实现,比如SVM,KNN,ALS等等。
 
  Gelly
 
  Gelly是在Flink上支持图计算的API库,类似于Spark上的GraphX。在大数据时代,通过图算法和图分析能够在很多业务场景产生巨大的应用价值,比如在金融领域用图发现羊毛党。我相信Flink正式看中了这一点,在自己的核心之上,发展出来进行图计算的Gelly。
 
  2016年Flink在国内也逐渐的引起了大数据同仁们的重视,阿里巴巴针对Flink对Yarn支持的不足做了很多的优化和修改,开发了Blink,并且积极的与Flink社区进行沟通,希望能够将一些核心的修改merge回社区。而TalkingData也在对Flink进行尝试,相信在Flink社区,会有越来越多的中国人的身影和贡献。
 
  ◈Beam
 
  提到流式处理,不得不提的一个项目是Apache Beam。这是一个仍旧在孵化器中的项目,但是其出发点和背景使得我们不在早期就对它保持持续的关注。Beam本身不是一个流式处理平台,而是一个统一的编程框架。
 
  在大数据处理和计算平台百花齐放的今天,不得不面对Spark, Flink, Storm, Apex等等不同的计算框架,而这些计算框架各自有不同的开发API,如何能够屏蔽底层的差异,使得上层有一个统一的表达,对于大数据应用来讲就变得非常有意义了。
 
  TalkingData在构造自己的Data Cloud的时候就面临这个问题,而这个时候我们发现Beam就给了我们这个答案。Beam系出名门,是由Google开源出来的,并且得到了Spark, Flink等等社区的大力的支持。在Beam中,主要包含两个关键的部分:
 
  Beam SDK
 
  Beam SDK提供一个统一的编程接口给到上层应用的,不需要了解底层的具体的大数据平台的开发接口是什么,直接通过Beam SDK的接口,就可以开发数据处理的加工流程。Beam SDK会有不同的语言的实现,目前提供Java,python的SDK正在开发过程中,相信未来会有更的的不同的语言的SDK会发布出来。
 
  Beam Pipeline Runner
 
  Beam Pipeline Runner是将用户开发的pipeline翻译成底层的数据平台支持的运行时环境的一层。针对不同的大数据平台,会有不同的Runner。目前Flink, Spark, Apex以及google的 Cloud DataFlow都有支持Beam的Runner。
 
  在Strata+Hadoop纽约的大会上,通过与Beam团队的沟通我了解到,尽管Beam现在仍旧是在孵化器中,但是已经足够的成熟和稳定,Spotify公司就在用Beam构造自己的大数据pipeline。
 

我要评论
  • 夯实学校人工智能教育 服务教育强国建设

    无论是培育人工智能领域的高端人才、激发人工智能环境中广大青少年的创新潜力,还是提升智能时代公民的适应力,都需超越传统的标准化人才培养模式,加强人工智能教育和创新能力培养。
    人工智能教育
    2025-05-08 17:26:13
  • 推动人工智能发展 我国已形成完整产业体系

    经过多年持续投资布局,我国人工智能产业体系逐步完善,基础层、模型层及应用层不断升级优化,实现了人工智能、大数据等数据智能技术与实体经济的广泛融合。
    人工智能服务平台
    2025-05-04 09:58:02
  • 物流智能转型新引擎:DeepSeek+物流

    DeepSeek 物流不仅是技术的革新,更是城市发展的重要推动力。它通过智能化手段提升物流效率、优化资源利用、减少环境影响,并为智慧城市建设提供支撑。未来,随着AI技术的不断进步,物流行业将迎来更深刻的变革。
    物流大数据服务平台
    2025-04-30 10:11:15
  • 全域人工智能之城建设驶入快车道

    市科委、中关村管委会,市经济和信息化局,市发展改革委,市政务和数据局,市卫生健康委,北京经开区管委会领导出席,来自各央国企、研究机构,及京内外近500家人工智能上下游生态企业与会。
    人工智能中国智造
    2025-04-30 09:49:19
  • AI已经成为人形机器人最大的瓶颈?

    在看似繁荣的表象下,行业共识正在逐渐浮现:人工智能(AI)技术的滞后,已成为人形机器人实现真正智能化的最大瓶颈。
    人形机器人人工智能
    2025-04-28 15:32:08
  • 从“原子”到算法!人工智能领域的“元素周期表”诞生

    研究团队发现,处于同一“主族“的算法(如支持向量机与核方法)具有相似的数学内核,而位于相同“周期“的算法(如决策树与随机森林)则共享相近的泛化能力图谱。
    人工智能计算机科学
    2025-04-27 17:01:21
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了