正在阅读:“数据湖”中有效实现数据管理的4种方式

“数据湖”中有效实现数据管理的4种方式

2016-06-12 14:52:07来源:数据分析网 原标题:“数据湖”中数据管理的4种方式 关键词:数据湖数据管理数据分析阅读量:30292

导读:“数据湖”相当于一个中心位置来存储你所有的数据,它无需考虑数据来源和格式。它通常是用‘Hadoop’来建立。
  【中国智能制造网技术前沿】“数据湖”相当于一个中心位置来存储你所有的数据,它无需考虑数据来源和格式。它通常是用‘Hadoop’来建立。数据可以是结构化的或者非结构化的。你可以使用大量的存储,分析和处理工具快速提取数据的价值来做出重要的组织决策。

“数据湖”中有效实现数据管理的4种方式
  
  因为所有的数据都是受欢迎的,对于传统的企业数据仓库来说,‘数据湖’算得上是一个功能强大的替代品或补充品。另外,随着更多的企业向基于云服务的应用开发和物联网转型,‘数据湖’也是一个主要的选择。
  
  在早期的使用案例中,企业频繁的将数据装载到“数据湖”而不尝试去管理它。随着‘数据湖’越来越成熟而且对企业来说更具战略意义,仅仅将数据装载到“数据湖”已经不再足够了而是需要做更好的打算。
  
  “数据湖”具有灵活性,可扩展性,低成本性三个特征。并且它还具有传统的数据仓库(EDW)的大部分特征,当你要增加数据管理和支配能力,如:数据质量,元数据管理,安全,转换和拆分与组合数据的能力。如果正确的管理“数据湖”,它可以改进你现在的数据管理措施并且能启用新的数据管理措施。建立“数据湖”的时候,你的公司可以选择下列4种方式中的一种:
  
  选择1:延后支配
  
  种选择在加载数据到数据湖的时候就忽略数据的支配和管理。然而,当你需要筛选出数据中有用的部分的时候,你将不得不用工具来清理这些数据,例如机器学习技术。然而这种方法是真正存在风险的,即使是智能的推理引擎也需要从‘数据湖’大量的数据中的某个地方开始,不可避免的就是在‘数据湖’中部分数据将被忽略,变得滞后,孤立,并且其中的数据几乎不具有结构化,即使是智能的自动化工具或者人工分析,都不知道从什么地方开始。
  
  选择2:适应已经存在的工具
  
  你可以利用初为数据仓库设计的应用和过程。当你准备导入数据到数据仓库时你可以用软件工具来执行ETL过程。你可以用这些工具来导出数据到数据湖,然而那样做代价很高,而且只能解决部分你所需要的管理和支配功能。另外一个缺点就是ELT是不包含在在Hadoop集群内的,那样会减慢操作速度和增加消耗,因为每次查询都必须将数据从集群中移除。
  
  选择3:编写定制脚本
  
  在第三种选择中,你用定制脚本创建了一个工作流来连接进程,应用,质量检查和数据转换从而来满足管理的需要。这是一个很常见的选择但是不可靠和耗资源的。你需要在Hadoop和它的生态系统方面有很强的分析能力从而来利用开源工具,而且他们需要编写脚本来把各部分连接起来。随着你必须不断修改复杂的代码和工作流来更新‘数据湖’,这个过程是很费时间和资源的。
  
  选择4:配置一个完整的“数据湖”管理平台
  
  第四个选择是配置一个用来汲取和管理大量不同的数据的“数据湖”管理平台。Zaloni’sBedrock提供了这项功能。他允许你为数据编排目录,利用元数据并且支持正在进行中的以确保数据质量,数据沿袭和自动化工作流的进程。这种方法是解决“数据湖”管理和支配的佳办法。
  
  当你向“数据湖”转变的时候,选择一个完全整合的数据湖管理平台将会使你对数据充满信心,并且会合并更多的用户和用户案例使之有益于商业。归根结底,这就是数据存在的意义,用来告知和提高组织的决策过程,用崭新的并且激动人心的方式来帮助您的业务增长。
我要评论
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了