正在阅读:了解Hadoop技术优缺点 轻松处理大数据

了解Hadoop技术优缺点 轻松处理大数据

2016-06-15 10:37:53来源:36大数据 原标题:使用Hadoop处理大数据,你需要了解它的优点和缺点 关键词:Hadoop大数据数据分析阅读量:32957

导读:由于从各光伏电站采集的数据量较大,必须解决海量数据的查询、分析的问题。目前主要考虑两种方式:1.Hadoop大数据技术;2.Oracle(数据仓库)+BI。
  【中国智能制造网 技术前沿】由于从各光伏电站采集的数据量较大,必须解决海量数据的查询、分析的问题。目前主要考虑两种方式:1.Hadoop大数据技术;2.Oracle(数据仓库)+BI;本文仅介绍hadoop的技术要应用特征。

了解Hadoop技术优缺点 轻松处理大数据
  
  Hadoop基本介绍
  
  hadoop是一个平台,是一个适合大数据的分布式存储和计算的平台。什么是分布式存储?这就是后边我们要讲的hadoop核心之一HDFS(HadoopDistributedFileSystem);什么是分布式计算?这是我们后边要讲的hadoop另外一个重要的核心MapReduce。
  
  hadoop的优点一:低成本
  
  hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的,这些服务器集群是可以支持数千个节点的。
  
  hadoop优点二:性
  
  这也是hadoop的核心竞争优势所在,接受到客户的数据请求后,hadoop可以在数据所在的集群节点上并发处理。
  
  hadoop优点三:可靠性
  
  通过分布式存储,hadoop可以自动存储多份副本,当数据处理请求失败后,会自动重新部署计算任务。
  
  hadoop优点四:扩展性
  
  hadoop的分布式存储和分布式计算是在集群节点完成的,这也决定了hadoop可以扩展至更多的集群节点。
  
  hadoop安装方式|hadoop部署方式
  
  hadoop安装方式只有三种:本地安装;伪分布安装;集群安装。
  
  Hadoop适应的场景
  

  1:超大文件
  
  可以是几百M,几百T这个级别的文件。
  
  2:流式数据访问
  
  Hadoop适用于一次写入,多次读取的场景,也就是数据复制进去之后,长时间在这些数据上进行分析。
  
  3:商业硬件
  
  也就是说大街上到处都能买到的那种硬件,这样的硬件故障率较高,所以要有很好的容错机制。
  
  Hadoop不适用的场景
  
  1:低延迟数据访问
  
  Hadoop设计的目的是大吞吐量,所以并没有针对低延迟数据访问做一些优化,如果要求低延迟,可以看看Hbase。
  
  2:大量的小文件
  
  由于NameNode把文件的MetaData存储在内存中,所以大量的小文件会产生大量的MetaData。这样的话别的文件数目还是可行的,再多的话就有问题了。
  
  3:多用户写入,任意修改
  
  Hadoop现在还不支持多人写入,任意修改的功能。也就是说每次写入都会添加在文件末尾。
  
  Hadoop业务场景(一)

  
  在大数据背景下,ApacheHadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是Hadoop的大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。也许你会认为,Hadoop平台发挥作用的领域是互联网行业,用来改善分析性能并提高扩展性。其实Hadoop的应用场景远不止这一点,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的作用。
  
  美国着名科技博客GigaOM的专栏作家DerrickHarris跟踪云计算和Hadoop技术已有多年时间,他也在近的一篇文章中总结了10个Hadoop的应用场景,下面分享给大家:
  
  在线旅游:目前范围内80%的在线旅游网站都是在使用Cloudera公司提供的Hadoop发行版,其中SearchBI网站曾经报道过的Expedia也在其中。
  
  移动数据:Cloudera运营总监称,美国有70%的智能手机数据服务背后都是由Hadoop来支撑的,也就是说,包括数据的存储以及无线运营商的数据处理等,都是在利用Hadoop技术。
  
  电子商务:这一场景应该是非常确定的,eBay就是大的实践者之一。国内的电商在Hadoop技术上也是储备颇为雄厚的。
  
  能源开采:美国Chevron公司是全美第二大石油公司,他们的IT部门主管介绍了Chevron使用Hadoop的经验,他们利用Hadoop进行数据的收集和处理,其中这些数据是海洋的地震数据,以便于他们找到油矿的位置。
 
我要评论
  • 物流智能转型新引擎:DeepSeek+物流

    DeepSeek 物流不仅是技术的革新,更是城市发展的重要推动力。它通过智能化手段提升物流效率、优化资源利用、减少环境影响,并为智慧城市建设提供支撑。未来,随着AI技术的不断进步,物流行业将迎来更深刻的变革。
    物流大数据服务平台
    2025-04-30 10:11:15
  • 2025年4月1日开始施行的重要新规一览

    四月,一系列新规定即将实施,包括《公共安全视频图像信息系统管理条例》、《车联网网络安全异常行为检测机制》等。
    大数据服务平台
    2025-04-02 09:31:36
  • 铁塔大数据灾害分析平台:提升自然灾害智能化预警水平

    目前,我国灾害预防面临着监测预警网络不健全、实效性不高、精准性不强,“三断”(断路、断网、断电)无法及时发现等问题,亟需建立防灾减灾预警网络,实现“灾后救助”向“灾前预防”转变的目标。
    大数据灾害分析平台
    2025-03-19 10:47:45
  • 淄博市召开大数据系统工作会议暨“三拼三比”动员部署会

    会议指出,2024年是新一轮机构改革后全市大数据系统全面履职的第一年,全市大数据系统在市委市政府的坚强领导和省大数据局的有力指导下,数据要素价值加速释放、数字经济发展步伐加快、数字政府建设深入推进、数字支撑底座更为夯实,数字淄博建设取得明显成效。
    大数据服务平台
    2025-03-18 10:07:30
  • 公司重要动态速览|海康威视、新华三、宇树科技......

    近期,智慧城市领域的企业有哪些动态呢?小编整理了一下,一起来回顾。海康威视发布视觉大模型周界摄像机;宇树科技入驻阿里速卖通AliExpress出海......
    大数据服务平台
    2025-03-16 14:10:47
  • 贵州省大数据局召开数字企业座谈会

    会上,朱宗尧介绍了全省数据工作“一体两翼三大转型”总体思路及数字产业重点发展方向,数字产业处就起草促进数字产业发展相关政策措施有关情况作了说明。
    大数据服务平台
    2025-03-10 11:14:27
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了