正在阅读:HDFS是大数据分析的软肋 原因究竟有几何?

HDFS是大数据分析的软肋 原因究竟有几何?

2016-07-05 10:37:39来源:it168网站?原标题:为何HDFS是大数据分析的软肋 关键词:云计算大数据系统阅读量:31540

导读:分布式文件系统是大型分析非常重要的一环。即使你是在使用Spark,你仍然需要将大量的数据快速的存入内存,所以文件系统一定要可以是高速率的。
  【中国智能制造网 智造快讯】分布式文件系统是大型分析非常重要的一环。即使你是在使用Spark,你仍然需要将大量的数据快速的存入内存,所以文件系统一定要可以是高速率的。但是,HDFS并不像它标榜的那样好,它是大数据分析的薄弱环节。
  
HDFS是大数据分析的软肋 原因究竟有几何?
 
  什么是分布式文件系统?普通的文件系统是基于块来存储文件的。查找文件时,要去磁盘中匹配每一个块。一般是有文件分配表或多种FAT的。但是,分布式文件系统的物理存储资源是不一定直接连接在本地节点上的,而是通过计算机网络与节点相连。另外,像RAID或SAN系统,块是会复制的,因此,网络节点丢失并不会造成数据丢失。
  
  HDFS存在的缺陷
  
  HDFS中的文件分配表的核心是NameNode。客户端主要通过NameNode执行数据操作,DataNode会与其他DataNode进行通信并复制数据块以实现冗余,这样单一的DataNode损坏不会导致集群的数据丢失。但是NameNode一旦发生故障,后果会非常严重。虽然NameNode可以故障转移,但是需要花费大量的时间。这也意味着序列中会有更多的等待时间。HDFS的垃圾回收,尤其是Java垃圾回收是需要占用大量的内存,一般是本机有效内存的10倍。
  
  因为HDFS的设计更多的是建立在响应"一次写入、多次读写"任务的基础上。在多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说,对HDFS来说,请求读取整个数据集要比读取一条记录更加。所以HDFS在语言选择方面更偏向于基础语言,而不是语言。
  
  传统的操作可以用更短的时间来开发部署,维护成本更低、安全性更好。业内有这样一种说法,大多数操作系统支持C语言、汇编和Java的原因是,文件系统处于一个较低的水平。
  
  HDFS的工具和其他文件系统的工具相较是有差距的。比起你曾经处理的任何文件系统或分布式存储HDFS周围的工具是一种较差。基于Java的文件系统只能搭上IT人员喜爱的POSIX工具的末班车。你尝试过NFS挂载HDFS吗?其它的HDFS工具的安装也是非常复杂的。相反的,如果你使用RESTbridgeTool和客户端命令行就会非常容易。
  
  HDFS支持原生代码扩展,提高了运行效率。另外,社区也为NameNode的发展做出了很多贡献。如果你想要打造一个的系统,那么必须打破监测和诊断工具中的NameNode瓶颈。总之,在操作系统上使用基于C或C 的较为成熟的分布式文件系统往往是一个更好的选择。
  
  Spark和云计算需求的变化
  
  早期的Hadoop企业部署基本上是在本地完成的,随着Spark和云部署的崛起,使用AmazonS3作为数据源的情况渐渐多了起来。
  
  Hadoop供应商都期望能够出现更为统一的Hadoop平台,期望HDFS能够与安全组件集成。Spark本身就因文件系统的多样性而存在很多矛盾,所以,想要和文件系统紧密集成几乎是不可能的。
  
  MAPRFS文件系统渐渐引起了企业的兴趣。MAPRFS没有NameNode,而是采用了更标准和熟悉的集群方案方案。MAPR的分区设计也很好的避免了瓶颈。
  
  除了上述的分布式文件系统,还有很多的分布式文件系统可以供选择,例如Ceph、Gluster。Gluster是一种更为标准的分布式文件系统,擅长I/O操作。目前,大多数人选择使用Spark来存储文件是因为他们对于Spark更加熟悉,而并非是因为它性能好、速度快。
  
  大型HDFS安装的迁移是不可能一蹴而就的,但是随着时间的迁移,未来我们在Spark和云项目中会越来越少的看到HDFS。也许,HDFS会脱离YARN,单独成为Hadoop的一部分。
我要评论
  • 2025年云计算:各行业如何借助云技术实现突破?

    云计算的新兴趋势预示着它将变得更加智能、多样化、强大和环保。到2025年,预计超过85%的企业应用程序将是基于云的,从根本上改变商业模式和战略。
    云计算
    2025-05-06 11:40:46
  • 物流智能转型新引擎:DeepSeek+物流

    DeepSeek 物流不仅是技术的革新,更是城市发展的重要推动力。它通过智能化手段提升物流效率、优化资源利用、减少环境影响,并为智慧城市建设提供支撑。未来,随着AI技术的不断进步,物流行业将迎来更深刻的变革。
    物流大数据服务平台
    2025-04-30 10:11:15
  • 2025年4月1日开始施行的重要新规一览

    四月,一系列新规定即将实施,包括《公共安全视频图像信息系统管理条例》、《车联网网络安全异常行为检测机制》等。
    大数据服务平台
    2025-04-02 09:31:36
  • 铁塔大数据灾害分析平台:提升自然灾害智能化预警水平

    目前,我国灾害预防面临着监测预警网络不健全、实效性不高、精准性不强,“三断”(断路、断网、断电)无法及时发现等问题,亟需建立防灾减灾预警网络,实现“灾后救助”向“灾前预防”转变的目标。
    大数据灾害分析平台
    2025-03-19 10:47:45
  • 淄博市召开大数据系统工作会议暨“三拼三比”动员部署会

    会议指出,2024年是新一轮机构改革后全市大数据系统全面履职的第一年,全市大数据系统在市委市政府的坚强领导和省大数据局的有力指导下,数据要素价值加速释放、数字经济发展步伐加快、数字政府建设深入推进、数字支撑底座更为夯实,数字淄博建设取得明显成效。
    大数据服务平台
    2025-03-18 10:07:30
  • 公司重要动态速览|海康威视、新华三、宇树科技......

    近期,智慧城市领域的企业有哪些动态呢?小编整理了一下,一起来回顾。海康威视发布视觉大模型周界摄像机;宇树科技入驻阿里速卖通AliExpress出海......
    大数据服务平台
    2025-03-16 14:10:47
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了