产品|公司|采购|资讯

Apache Flume

参考价面议
具体成交价以合同协议为准
  • 公司名称重庆慧都科技有限公司
  • 品       牌
  • 型       号
  • 所  在  地
  • 厂商性质其他
  • 更新时间2022/3/11 15:11:03
  • 访问次数84
产品标签:

在线询价收藏产品 进入展商展台

联系我们时请说明是 智能制造网 上看到的信息,谢谢!

慧都科技(evget),成立于2003年,是国内的数字化、智能化解决方案服务商,、AA*信用企业;公司围绕智能制造、软件国产化定制,提供优质的解决方案服务。慧都总部位于重庆,并设立北京、上海、广州、武汉等多家分公司;慧都拥有近百人的技术研发团队,在大数据与AI、3D、资源调度等前沿技术领域持续创新,获得自主知识产权近百项;服务阿里巴巴、中石油、中电科、中航工业等数百家企业。同时,慧都与IBM、SAP、达索、Apple等IT共建行业生态,共同为企业赋能!未来,慧都将继续践行科技与行业融合的企业使命,发挥技术优势,助力企业实现数字化、智能化变革。
软件定制
一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
Apache Flume 产品信息
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

产品质量分析及预测

需要培训、定制、外包?

请联系我们!800018081


慧都专业技术团队帮助您提高效率,节省成本,降低风险!

* 关于本产品的分类与介绍仅供参考,精准产品资料以介绍为准,如需购买请先行测试。

Hadoop业务的整体开发流程:

ce699fd02d334071be2be48da5b46736o.jpg

从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。

Flume架构介绍

1、Flume的概念

fb5cb1df24684acebb92c1e4d62d1af6o.jpg

flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到的地方去,比如说送到图中的HDFS,简单来说flume就是收集日志的。

2、Event的概念

在这里有必要先介绍一下flume中event的相关概念:flume的核心是把数据从数据源(source)收集过来,在将收集到的数据送到的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。 在整个数据的传输的过程中,流动的是event,即事务保证是在event级别进行的。那么什么是event呢?—–event将传输的数据进行封装,是flume传输数据的基本单位,如果是文本文件,通常是一行记录,event也是事务的基本单位。event从source,流向channel,再到sink,本身为一个字节数组,并可携带headers(头信息)信息。event代表着一个数据的最小完整单元,从外部数据源来,向外部的目的地去。

3、flume架构介绍

flume之所以这么神奇,是源于它自身的一个设计,这个设计就是agent,agent本身是一个Java进程,运行在日志收集节点—所谓日志收集节点就是服务器节点。

agent里面包含3个核心的组件:source—->channel—–>sink,类似生产者、仓库、消费者的架构。

source:source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、自定义。

channel:source组件把数据收集来以后,临时存放在channel中,即channel组件在agent中是专门用来存放临时数据的——对采集到的数据进行简单的缓存,可以存放在memory、jdbc、file等等。

sink:sink组件是用于把数据发送到目的地的组件,目的地包括hdfs、logger、avro、thrift、ipc、file、null、Hbase、solr、自定义。

4、flume的运行机制

flume的核心就是一个agent,这个agent对外有两个进行交互的地方,一个是接受数据的输入——source,一个是数据的输出sink,sink负责将数据发送到外部的目的地。source接收到数据之后,将数据发送给channel,chanel作为一个数据缓冲区会临时存放这些数据,随后sink会将channel中的数据发送到的地方—-例如HDFS等,注意:只有在sink将channel中的数据成功发送出去之后,channel才会将临时数据进行删除,这种机制保证了数据传输的可靠性与安全性。

5、flume的广义用法

flume之所以这么神奇—-其原因也在于flume可以支持多级flume的agent,即flume可以前后相继,例如sink可以将数据写到下一个agent的source中,这样的话就可以连成串了,可以整体处理了。flume还支持扇入(fan-in)、扇出(fan-out)。所谓扇入就是source可以接受多个输入,所谓扇出就是sink可以将数据输出多个目的地destination中。

flume应用—日志采集

对于flume的原理其实很容易理解,我们更应该掌握flume的具体使用方法,flume提供了大量内置的Source、Channel和Sink类型。而且不同类型的Source、Channel和Sink可以自由组合—–组合方式基于用户设置的配置文件,非常灵活。比如:Channel可以把事件暂存在内存里,也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, HBase,甚至是另外一个Source等等。下面我将用具体的案例详述flume的具体用法。

其实flume的用法很简单—-书写一个配置文件,在配置文件当中描述source、channel与sink的具体实现,而后运行一个agent实例,在运行agent实例的过程中会读取配置文件的内容,这样flume就会采集到数据。

关键词:数据传输
在找 Apache Flume 产品的人还在看
返回首页 产品对比

提示

×

*您想获取产品的资料:

以上可多选,勾选其他,可自行输入要求

个人信息:

Copyright gkzhan.com , all rights reserved

智能制造网-工业4.0时代智能制造领域“互联网+”服务平台

对比栏