当前位置:网站首页>Flume理论
Flume理论
2022-06-29 19:46:00 【一个正在努力的菜鸡】
Flume定义
1.Flume是什么?
- Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
分布式的海量日志采集、聚合和传输的系统
分布式的海量日志采集、聚合和传输的系统
分布式的海量日志采集、聚合和传输的系统
日志日志日志!!!重要的事情说三遍
2.定义
- Flume基于流式架构,灵活简单
- 适用于实时推送事件,尤其是在数据流是持续的且量级很大的情况
Flume组成架构
1.简单架构图

2.详细架构图

3.讲解
- Agent
Agent是一个JVM进程
以事件的形式将数据从源头送至目的,是Flume数据传输的基本单元
3个部分组成:Source、Channel、Sink
- Source
Source负责接收数据到Flume Agent的组件
Source组件可以处理各种类型、各种格式的日志数据
日志数据!!!!!
包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy
- Channel
Channel是位于Source和Sink之间的缓冲区
类似于生产者消费者模式,方式写数据过快而读数据过慢
Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作
1.Memory Channel
基于内存,关机或重启或程序死亡,机器宕机等情况会导致数据丢失
在不需要关心数据丢失的情景下适用
2.File Channel
基于磁盘,以上情况都不会导致数据丢失,但大量的IO也是系统的瓶颈
- Sink
Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent
Sink是完全事务性的
在从Channel批量删除数据之前,每个Sink用Channel启动一个事务
批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务
事务一旦被提交,该Channel从自己的内部缓冲区删除事件
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义
常用Sink
1.Logger Sink:记录INFO级别的日志,一般用于调试
2.File Roll Sink:在本地文件系统中存储事件,每隔指定时长生成文件保存这段事件内收集到的日志信息
3.Avro Sink:实现多级流,扇出流(1对多)扇入流(多对1)的基础,实现多个flume节点的连接
若要实现扇出,需要配置多个channel与sink,如果只配置一个channel,会被多个sink互斥消耗掉
Hadoop创始人Doug Cutting创建的一种语言无关的数据序列化和RPC框架
RPC(Remote Procedure Call)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议
4.HDFS Sink
- Event
传输单元,Flume数据传输的基本单元
以事件的形式将数据从源头送至目的地
Agent内部原理
1.图解

2.Channel选择器有两种类型
- Replicating Channel Selector(默认):将source发过来的event发往所有Channel
- Multiplexing Channel Selector:可配置source发过来的event发往哪些Channel
Flume拓扑图
1.Flume Agent连接

2.单source,多channel、sink

3. Flume Agent聚合

4.Flume负载均衡

边栏推荐
- Canonical的工程师们正努力解决Firefox Snap的性能问题
- How important is it to make a silver K-line chart?
- 7.取消与关闭
- go: 如何编写一个正确的udp服务端
- Technical methodology of new AI engine under the data infrastructure upgrade window
- 数据基础设施升级窗口下,AI 新引擎的技术方法论
- [proteus simulation] matrix keyboard interrupt scanning
- 2022年深圳市福田区支持先进制造业发展若干措施
- 【软件测试】01 -- 软件生命周期、软件开发模型
- 雪花id,分布式唯一id
猜你喜欢

如何设置 Pod 到指定节点运行

一次 Keepalived 高可用的事故,让我重学了一遍它!

4-2 port banner information acquisition

【观察】软通动力刘天文:拥抱变化“顺势而为”,做中国数字经济“使能者”...

洞见科技作为「唯一」隐私计算数商,「首批」入驻长三角数据要素流通服务平台

Win11策略服务被禁用怎么办?Win11策略服务被禁用的解决方法

Canonical engineers are trying to solve the performance problem of Firefox snap

k线图经典图解(收藏版)

lock4j--分布式锁中间件--自定义获取锁失败的逻辑

Deficiencies and optimization schemes in Dao
随机推荐
JVM(4) 字節碼技術+運行期優化
Where is the win11 installation permission set? Win11 installation permission setting method
Game maker Foundation presents: Valley of belonging
With these four security testing tools, software security testing can be said so easy!
凌云出海记 | 文华在线&华为云:打造非洲智慧教学新方案
Technical methodology of new AI engine under the data infrastructure upgrade window
Classic illustration of K-line diagram (Collection Edition)
AI scene Storage Optimization: yunzhisheng supercomputing platform storage practice based on juicefs
14.04 million! Sichuan provincial human resources and social security department relational database and middleware software system upgrade procurement bidding!
Exploration and practice of NLP problem modeling scheme
freemarker模板框架生成图片
3-3主机发现-四层发现
MBA-day19 如果p则q矛盾关系p 且非q
How to use filters in jfinal to monitor Druid for SQL execution?
Arm 全面计算解决方案重新定义视觉体验强力赋能移动游戏
JVM (2) garbage collection
Win11策略服务被禁用怎么办?Win11策略服务被禁用的解决方法
Regular expression series of mobile phone numbers
7.取消与关闭
【U盘检测】为了转移压箱底的资料,买了个2T U盘检测仅仅只有47G~