当前位置:网站首页>Apache Doris 1.1 特性揭秘:Flink 实时写入如何兼顾高吞吐和低延时
Apache Doris 1.1 特性揭秘:Flink 实时写入如何兼顾高吞吐和低延时
2022-07-29 18:06:00 【InfoQ】
背景
挑战
- 如何保证端到端的秒级别数据同步?
- 如何快速保证数据可见性?
- 在高并发大压力下,如何解决大量小文件写入的问题?
- 如何确保端到端的 Exactly Once 语义?
优化
流式写入

- Flink 任务启动后,会异步发起一个 Stream Load 的 Http 请求。
- 接收到实时数据后,通过 Http 的分块传输编码(Chunked transfer encoding)机制持续向 Doris 传输数据。
- 在 Checkpoint 时结束 Http 请求,完成本次 Stream Load 写入,同时异步发起下一次 Stream Load 的请求。
- 继续接收实时数据,后续流程同上。
Exactly-Once
- Flink 任务在启动的时候,会发起一个 Stream Load 的 PreCommit 请求,此时会先开启一个事务,同时会通过 Http 的 Chunked 机制将数据持续发送到 Doris。

- 在 Checkpoint 时,结束数据写入,同时完成 Http 请求,并且将事务状态设置为预提交(PreCommitted),此时数据已经写入 BE,对用户不可见。

- Checkpoint 完成后,发起 Commit 请求,并且将事务状态设置为提交(Committed),完成后数据对用户可见。

- Flink 应用意外挂掉后,从 Checkpoint 重启时,若上次事务为预提交(PreCommitted)状态,则会发起回滚请求,并且将事务状态设置为 Aborted。
秒级别数据同步
数据版本的快速聚合能力

效果
通用 Flink 高并发场景



秒级别数据同步场景(极限大压力)

使用建议
数据实时可见场景
高并发场景
未来规划
实时 Schema Change
Doris 多表写入
自适应的 Compaction 参数调优
单副本 Compaction
社区动态
- 增加了 ODBC 的向量化 Sink
- 增加了 MemTracker,帮助 BE 侧内存得到更好的观测和控制
- 修复了部分 1.1.0 版本中的 Bug
- 1.1.1 版本同样可支持直接从 0.15.x 跨过 1.0.x 版本进行升级
边栏推荐
- HCIP笔记第十四天
- 公司无线规划设计及实施SOP
- 【码蹄集新手村600题】给定一个整数n,求floor(n/x)=y 中 x,y 的所有值
- KubeMeet 报名 | 「边缘原生」线上技术沙龙完整议程公布!
- redis学习三redis里的list、set、hash、sorted_set、skiplist
- 字节跳动 Flink 单点恢复功能及 Regional CheckPoint 优化实践
- 疫情驱动医疗数字化新业态,ActiveReports强力助推医院LIMS系统升级换代!
- 西人马重磅发布自研电荷信号调理芯片CU0102B
- Security整各Gateway后配置不生效?
- 罚款182.28亿元!市场监管总局针对阿里巴巴垄断行为做出行政处罚
猜你喜欢

LL(1),LR(0),SLR(1),LALR(1),LR(1)对比与分析

StarRocks 2.3 新版本特性介绍

Mathematical Analysis_Proof_Two Important Limits (Tongji Version)

分批数据遍历的优化

招聘|字节跳动云原生计算,期待你的加入

【深度学习】使用yolov5对数据进行预标注

centos7服务器安全策略

500强企业如何提升研发效能?来看看行业专家怎么说

本周投融报:CeFi积聚风投吸引力
![[Operation and maintenance] ssh tunneling relies on the 22 port of ssh to realize the interface service of accessing the remote server](/img/4a/7156470e8d96c7709001bac88e872c.png)
[Operation and maintenance] ssh tunneling relies on the 22 port of ssh to realize the interface service of accessing the remote server
随机推荐
Zadig 环境负载均衡:0 人工干预,极速部署
【深度学习】使用yolov5对数据进行预标注
如何灵活管理权限,保障团队数据安全?|2分钟了解 ONES
腾讯开源摘星计划培养开源贡献者的实践思考
五种常见IO模型
本周投融报:CeFi积聚风投吸引力
KubeMeet 报名 | 「边缘原生」线上技术沙龙完整议程公布!
不惧AMD及Arm挑战,英特尔称霸服务器市场的秘诀是什么?
C陷阱与缺陷
transformer通俗理解
滚动条样式
Google Cloud X Kyligence|如何从业务视角管理数据湖?
新王加冕还是动物乐园?7大顶级蓝筹NFT项目详解
Analyst: Baidu could become China's most valuable company by 2030
crontab执行定时任务报错的问题
431页14万字政府信息化管理平台解决方案
带你入门云开发实践总结篇
P4775 [NOI2018] 情报中心(线段树合并)
[Operation and maintenance] ssh tunneling relies on the 22 port of ssh to realize the interface service of accessing the remote server
商业智能BI为什么能在数字化时代成为企业的基础建设