当前位置:网站首页>Flink CheckPoint : Exceeded checkpoint tolerable failure threshold
Flink CheckPoint : Exceeded checkpoint tolerable failure threshold
2022-06-12 08:51:00 【//承续缘_纪录片】
一、问题描述
超过了检查点可容忍的故障阈值

二、解决步骤
1、检查checkpoint的设置
明显,checkpoint超时了,于是,我下意识地去,检查checkpoint的设置
代码中的设置如下:
// 每 ** ms 开始一次 checkpoint
env.enableCheckpointing(10*1000);
// 设置模式为精确一次 (这是默认值)
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
// 确认 checkpoints 之间的时间会进行 ** ms
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
// Checkpoint 必须在一分钟内完成,否则就会被抛弃
env.getCheckpointConfig().setCheckpointTimeout(60000);
// 同一时间只允许一个 checkpoint 进行
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
// 开启在 job 中止后仍然保留的 externalized checkpoints
env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
// 允许在有更近 savepoint 时回退到 checkpoint
env.getCheckpointConfig().setPreferCheckpointForRecovery(true);
尝试更改一下timeout时间,从1分钟改为10分钟,重新打包上线。
然后查看UI界面,发现checkpoint仍然无法正常进行,状态一直是IN_PROGRESS,没有进展,只不过从等待1分钟变成了10分钟,程序最后还是挂掉
这个时候,考虑不是checkpoint设置问题,而是程序有bug,资源没有释放或者其他问题,导致程序卡住了,以至于checkpoint超时。
2、检查处理逻辑

发现数据通道阻塞,经过打印数据发现,任务中异步IO从HBase中查询数据,有key不存在,关联任务超时,导致checkpoint失败
打印维度关联超时的数据:
3、问题复盘
问题产生原因:hbase scan性能低下,导致查询维度数据超时,创建检查点失败
正常来说,维度查询没有对应数据也不会超时的,只是返回空值,但是scan全盘扫描查询时间较长,所以使用get方式精准查询。
三、解决方案
hbase的查询实现只提供两种方式:
按指定rowkey获取唯一一条记录:get方法。
按指定条件获取一批记录:scan方法。
边栏推荐
- Loading font component loading effect
- 第三章 寄存器 (内存访问)
- Is it really expensive for enterprises to launch MES software?
- RuntimeError:Input and parameter tensors are not at the same device, found input tensor at cuda:0 an
- Engineers learn music theory (III) interval mode and chord
- [GUI development] browsing function implementation model of image processing software
- Centos8 installing MySQL 8.0 (upper)
- 《MATLAB 神经网络43个案例分析》:第7章 RBF网络的回归--非线性函数回归的实现
- [dynamic memory management] malloc & calloc and realloc and written test questions and flexible array
- Code generation tool Autocode for XML Publishing
猜你喜欢

Py & go programming skills: logic control to avoid if else
![[dynamic memory management] malloc & calloc and realloc and written test questions and flexible array](/img/d2/a6276d8415c46124920395df5651d1.png)
[dynamic memory management] malloc & calloc and realloc and written test questions and flexible array

【进阶指针一】字符数组&数组指针&指针数组

Building a cluster: and replacing with error
![[advanced pointer III] implement C language quick sorting function qsort & callback function](/img/f0/3729db83ba3eb15c7df0958858ece9.png)
[advanced pointer III] implement C language quick sorting function qsort & callback function

(p15-p16) optimization of the right angle bracket of the template and the default template parameters of the function template

Composition of box model

Background position - mixed units

Loading circling effect during loading

【 pointeur avancé Ⅲ】 mise en œuvre de la fonction de tri rapide qsort& fonction de rappel en langage C
随机推荐
Encapsulate the amount input box component.
分库分表会带来读扩散问题?怎么解决?
第六章-包含多个段的程序
Error: ER_ NOT_ SUPPORTED_ AUTH_ MODE: Client does not support authentication protocol requested ... ...
Why should enterprises implement MES? What are the specific operating procedures?
《MATLAB 神經網絡43個案例分析》:第7章 RBF網絡的回歸--非線性函數回歸的實現
(p17-p18) define the basic type and function pointer alias by using, and define the alias for the template by using and typedef
报错:文件夹在另一个程序中打开无法删除怎么办
[advanced pointer III] implement C language quick sorting function qsort & callback function
IDEA新版UI申请方法+无测试资格使用方法及相关介绍
Error: clear the history in the search box in the website?
[advanced pointer I] character array & array pointer & pointer array
【字符集六】宽字符串和多字节字符互转
Popular understanding of time domain sampling and frequency domain continuation
第三章 寄存器 (内存访问)
【进阶指针二】数组传参&指针传参&函数指针&函数指针数组&回调函数
在Tensorflow中把Tensor转换为ndarray时,循环中不断调用run或者eval函数,代码运行越来越慢!
Handling abnormal data
FDA审查人员称Moderna COVID疫苗对5岁以下儿童安全有效
You have an error in your SQL syntax; use near ‘and title=‘xxx‘‘ at line 5