当前位置：网站首页>【先收藏，早晚用得到】49个Flink高频面试题系列（一）

【先收藏，早晚用得到】49个Flink高频面试题系列（一）

2022-06-11 17:40:00 【大数据研习社】

【先收藏，早晚用得到】49个Flink高频面试题系列（一）

持续分享有用、有价值、精选的优质大数据面试题
致力于打造全网最全的大数据面试专题题库

一 . 你在开发Flink任务时，有没有遇到过背压问题，你是如何排查的？

1. 背压产生的原因

背压常常出现在大促或者一些热门活动等场景中，在上面这类场景中, 短时间内流量陡增导致数据的堆积，系统整体的吞吐量无法提升。

2. 监控背压方法

可以通过 Flink Web UI 发现背压问题。

Flink 的 TaskManager 会每隔 50 ms 触发一次反压状态监测，共监测 100 次，并将计算结果反馈给 JobManager，最后由 JobManager 进行计算反压的比例，然后进行展示。

这个比例的计算逻辑如下：

背压程度	指标范围	备注
HIGH	0.5 < Ratio <= 1	严重
LOW	0.10 < Ratio <= 0.5	一般
OK	0 <= Ratio <= 0.10	正常

3. 反压问题的定位与处理

Flink出现背压一般可以从下面三个方面进行问题定位

a. 数据倾斜

可以在 Flink 的后台管理页面看到每个 Task 处理数据的大小。当出现数据倾斜时，可以从页面上明显的看到一个或者多个节点处理的数据量远大于其他节点。这种情况一般是在使用KeyBy等分组聚合算子时，没有考虑到可能出现的热点Key。这种情况需要用户对导致倾斜的热点Key做预处理。

b. 垃圾回收机制(GC)

不合理的设置 TaskManager 的垃圾回收参数会导致严重的 GC 问题，可以通过 -XX:+PrintGCDetails 指令查看 GC 的日志。

c. 代码本身

用户因为未深入了解算子的实现机制而错误地使用了 Flink 算子，导致性能问题。我们可以通过查看运行机器节点的 CPU 和内存情况定位问题

二. 如何处理生产环境中的数据倾斜问题？

1. 产生数据倾斜的原因主要有 2 个方面

业务上有严重的数据热点，比如一个房产网站的浏览数据中北京上海等几个一线城市二手房浏览量远远超过其他地区。 技术上如果大量使用了 KeyBy、GroupBy 等操作，且没有对分组的Key做特殊的处理，会产生数据热点问题。

2. 解决问题的思路

业务上要尽量避免热点 key 的设计，例如我们可以把上海、北京等热点城市与非热点城市划分成不同的区域，并进行单独处理； 技术上出现热点时，要调整方案打散原来的 key，避免直接聚合；此外还可以利用Flink提供的功能来避免数据倾斜。

3. Flink 任务数据倾斜场景和解决方案

（1） 两阶段聚合解决 KeyBy 热点

a. 将需要分组的 key 打散，例如添加随机的后缀

b. 对打散后的数据进行聚合

c. 将被打散的 key 还原为原始的 key

d. 二次 KeyBy 来统计最终结果并输出给下游

具体代码如下所示:

DataStream sourceStream = ...;
resultStream = sourceStream
     .map(record -> {
        Record record = JSON.parseObject(record, Record.class);
        String type = record.getType();
        record.setType(type + "_" + new Random().nextInt(100));
        return record;
      })
      // 首次聚合
      .keyBy(0)
      .window(TumblingEventTimeWindows.of(Time.minutes(5)))
      .aggregate(new CountAggregate())
      .map(count -> {
        String key = count.getKey.substring(0, count.getKey.indexOf("_"));
        return RecordCount(key,count.getCount);
      })
      //进行二次聚合
      .keyBy(0)
      .process(new CountProcessFunction);
resultStream.sink(...) 
env.execute(...)

（2）GroupBy + Aggregation 分组聚合热点问题

如果是采用FlinkSQL的方式，则可以将FlinkSQL 嵌套成两层，里层通过随机打散若干份（如100）的方式降低数据热点，（这个打散的方式可以根据业务灵活指定）。

select date,
       city_id,
       sum(pv) as pv
from(
  select
        date,
        city_id,
        floor(rand() * 100),
        sum(count) as pv
  from kafka_table
        group by
        date,
        city_id,
        floor(rand() * 100) --随机打散为100份  
    )
    group by 
    date,
    city_id;

（3）Flink 消费 Kafka 使用并行度与Kafka分区数不一致导致的数据倾斜

Flink 消费 Kafka 的数据时，是推荐消费并行度为Kafka分区数的1倍或者整数倍的，即 Flink Consumer 的并行度 = Kafka 的分区数 * n （n = 1, 2 ,3 ...）。

三、一个 Flink 任务中可以既有事件时间窗口，又有处理时间窗口吗？

结论：一个 Flink 任务可以同时有事件时间窗口，又有处理时间窗口。

那么有些小伙伴们问了，为什么我们常见的 Flink 任务要么设置为事件时间语义，要么设置为处理时间语义？

确实，在生产环境中，我们的 Flink 任务一般不会同时拥有两种时间语义的窗口。

那么怎么解释开头所说的结论呢？

这里从两个角度进行说明：

我们其实没有必要把一个 Flink 任务和某种特定的时间语义进行绑定。对于事件时间窗口来说，我们只要给它 watermark，能让 watermark 一直往前推进，让事件时间窗口能够持续触发计算就行。对于处理时间来说更简单，只要窗口算子按照本地时间按照固定的时间间隔进行触发就行。无论哪种时间窗口，主要满足时间窗口的触发条件就行。
Flink 的实现上来说也是支持的。Flink 是使用一个叫做 TimerService 的组件来管理 timer 的，我们可以同时注册事件时间和处理时间的 timer，Flink 会自行判断 timer 是否满足触发条件，如果是，则回调窗口处理函数进行计算。需求：数据源：用户心跳日志（uid，time，type）。计算分 Android，iOS 的 DAU，最晚一分钟输出一次当日零点累计到当前的结果。
实现方式 1：cumulate 窗口

SELECT  
    window_start
    , window_end
    , platform
    , sum(bucket_dau) as dau
from (
    SELECT
        window_start
        , window_end
        , platform
        , count(distinct uid) as bucket_dau
    FROM TABLE(
        CUMULATE(
        TABLE user_log,
        DESCRIPTOR(time),
        INTERVAL '60' SECOND
        , INTERVAL '1' DAY))
    GROUP BY                                  
        window_start
        , window_end
        , platform
        , MOD(HASH_CODE(user_id), 1024)
) tmp
GROUP by   
    window_start
    , window_end
    , platform

优点：如果是曲线图的需求，可以完美回溯曲线图。
缺点：大窗口之间如果有数据乱序，有丢数风险；并且由于是 watermark 推动产出，所以数据产出会有延迟。

实现方式 2：Deduplicate

-- 如果需要可以打开 minibatch
select 
    platform
    , count(1) as dau
    , max(time) as time
from (
    select 
        uid
        , platform
        , time
        , row_number() over (partition by uid, platform, time / 24 / 3600 / 1000 order by time desc) rn
    from source
) tmp
where rn = 1
group by
    platform

优点：计算快。

缺点：任务发生 failover，曲线图不能很好回溯。没法支持 cube 计算。

实现方式 3：group agg

-- 如果需要可以打开 minibatch
SELECT   
    max(time) as time
    , platform
    , sum(bucket_dau) as dau
from (
    SELECT
        max(time) as time
        , platform
        , count(distinct uid) as bucket_dau
    FROM source
    GROUP BY
        platform
        , MOD(HASH_CODE(user_id), 1024)
) t 
GROUP by   
    platform

优点：计算快，支持 cube 计算。

缺点：任务发生 failover，曲线图不能很好回溯。