当前位置：网站首页>【Presto Profile系列】Timeline使用

【Presto Profile系列】Timeline使用

2022-07-07 10:58:00 【skyyws】

我们在Presto页面，可以通过“Splits”标签页查看整个查询的Timeline信息，如下所示：

本文，我们就从代码层面来看一下这个Timeline的相关内容，以及我们该如何使用它来排查一个查询的瓶颈点。

一、代码研究

简单来说，上面的Timeline展示的是stage与task相关的信息。这里我们首先看下每个task的taskId信息。

1.1 TaskId

我们可以直接在查询的详细页面上展开某个stage，然后就可以看到该stage下的所有task信息，如下所示：

每个task都有自己的一个ID，例如1.0.2，这个就是taskId，主要由两部分组成：

//SqlStageExecution.java
TaskId taskId = new TaskId(stateMachine.getStageExecutionId(), nextTaskId.getAndIncrement());

SqlStageExecution
-StageExecutionStateMachine stateMachine
--StageExecutionId stageExecutionId
---StageId stageId
---int id

对于上面的1.0.2，其中stageExecutionId是1.0，而nextTaskId是2。对于stageExecutionId而言，其中1就是stageId，而0则是id。StageExecutionId相关的代码如下：

//LegacySqlQueryScheduler.java
List<StageExecutionAndScheduler> sectionStages =
        sectionExecutionFactory.createSectionExecutions(
                session,
                section,
                locationsConsumer,
                bucketToPartition,
                outputBuffers,
                summarizeTaskInfo,
                remoteTaskFactory,
                splitSourceFactory,
                0).getSectionStages();

//SectionExecutionFactory.java
SqlStageExecution stageExecution = createSqlStageExecution(
        new StageExecutionId(stageId, attemptId),

可以看到，这个id是一个attemptId，默认是从0开始的，这里我们就暂时认为这个值在正常情况下都是0，相关代码不再深入展开。

1.2 Timeline相关成员

Timeline页面主要是由js的脚本来构造生成的，相关的代码如下：

//timeline.html
function renderTimeline(data) {
    function getTasks(stage) {
        return [].concat.apply(
                stage.latestAttemptExecutionInfo.tasks,
                stage.subStages.map(getTasks));
    }
    tasks = getTasks(data.outputStage);
    tasks = tasks.map(function(task) {
        return {
            taskId: task.taskId.substring(task.taskId.indexOf('.') + 1),
            time: {
                create: task.stats.createTime,
                firstStart: task.stats.firstStartTime,
                lastStart: task.stats.lastStartTime,
                lastEnd: task.stats.lastEndTime,
                end: task.stats.endTime,
            },
        };
    });

而这其中各个变量对应的Java类如下所示：

//作为整个Timeline的输入内容
QueryInfo data
-Optional<StageInfo> outputStage
//最终遍历处理每个TaskInfo
StageInfo stage
-StageExecutionInfo latestAttemptExecutionInfo
--List<TaskInfo> tasks
//循环处理outputStage的subStages中的每个<StageInfo
-List<StageInfo> subStages
//主要获取taskId进行分组、排序，stats中的几个time变量进行timeline展示
TaskInfo task
-TaskStats stats

1.3 Timeline阶段

在介绍Timeline的构造之前，先看一下timeline的几个节点，这里主要获取了每个task的五个阶段时间点，如下所示：

Created
First split started
Last split started
Last split ended
Ended

从上一个时间点，到这个时间点之间，用一个颜色标识，作为一个阶段。一共四个阶段，如下所示：

Created -> First split started：red
First split started -> Last split started：green
Last split started -> Last split ended：blue
Last split ended -> Ended：orange

1.4 Timeline构造

服务端会根据上面的一些变量，然后通过js脚本来构造对应的变量，用于页面展示，相关代码如下所示：

//renderTimeline(timeline.html)
    var groups = new vis.DataSet();
    var items = new vis.DataSet();
    for (var i = 0; i < tasks.length; i++) {
        var task = tasks[i];
        var stageId = task.taskId.substr(0, task.taskId.indexOf("."));
        var taskNumber = task.taskId.substr(task.taskId.indexOf(".") + 1);
        if (taskNumber == 0) {
            groups.add({
                id: stageId,
                content: stageId,
                sort: stageId,
                subgroupOrder: 'sort',
            });
        }

首先就是获取stageId和taskNumber。例如对于1.0.2，分别就是1和0.2。处理stage的第一个task时，就将stage信息，加入到groups中。接着就开始处理这个task的各个阶段，以第一阶段为例：

items.add({
    group: stageId,
    start: task.time.create,
    end: task.time.firstStart,
    className: 'red',
    subgroup: taskNumber,
    sort: -taskNumber,
});

这里统计的就是task从create到第一个split start的时间，并表示为红色。遍历完成之后，所有的task都会被处理并放到items中。下面我们来看下groups和items两个成员的具体内容。

1.4.1 groups成员

通过直接在浏览器中对js进行调试，就可以看到groups的内容，如下所示：

由此可知，这个groups的成员就是对应的各个stage的id信息。

1.4.2 items成员

通过直接在浏览器中对js进行调试，同样可以看到items的信息，如下所示：

可以看到，每个task的每个阶段对应一个成员，例如task 1.0.16，它包含了四个成员，即group是1，subgroup是0.16，对应的分别就是stageId和taskNumber，这些成员的className不同，即不同的阶段，而sort则是-0.16，对应上面代码中的-taskNumber。