当前位置：网站首页>面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读

面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读

2022-07-06 07:58:00 【腾讯云数据库】

SIGMOD 数据管理国际会议是数据库领域具有最高学术地位的国际性会议，位列数据库方向顶级会议之首。近日，腾讯云数据库团队的最新研究成果入选 SIGMOD 2022 Research Full Paper（研究类长文），入选论文题目为“HUNTER: An Online Cloud Database Hybrid Tuning System for Personalized Requirements”。标志着腾讯云数据库团队在数据库AI智能化上取得进一步突破，实现性能领先。

数据库参数自动调优在学术界和工业界都已有较多研究，但现有的方法在缺少历史数据时或是面对新负载进行参数调优时，往往面临着调优时间过长的问题(可达到数天)。在此篇论文中，团队提出了混合调优系统Hunter，即改进后的 CDBTune+，主要解决了⼀个问题：如何在保证调优效果的前提下显著减少调优时间。经实验调优效果明显：随着并发度提升实现调优时间准线性降低，在单并发度场景下调优时间只需17小时，在20并发度场景下调优时间缩短至2小时。

工作原理（技术原理解析）

这是CDB/CynosDB数据库团队第三次研究成果论文被SIGMOD收录。继2019年数据库团队首度提出基于深度强化学习(DRL)的端到端云数据库参数调优系统CDBTune，该研究论文“An End-to-End Automatic Cloud Database Tuning System Using Deep Reinforcement Learning”入选SIGMOD 2019 Research Full Paper（研究类长文）。

file

虽然CDBTune 在调参效果上已经达到了⼀个相当高的水平，但我们也发现，CDBTune 需要较长的调优时间才能通过自我学习达到较高的性能。

对此，本次收录论文中提出改进的 CDBTune+，能够在保证调优效果的前提下极大地缩减调优耗时。

改进的混合调优系统CDBTune+，主要包含样本生成、搜索空间优化、深度推荐三个阶段。样本生成阶段利用遗传算法进行初期调优，快速获取高质量样本；搜索空间优化阶段利用上⼀阶段的样本信息减小解空间，减少学习成本；深度推荐阶段利用之前阶段的信息进行维度优化和强化学习预训练，保证调优效果的同时显著减少调优时间。

为了进⼀步对调优过程进行加速，我们充分利用CDB 的克隆技术，采用多台数据库实例实现并行化，令整个调优时间更进⼀步地减少。

file

样本生成

如下图所示，由于基于学习的调优方法在训练初期都有着调优效果差、收敛速度慢等问题（我们称之为冷启动问题）。

我们认为这些方法面临冷启动问题主要是因为：

1、样本数量少质量差，网络难以快速学到正确的探索方向。 2、搜索空间大，网络结构复杂，学习速度缓慢。

为了缓解上述问题，我们采用收敛速度更快的启发式方法（如：遗传算法(GA)）进行初期的调优，以此快速获得高质量的样本。

如图 5 所示，不同方法进行 300 次的参数推荐，图中是这 300 次参数所对应的数据库性能分布。可以见得，相较于其他的方法，GA 能够收集到更多的高性能参数。

虽然有着更快的学习速度，但是 GA 却可能更容易收敛到次优解，如图 6 所示。

file file

启发式方法虽有着较快的收敛速度，但是却容易收敛到局部最优，导致最终调优效果不佳。

而基于学习的方法却在较长的调优时间后可以得到较高的性能，但是却需要较长的训练时间，速度较慢。我们将两种方法结合，即加快了调优速度，也确保了参数质量。

搜索空间优化

单纯地将两者拼接难以有⼀定的性能提升（节约约 20%的时间），但是我们期望更多。

利用样本生成阶段可以获得较多高质量的样本，但是却没有将其效果充分发挥。我们利用PCA 进行状态空间降维，Random Forests 进行参数重要性排序。

PCA 是⼀种常用的降维方法，可将高维数据降为低维数据的同时保留大部分信息。我们采用累计方差贡献率来衡量信息的保留度，⼀般来说，当累计方差贡献率 > 90%时即可认为信息得到了完全的保留。

我们选择贡献率最大的两个成分，并以此作为 x、y 轴描点，以其对应的数据库性能作为点的颜色（颜色越深性能越低），可以看出，低性能的点可以被两个成分较为明显的区分开来，由此可见，PCA 能够帮助 DRL 更好地学习。

随机森林可以被用来计算特征的重要性，我们以数据库参数为输入，对应的数据库性能为输出训练随机森林模型，然后计算各个数据库参数的重要性，并进行排序。采用不同数量的 Top 参数进行参数调优可以看到数据库最优性能的变化，在⼀定数量的样本保证下，TPC-C 负载调整 20 个参数即可达到较高的性能。 file