当前位置：网站首页>2022KDD预讲 | 11位一作学者带你提前解锁优秀论文

2022KDD预讲 | 11位一作学者带你提前解锁优秀论文

2022-07-04 12:44:00 【AITIME论道】

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

7月6日我们邀请到11位KKD一作学者在线为大家解读优秀论文！

哔哩哔哩直播通道

扫码关注AI TIME哔哩哔哩官方账号预约直播

7月6日 10:00-11:00

讲者简介

赵辰：

美国Kitware公司高级研发工程师，博士毕业于美国得克萨斯大学达拉斯分校计算机专业。主要研究方向公平性学习在数据发掘，机器学习，深度学习上的研究和应用。在包括KDD，AAAI，WWW，ICDM等会议与期刊上发表过多篇论文，并受邀担任KDD，AAAI，ICDM，AISTATS等人工智能领域顶级国际会议程序委员和审稿人，并组织和担任KDD workshop的主持。个人主页：https://charliezhaoyinpeng.github.io/homepage/

分享内容

适应环境变化的公平意识在线元学习

报告简介

公平意识在线学习框架已成为持续终身学习设置的强大工具。学习者的目标是顺序地学习新任务，这些新任务随着时间的推移一个接一个地出现，学习者确保新任务在不同的受保护亚种群(如种族和性别)中统计均等。现有方法的一个主要缺点是它们大量使用数据i.i.d的假设，从而为框架提供静态的遗憾分析。然而，在任务从异构分布中采样的不断变化的环境中，低静态遗憾并不意味着良好的性能。为了解决变化环境下的公平感知在线学习问题，本文首先在强适应的损失后悔中加入长期公平约束，构建了一种新的遗憾度量FairSAR。此外，为了在每一轮中确定一个好的模型参数，我们提出了一种新的自适应公平感知在线元学习算法FairSAOML，该算法在偏差控制和模型精度方面都能够适应变化的环境。该问题以双水平凸凹优化的形式表达，分别与模型的精度和公平性相关的原始参数和耦合参数。理论分析给出了损失遗憾和违反累积公平约束的次线性上界。我们在不同的真实数据集上的实验评估表明，本文所提出的FairSAOML明显优于其他相关在线学习方法。

讲者简介

簡翌：

Eli Chien (簡翌) 目前是ECE,UIUC的Ph.D. candidate。過去曾於Nokia Bell Labs 與 Amazon Search 暑期研究實習，他目前主要的研究方向為從理論的角度出發研究幾何深度學習(geometric deep learning)，包含了圖機器學習與非歐幾里德空間中的機器學習。例如他曾與合作者提出廣義PageRank (GPR)，之後將其結合圖神經網絡提出GPRGNN解決了非同源圖上的學習問題與過平滑問題。同時，他於今年發表的自監督節點特徵抽取方法GIANT-XRT也於Open Graph Benchmark Leaderboard三個節點分類數據集上得到榜一。此外，之前的研究方向也包括圖與超圖上的統計模型分析和主動學習(active learning)、半監督的K-means聚類以及支撐集估計(support estimation)等等統計問題。Eli Chien的研究主要發表於機器學習、數據挖掘與信息論頂會(NeurIPS, ICLR, AISTATS, AAAI, KDD, ICDM, ISIT, TIT...等)。個人主頁：https://sites.google.com/view/eli-chien/home

分享内容

HyperAid: 利用雙曲空間加強樹學習與層次聚類

报告简介

將任意距離(metric)以樹上之最短距離(i.e. tree-metric)近似在理論計算機與機器學習受到許多關注。雖然現有許多方法能將最優的樹從給定的樹距離中還原，但若輸入距離並非樹距離的話，如何找到最優的樹仍有許多未解決的地方。我們提出HyperAid 框架，先利用學習雙曲空間中的嵌入使得輸入點之間的距離更加"像"樹距離。這裡我們以Gromov δ hyperbolicity來刻劃任意距離與樹距離的相似程度。之後再利用Neighbor Joining等方法來得到樹本身。同時我們的問題與層次聚類的關聯，並指出使用lp norm當作目標函數相比Dasgupta目標函數的優勢。我們在人工產生與實際數據集上皆取得了更優的性能，例如在五個實際數據集上，我們HyperAid框架能提升Neighbor Joining 的性能達125.94%。

讲者简介

魏天心：

美国伊利诺伊大学香槟分校 (UIUC)一年级博士生。主要研究方向为可信机器学习、图数据挖掘及其在真实场景中的应用，在KDD, SIGIR, ICDM等机器学习与数据挖掘领域顶会上发表过多篇论文。个人主页：https://weitianxin.github.io/

分享内容

综合的公平冷启动推荐系统

报告简介

冷启动问题是推荐系统中一个常见的挑战，因为对于系统中的新用户来说，他们可观测到的交互是非常有限的。而为了应对这一挑战，最近的许多工作开始将元学习的思想引入到推荐场景中，他们旨在通过对不同用户的偏好进行学习来获得泛化性强的先验知识，以便模型可以通过少量的训练数据快速适应系统中的新用户。然而，推荐系统很容易被偏见和不公平左右，尽管元学习在冷启动推荐性能方面取得了成功，但公平性问题却在很大程度上被忽视了。在本文中，我们提出了一个名为 CLOVER 的综合性公平元学习框架，以确保冷启动推荐模型的公平性。我们系统地研究了推荐系统中的三种公平性——个体公平、反事实公平和群体公平，并提出通过多任务对抗学习的方法来提高这三种公平性。在不同真实数据集上的实验评估表明，本文所提出的CLOVER方案明显优于其他相关方法，在不降低冷启动推荐性能的情况下成功提高了模型的综合公平性。

7月6日 14:00-17:00

讲者简介

张载熙：

中国科学技术大学计算机学院一年级博士生，师从刘淇教授。主要研究方向包括图表示学习，机器学习安全与隐私，分子属性预测与生成等。以第一作者在NeurIPS，AAAI，IJCAI, KDD等学术会议发表多篇论文。

分享内容

FLDetector: 通过检测恶意用户防御联邦学习中的模型污染攻击

报告简介

联邦学习容易受到模型污染攻击：恶意用户可以通过改变上传给中心服务器的模型梯度的方式破坏模型的训练。现有的防御主要依赖于拜占庭鲁棒的方法，可以在少量恶意用户的情况下训练一个好的模型。然而在有较多恶意用户的情况下训练一个好的模型仍然比较困难。我们的FLDetecor可以通过检测并剔除恶意节点的方式解决上述问题。FLDetector主要基于如下观察：在模型污染攻击中，恶意用户上传的模型梯度在多轮迭代中是不一致的。FLDetector通过检测上述的一致性来确定恶意用户并及时剔除，剩下的用户可以通过联邦学习学习到一个好的模型。我们在多个benchmark数据集和模型污染攻击上验证了FLDetector的有效性。

讲者简介

崔森：

清华大学信息学院博士三年级，师从清华大学张长水教授。主要研究方向为可信赖机器学习，包括算法公平性，鲁棒性，可解释性，和隐私保护等。以第一作者身份在SIGKDD，NeurIPS等机器学习会议上发表多篇论文，担任ICML，NeurIPS等机器学习会议审稿人，个人主页https://cuis15.github.io/。

分享内容

联邦学习中的合作均衡

报告简介

联邦学习（federated learning）是指在保护数据隐私的前提下实现分布式多数据源模型训练的学习范式。由于各个数据源的统计异质性在现实场景下广泛存在，同时统计异质性也给联邦学习下合作式的模型学习带来了负面影响，甚至会损害模型性能。这也带来了一个基本问题：一个机构（client）加入合作网络能否获得增益，即参与合作是否意味着自身模型性能的提升。事实上，一个机构并非总是与所有机构合作才能带来自身性能的最大化。我们建立了联邦学习下的合作均衡理论，其中各个机构只与对其有利的机构合作，最大程度上避免负迁移的影响，从而实现自身模型性能的最大化。具体来说，我们提出以下两个公理刻画合作均衡：1. 自私原则；没有利益，就没有合作；2. 理性原则；各个机构致力于最大化自身模型性能。我们提出了增益图（benefit graph）的概念，描述了每个机构的最优合作者，并提出了一种基于帕累托优化的方法确定最优合作者。我们在理论上证明了合作均衡的存在性，并提出了一种基于图论的方法，实现O(V+E)时间复杂度的合作均衡。

讲者简介

邵泽志：

中国科学院计算技术研究所博士三年级，主要研究方向为多变量时间序列预测、时空图神经网络、异质图神经网络等。以第一作者身份在SIGKDD、VLDB等数据挖掘会议发表论文

分享内容

STEP：用于多元时间序列的预训练增强的时空图神经网络

报告简介

多元时间序列（Multivarite Time Series，MTS）是一种典型的时空数据，包含多条相互关联的时间序列，MTS的学习和预测在交通、环境、电力、国防等应用都有至关重要的作用。最近，时空图神经网络 (Spatial-Temporal Graph Neural Networks，STGNNs) 已成为越来越流行的 MTS 预测方法。STGNNs 通过图神经网络和序列模型对 MTS 的时空模式进行联合建模，显著地提高了预测精度。但受限于模型复杂度，大多数 STGNN 只考虑短期的历史 MTS 数据，例如过去一小时的数据。然而，时间序列的模式和它们之间的依赖关系（即时间和空间模式）需要根据长期的历史 MTS 数据进行分析。为了解决这个问题，我们提出了一个称为STEP的新颖的框架，其中STGNNs通过可扩展的时间序列预训练模型（称为TSFormer）得到增强。具体来说，我们设计了一个预训练模型TSFormer，以有效地从非常长期的历史时间序列（例如，过去两周的 MTS）中学习时间模式，并生成段级的表示。这些表示为 STGNN 的短期时间序列输入提供了上下文信息，并促进了时间序列之间的依赖关系建模。对三个开源的现实世界数据集的实验表明，我们的框架能够显着增强下游 STGNNs，并且我们的预训练模型恰当地捕获了时间模式。

讲者简介

林廷恩：

阿里巴巴达摩院算法工程师，硕士毕业于清华大学计算机系。主要研究方向为自然语言理解，口语对话系统，多模态情感等。以第一作者在KDD、ACL、AAAI等自然语言处理与数据挖掘领域顶会上发表过多篇论文。个人主页：https://scholar.google.com/citations?user=XNdFVMAAAAAJ&hl=en

分享内容

Duplex Conversation: 语音语义一体化的全双工对话探索

报告简介

我们通过融合语音和文本，提出了语音语义一体化的全双工对话系统 Duplex Conversation，来实现更为高效、精准的对话交互。首先，我们通过三个子任务来建模类人交互行为，包括用户状态检测、反馈语选择和打断检测。其次，我们提出多模态数据增强和半监督学习方法，通过引入海量无标注数据来提高模型泛化能力。实验表示，所提出的方法在各个子任务中和baseline相比都取得显著提升。最后，我们将所提出的音义一体能力大规模落地到阿里云智能客服中，线上 A/B 实验表示证实，所提出的系统可以将机器响应延迟显着降低 50%，为打造下一代的语音交互 (Voice User Interface, VUI) 踏出第一步。

讲者简介

张逸飞：

香港中文大学(CUHK)二年级博士生，师从IEEE Fellow Irwin King 教授，曾为阿里巴巴高级算法工程师，主要研究方向为图数据挖掘及其在真实场景中的应用，在KDD, WWW, AAAI, CIKM, NAACL等机器学习与数据挖掘领域顶会上发表过多篇论文。个人主页：https://yifeiacc.github.io/

分享内容

COSTA: 一种针对图对比学习的协方差保持特征增强方法

报告简介

在对比学习(Contrastive Leaning，CL)中，模型的性能会往往会被数据增强中的偏差 (Bias) 所影响。在这篇论文中，我们首次指出并定义了数据增强中的偏差问题。基于此，我们观察到了在图对比学习(Graph CL, GCL)中，图增强（Graph Augmentation, GA）会引入大量的偏差而影响GCL模型的最终性能。我们巧妙的提出一种基于特征增强的方法缓解了DA中的偏差问题提升了了下有任务的性能。

讲者简介

李宽：

中科院计算所（ICT）二年级硕士生。主要研究方向为图表示学习，工作主要围绕图神经网络的鲁棒性，动态图建模和半监督节点分类的类别不平衡问题展开。已在KDD，WWW等数据挖掘顶尖会议上发表论文。主页链接：https://likuanppd.github.io/

分享内容

STABLE-一种无监督高鲁棒性图结构学习框架

报告简介

图神经网络在诸多基于图数据的下游任务中表现出色，但近年来研究发现图神经网络面对恶意的结构扰动是非常脆弱的。一种直观的增强图对抗鲁棒性的方法是结构学习，通过优化被篡改的图结构来缓解攻击带来的负面影响。已有方法大多基于原始特征或者监督信号来进行结构学习。但这两种方法都存在一定的问题，前者缺乏了结构信息，而后者因为分类器受到攻击，表征质量也随之下降。基于此，我们提出了一个基于对比学习的无监督框架来获取面向对抗鲁棒性的高质量表征，以此来进行结构优化。另一方面，我们还发现GCN的重参数化trick会使得模型更脆弱，基于此我们简单的修改了GCN，获得了更鲁棒的下游分类器。

讲者简介

陈炎凯：

香港中文大学(CUHK)三年级博士生。主要研究方向围绕搜索与推荐应用与优化，包括图数据挖掘推荐系统、神经网络量化技术、结合自然语言理解的神经排序模型等。在KDD, ICDE, WSDM, IJCAI, TKDE等数据挖掘领域顶会上发表过多篇论文。个人主页: https://yankai-chen.github.io/.

分享内容

BiGeaR: 一种面向在线Top-K推荐的图表征二值化模型

报告简介

学习向量化表征是用于用户-商品匹配的各种推荐系统模型的核心。为了执行快的在线推理，表征二值化(Representation Binarization)，旨在通过利用有限二值化数字序列嵌入潜在对象特征，最近显示了优化内存和计算开销的潜力。然而，现有工作仅关注数值层面的转化，而忽略了伴随的信息丢失问题，从而导致模型的性能明显下降。为了处理这类问题，我们提出了一种新颖有效的图表征二值化框架。我们在二值化表示学习的前期、中期和后期引入了多方面的量化强化技术，这很大程度上保留了针对二值化表征的信息量。除了节省内存占用外，它还通过按位运算进一步开发了可靠的在线推理加速，为实际部署提供了替代的灵活性。我们在五个真实数据集上的经验结果表明，BiGeaR 比最先进的基于二值化表征学习的推荐系统模型实现了约 22%~40% 的性能提升。同时与取得SOTA效果的全精度模型相比，BiGeaR在时间和空间开销优化超过8倍的基础上，可以达到对应约95%~102%的预测能力。

讲者简介

惠彬原：

阿里巴巴达摩院算法工程师，研究方向为语义解析、对话系统、预训练模型等，曾在 ACL / AAAI / KDD 等会议及期刊上发表论文。

分享内容

基于知识探测与知识利用的语义解析方法

报告简介

我们提出了一个新的预训练模型利用框架，通过探测过程，从大规模预训练语言模型（PLM）中提取关系结构，并使用诱导关系来扩充当前基于图的解析器，以实现更好的模式链接。与常用的基于规则的模式链接方法相比，我们发现，即使提及和实体的表面形式不同，探测关系也可以有力地捕捉语义对应。此外，我们的知识探测过程完全没有监督，不需要额外的参数。大量实验表明，我们的框架在三个基准上达到了最新的 SOTA 性能。

直播结束后大家可以在群内进行提问，请添加“AI TIME小助手（微信号：AITIME_HY）”，回复“KDD”，将拉您进“AI TIME KDD交流群”！