北京大学数据与智能实验室(PKU-DAIR)2023年度总结

3274

2024-10-18 20:54:05（已编辑）

PKUDAIR 机构号

用微信扫描二维码

北京大学数据与智能实验室(PKU-DAIR)2023年度总结

再见2023！ 你好2024！

2023年，我们共同经历了无数挑战和机遇，也收获了无数的成功和成长，实验室在科研探索、师生成长、项目合作等方面都取得了长足的进步。在这里，我们对过去一年实验室所取得的成果进行总结和回顾，也为即将到来的龙年拉开帷幕。感谢每一位关注我们的朋友！

2023年1月回顾

【荣誉奖项】

2023年1月，我组2017级博士苗旭鹏获得2022年度ACM中国“优秀博士论文奖”。

ACM中国“优秀博士论文奖”由ACM中国理事会从2014年设立，为表彰中国计算机领域的青年学者和博士生所取得的优秀研究成果和高水平博士论文，并进一步推动青年学者在科研领域的发展和进步。2022年全国共有2位博士荣获该奖项。

descript

苗旭鹏获得2022年度ACM中国“优秀博士论文奖”

descript

2022年度ACM中国“优秀博士论文奖获得者”展览

2023年2月回顾

【论文录用】

2023年2月，我组硕士生王子威的一篇论文被ICDE 2023录用。

【论文简介】

Ziwei Wang, Zheng Zhong, Jiarui Guo, Yuhan Wu, Haoyu Li, Tong Yang, Yaofeng Tu, Huanchen Zhang, Bin Cui. REncoder: A Space-Time Efficient Range Filter with Local Encoder，ICDE 2023.

范围过滤器是一种用于回答范围成员查询的数据结构。范围查询在现代应用程序中很常见，范围过滤器可以通过滤除空范围查询来提高范围查询的性能，因此受到越来越多的关注。目前最先进的范围过滤器，如SuRF和Rosetta，分别存在高误报率和低吞吐量的缺陷。因此，论文提出了一种新的范围滤波器（REncoder）。它将所有键的前缀组织成一棵线段树，并将线段树局部地编码至布隆过滤器中以加速查询。REncoder可自适应地选择要存储的线段树的层数来支持不同的工作负载。论文从理论上证明了REncoder的误差是有界的，并推导出了其在有界误差下的渐近空间复杂度。论文在合成数据集和真实数据集上进行了实验，结果表明，REncoder优于全部现有范围滤波器。

2023年4月回顾

【学术活动】

2023年4月3日至7日，国际数据库与数据管理顶级会议ICDE 2023召开，我组博士生谢旭、硕士生王子威在大会上为录用论文进行了学术报告。

【论文录用】

2023年4月，我组科研实习生姜友和、博士生符芳诚等同学合作的一篇论文被IJCAI 2023录用。

Youhe Jiang, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Bin Cui. OSDP: Optimal Sharded Data Parallel for Distributed Deep Learning，IJCAI 2023.

大规模深度学习模型在多个人物场景中展现出了显著的提升。数据并行和模型并行分别是基于模型的复制和划分来支持超大规模模型分布式训练的常见范式。本文提出了最优分块数据并行范式（OSDP），一种结合了数据并行和模型并行优点的自动并行训练框架。给定模型描述和设备信息，OSDP在显存占用量和计算利用率之间进行权衡，从而自动生成分布式计算图，并最大化整体训练吞吐。此外，OSDP引入了算子切分技术，以进一步降低训练过程中的峰值显存占用，从而提升可支撑的模型规模。在多类大规模模型上的实验表明，OSDP相比现有方法具有显著的提升。

2023年5月回顾

【论文录用】

2023年5月，实验室共有5篇论文被国际顶级学术会议或期刊录用：

我组博士生沈彧、硕士生陆宇鹏、姜淮钧等同学合作的一篇论文被KDD 2023录用；
我组博士生聂小楠、符芳诚等同学合作的一篇论文被VLDB 2023录用；
我组2017级博士黎洋、硕士生姜淮钧、博士生沈彧等同学合作的一篇论文被VLDB 2023录用；
我组2017级博士苗旭鹏、硕士生石屹宁等同学合作的一篇论文被VLDB 2023录用；
我组博士生杨灵、2017级博士张文涛等同学合作的一篇论文被TKDE 2023录用。

【论文简介】

Yu Shen, Xinyuyang Ren, Yupeng Lu, Huaijun Jiang, Huanyong Xu, Di Peng, Yang Li, Wentao Zhang, Bin Cui. Rover: An online Spark SQL tuning service via generalized transfer learning，KDD 2023. 该论文提出Rover，一个对实际产业负载进行高效且安全的在线Spark SQL调参服务。Rover将专家知识和历史任务与BO算法结合，提出了专家辅助的贝叶斯优化和受控制的历史迁移两大算法模块，并已在字节跳动的实际生产中取得了显著的经济收益。
Xiaonan Nie, Yi Liu, Fangcheng Fu, Jinbao Xue, Dian Jiao, Xupeng Miao, Yangyu Tao, and Bin Cui. Angel-PTM: A Scalable and Economical Large-scale Pre-training System in Tencent，VLDB 2023 (Industry). 近年来，大规模预训练模型取得了前所未有的成就。腾讯公司的多款产品和服务，如微信、QQ和腾讯广告，已经广泛应用这些先进的预训练模型以提升用户体验和服务质量。本文提出了Angel-PTM，一个专为大模型预训练而精心构建的工业级深度学习系统，可以利用GPU服务器中的多层存储高效地训练超大规模的模型。Angel-PTM 的关键设计在于其基于Page抽象的细粒度内存管理和一个统一视角的训练调度器，该调度器高效地协调了计算、CPU与GPU之间的数据传输以及GPU间的通信。此外，Angel-PTM通过使用SSD存储来支持超大规模模型的训练，并提出了无锁更新机制以缓解SSD I/O带宽瓶颈的问题。实验结果表明，相比现有系统， Angel-PTM在相同GPU资源下支持更大的模型训练（提升114.8%），且训练吞吐提升了88.9%。此外，本文还对AngelPTM在千卡A100 GPUs训练GPT3-175B和T5-MoE-1.2T模型的性能进行了测试，从而进一步验证了其出色的的可扩展性。
Yang Li, Huaijun Jiang, Yu Shen, Yide Fang, Xiaofeng Yang, Danqing Huang, Xinyi Zhang, Wentao Zhang, Ce Zhang, Peng Chen, and Bin Cui. Towards General and Efficient Online Tuning for Spark，VLDB 2023 (Industry). 该论文提出Online-Tune，一个针对工业场景Spark任务进行通用高效在线调参的服务。Online-Tune引入通用调参目标，提出安全采集函数确保安全性，提出自适应子空间生成、近似梯度下降、迁移学习三种算法加速调优，并已在腾讯的实际业务中取得了显著的落地效果。
Xupeng Miao, Yining Shi, Zhi Yang, Bin Cui, and Zhihao Jia. SDPipe: A Semi-Decentralized Framework for Heterogeneity-aware Pipeline-parallel Training，VLDB 2023. 随着模型规模和数据体量的增长，流水并行作为一种常见的模型并行方法被广泛应用于各种分布式训练场景。然而，工业界的大多数大模型训练案例都是基于理想的同构集群。实际上，真实的GPU集群环境往往会伴随着动态的异构特性，造成大量的模型同步开销。现有方案中，无论是中心化的参数服务器，还是去中心化的集合通信原语，都面临着一定的性能瓶颈。本文提出了一种半去中心化的异构感知流水并行训练框架SDPipe。该工作将需要密集通信的模型同步操作以去中心化的方式完成，实现高效同步，并且以中心化的方调度节点通信组，灵活动态调整。SDPipe通过细粒度的跨流水线局部同步操作，替代了传统去中心化方案中的全局规约操作，并且通过同步图的全局约束，能够在保证模型收敛的同时提高分布式训练的通信效率。实验结果表明，SDPipe在真实异构集群环境下，可以显著超越现有方法的性能，并且具备较好的自适应能力和可扩展性。
Ling Yang, Jiayi Zheng, Heyuan Wang, Zhongyi Liu, Zhilin Huang, Shenda Hong, Wentao Zhang, Bin Cui. Individual and Structural Graph Information Bottlenecks for Out-of-Distribution Generalization, TKDE 2023. 分布外图神经网络的泛化对于许多现实世界的应用至关重要。现有方法忽视了丢弃输入中与标签无关的虚假或嘈杂特征。此外，它们主要进行实例级别的类不变图学习，并未利用图实例之间的结构化类关系。在这项工作中，我们致力于在一个统一的框架内解决这些问题，称为个体和结构图信息瓶颈（IS-GIB）。为了消除由分布偏移引起的类虚假特征，我们提出了个体图信息瓶颈（I-GIB），通过最小化输入图与其嵌入之间的互信息来丢弃无关信息。为了利用结构内部和跨域相关性，我们提出了结构图信息瓶颈（S-GIB）。具体来说，对于具有多个域的一批图，S-GIB 首先计算成对的输入-输入、嵌入-嵌入和标签-标签相关性。然后，它最小化输入图和嵌入对之间的互信息，同时最大化嵌入和标签对之间的互信息。S-GIB 的关键见解是通过在多个分布偏移下保持类关系来同时丢弃虚假特征并从高阶视角学习不变特征。值得注意的是，我们将提出的 I-GIB 和 S-GIB 统一起来形成我们的互补框架 IS-GIB。对节点和图级任务进行的大量实验一致表明了 IS-GIB 的卓越泛化能力。

2023年6月回顾

【学术活动】

2023年6月18日至23日，国际数据库与数据管理顶级会议SIGMOD 2023召开，我组博士生聂小楠、黄世悦、张心怡在大会上为录用论文进行了学术报告。

2023年8月回顾

【学术活动】

2023年8月29日至9月1日，国际数据库与数据管理顶级会议VLDB 2023召开，我组博士生聂小楠、2017级博士苗旭鹏在大会上为录用论文进行了学术报告。

2023年9月回顾

【荣誉奖项】

2023年9月，我组2018级博士符芳诚入选2023年度博士后创新人才支持计划。

【论文录用】

2023年9月，实验室共有3篇论文被国际顶级学术会议或期刊录用：

我组博士生张海林同学的一篇论文被NeurIPS 2023录用；
我组博士生杨灵同学的一篇论文被NeurIPS 2023录用；
我组博士生杨灵同学的一篇论文被ACM Computing Surveys录用。

【论文简介】

Hailin Zhang, Yujing Wang, Qi Chen, Ruiheng Chang, Ting Zhang, Ziming Miao, Yingyan Hou, Yang Ding, Xupeng Miao, Haonan Wang, Bochen Pang, Yuefeng Zhan, Hao Sun, Weiwei Deng, Qi Zhang, Fan Yang, Xing Xie, Mao Yang, and Bin Cui. Model-enhanced Vector Index，NeurIPS 2023. 现有的文档检索方法中，基于嵌入的方法将查询和文档编码为嵌入向量，基于生成的方法用序列到序列的模型直接输入查询、输出文档标识符；后者在小语料库上表现优异，但由于高延迟很难扩展到大语料库。我们提出了模型增强的向量索引，构建残差量化（RQ）码本对文档进行聚类，保留了文档簇的层次结构；输入查询，自回归模型可以根据RQ码本直接生成虚拟集群标识符，然后用ANN在虚拟集群中搜索相关文档，增强召回性能的同时保证了低延迟。
Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui. Improving Diffusion-Based Image Synthesis with Context Prediction，NeurIPS 2023. 扩散模型是一种新型的生成模型，极大地推动了图像生成的质量和多样性。现有的扩散模型主要尝试从一个受损的图像中以像素或特征为约束沿空间轴进行重构输入图像。然而，这种基于点的重构可能无法使每个预测的像素/特征完全保留其邻域上下文，从而损害了基于扩散的图像合成。作为自动监督信号的强大来源，上下文已经被广泛研究用于学习表示。受此启发，我们首次提出了 ConPreDiff 来改善基于扩散的图像合成，通过上下文预测。我们在训练阶段在扩散去噪块的末尾使用上下文解码器明确地加强了每个点来预测其邻域上下文（即，多步特征/令牌/像素），并在推断时移除解码器。通过这种方式，每个点可以通过保留与邻域上下文的语义连接来更好地重构自身。ConPreDiff 这种新的范例可以推广到任意的离散和连续的扩散骨干，而不需要在采样过程中引入额外的参数。在无条件图像生成、文本到图像生成和图像修复任务上进行了大量实验。我们的 ConPreDiff 始终优于先前的方法，并在 MS-COCO 数据集上实现了新的 SOTA 文本到图像生成结果，零样本 FID 得分为 6.21。
Ling Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Bin Cui, Ming-Hsuan Yang. Diffusion Models: A Comprehensive Survey of Methods and Applications，ACM Computing Surveys,2023. 扩散模型已成为一种强大的新型深度生成模型家族，在许多应用中取得了创纪录的性能，包括图像合成、视频生成和分子设计。在本综述中，我们概述了关于扩散模型的快速扩展的研究内容，将研究分为三个关键领域：高效采样、改进似然估计和处理具有特殊结构的数据。我们还讨论了将扩散模型与其他生成模型结合以获得增强结果的潜力。我们进一步回顾了扩散模型在涵盖从计算机视觉、自然语言处理、时间数据建模到其他科学学科的跨领域应用中的广泛应用。本综述旨在提供对扩散模型状态的有情境、深入的了解，确定关注的关键领域，并指出进一步探索的潜在领域。

2023年10月回顾

【荣誉奖项】

2023年10月，我组2017级博士黎洋获得2023年度ACM中国北京分会“优秀博士论文奖”。

【荣誉奖项&学术活动】

2023年10月7日，在武汉举办的国际数据挖掘与数据管理会议APWeb-WAIM 2023（Asia Pacific Web and Web-Age Information Management Joint International Conference on Web and Big Data，简称APWeb-WAIM）上，北京大学计算机学院崔斌教授课题组的论文“一种基于显式捕获多样图信息的多任务属性图聚类方法（Graph-Enforced Neural Network for Attributed Graph Clustering）”获得大会最佳论文提名奖（Best Paper Runner Up）。

Zeang Sheng, Wentao Zhang, Wen Ouyang, Yangyu Tao, Zhi Yang and Bin Cui. Graph-Enforced Neural Network for Attributed Graph Clustering，APWeb-WAIM 2023.

该论文对现有的基于GAE的属性图聚类方法做了定量实验分析，发现这些方法受三类图信息缺失问题的影响。在此基础上，该论文提出了三类具有创新性的图信息维持任务，包括图结构、图中节点特征以及全局聚类结构，并综合到一个多任务学习框架中，最终取得了显著的性能提升。该论文有助于属性图社区推进对于聚类算法的研究，为新算法的提出提供了新的思考方向。

【论文录用】

2023年10月，实验室共有2篇论文被国际顶级学术会议或期刊录用：

我组博士生张心怡的一篇论文被 VLDB 2024录用；
我组2017级博士张文涛的一篇论文被ICDE 2024录用。

【论文简介】

Xinyi Zhang, Hong Wu, Yang Li, Zhengju Tang, Jian Tan, Feifei Li, Bin Cui. An Efficient Transfer Learning Based Configuration Adviser for Database Tuning，VLDB 2024. 近年来，自动优化数据库性能的多个系统涌现。然而，它们通常需要大量的工作负载运行，耗时且资源密集。虽然一些先进的搜索优化器尝试解决问题，但经验研究表明，没有一个优化器能在不同任务中占主导地位。选择不合适的优化器可能显著增加成本。当前实践通常采用单一优化器或简单启发式，未能智能选择最适合的优化器。构建紧凑的搜索空间可以显著提高效率，但目前的做法忽视了为每个参数设置值范围，依赖大量工作负载运行选择关键参数，导致不必要的探索。为了高效数据库调优，本文提出OpAdviser，利用历史调优任务指导搜索空间构建和优化器选择。OpAdviser加速调优过程，减少工作负载运行次数。对于给定任务，OpAdviser从相关任务学到搜索空间的结构，包括关键参数及其有效区域。根据实时任务相似性构建目标搜索空间，实现自适应调整。OpAdviser还采用排名模型预测最佳优化器，通过广泛评估，在多个工作负载上相比最先进的系统，实现了吞吐量提升和显著减少工作负载运行次数，平均加速比为3.48×。
Wentao Zhang, Yexin Wang, Zhenbang You, Yang Li, Gang Cao, Zhi Yang, Bin Cui. NC-ALG: Graph-based Active Learning under Noisy Crowd，ICDE 2024. 图模型的性能严重依赖于大量的已标注节点，而现有的主动学习标注方法往往假设已标注的标签总是正确的，这与实际众包环境中容易出错的标注过程相矛盾。此外，由于这个不切实际的假设，现有的工作只关注于优化标注中的节点选择，而忽视了优化标注过程。因此，本文提出了 NC-ALG，它同时考虑优化节点选择和标注过程。对于节点选择，NC-ALG 引入了一种新的度量方法来模拟影响的可靠性，并通过有效的影响最大化目标来选择节点。对于节点标注，NC-ALG 通过考虑模型预测的标签和镜像节点的标签的一致性，显著降低了标注成本。

【荣誉奖项】

2023年10月, 我组博士研究生张心怡通过层层遴选，以卓越的学术成果、优异的个人实践，荣获2023年度字节跳动奖学金。

字节跳动奖学金计划是字节跳动公司发起的一项年度人才培养项目。该计划面向中国大陆地区高等院校的在校生，每年支持10余名学生，为每位获奖学生提供10万元人民币奖学金，旨在帮助具有创新精神的科技人才用专业知识解决实际难题，用技术回馈社会，引领未来。2023年共有13人荣获该奖学金。

descript

2023年度字节跳动奖学金颁奖仪式

2023年11月回顾

【荣誉奖项】

2023年11月，国际电气和电子工程师协会（IEEE）公布了 2024 年度新晋 Fellow 名单，由于对大规模数据管理、处理和分析的贡献，崔斌教授入选为IEEE Fellow。

IEEE，全称Institute of Electrical and Electronics Engineers，是国际性的电子技术与信息科学工程师的协会，在160多个国家中，拥有42万多会员。IEEE Fellow，为协会最高等级会员，是该组织授予的最高荣誉，当选人需要对工程科学技术的进步或应用做出重大贡献，为社会带来重大价值。每年由同行专家在有突出贡献的会员中评选，当选人数不超过IEEE会员总人数的千分之一。

【新闻动态】

2023年11月，我组2017级博士张文涛入职北京大学国际机器学习研究中心，担任助理教授、研究员和博士生导师。

【论文录用】

2023年11月，实验室共有4篇论文被国际顶级学术会议或期刊录用：

我组博士生张海林、硕士生赵鹏昊等同学合作的一篇论文被VLDB 2024录用；
我组博士生张海林、刘子瑞等同学合作的一篇论文被SIGMOD 2024录用；
我组2017级博士苗旭鹏、博士生石淳安等同学合作的一篇论文被ASPLOS 2024录用;
我组本科生喻梓浩、李昊洋等同学合作的一篇论文被AAAI 2024录用。

【论文简介】

Hailin Zhang, Penghao Zhao, Xupeng Miao, Yingxia Shao, Zirui Liu, Tong Yang, and Bin Cui. Experimental Analysis of Large-scale Learnable Vector Storage Compression，VLDB 2024. 可学习嵌入向量广泛应用于各种数据库相关领域，特别是推荐任务和检索任务。然而，相关任务中嵌入表的内存占用过大，对模型的训练和部署提出了巨大的挑战。最近很多研究提出了各种压缩嵌入的方法，但目前各类方法在各个评价指标上的相对效果仍不明确。在这篇论文中，我们对嵌入压缩进行了全面的比较分析和实验评估，展示它们在不同内存预算下的效果，并分析了各个方法的实用场景。
Hailin Zhang, Zirui Liu, Boxuan Chen, Yikai Zhao, Tong Zhao, Tong Yang, and Bin Cui. CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models，SIGMOD 2024. 深度学习推荐模型（DLRM）中嵌入表的内存需求不断增长，给模型训练和部署带来了巨大的挑战。本文提出了CAFE，一种紧凑、自适应和低延迟的嵌入压缩框架，动态地为热门的特征分配唯一的嵌入，让不热门的特征共享部分嵌入。在CAFE中，我们提出了一种快速且轻量级的草图数据结构HotSketch，用于捕获特征重要性并实时识别热特征。我们进一步提出了多级哈希嵌入框架来优化非热门特征的嵌入表。
Xupeng Miao, Chunan Shi, Jiangfei Duan, Xiaoli Xi, Dahua Lin, Bin Cui, Zhihao Jia. SpotServe: Serving Generative Large Language Models on Preemptible Instances，ASPLOS 2024. SpotServe是首个针对Preemptible Instance（可抢占实例）场景下的分布式LLM推理系统，面向动态集群和变化负载，自动调整最优并行方案，快速完成细粒度推理上下文状态恢复，并在优化过程中权衡了推理延迟、吞吐和成本三方面的目标。我们在AWS集群上的实验表明，SpotServe相比于传统方案可以大幅降低由于实例抢占导致的LLM推理延迟开销，借助于Spot Instance可以比On-demand Instance节省54%的金钱成本。
Zihao Yu, Haoyang Li, Fangcheng Fu, Xupeng Miao, Bin Cui. Accelerating Text-to-image Editing via Cache-enabled Sparse Diffusion Inference，AAAI 2024. 本文针对文生图场景下的修改需求，提出了一种带缓存机制的高效diffusion推理方法，不仅可以自动识别出用户所期望的修改区域，还可以通过稀疏计算技术加速图片生成，相比现有推理方法可以达到4.4倍的效率提升。

2023年12月回顾

【荣誉奖项】

2023年12月，我组2017级博士张文涛获得2023年北京市优秀博士学位论文。

【学术活动】

2023年12月10日至12月16日，国际机器学习与人工智能顶级会议NeurIPS 2023召开，我组博士生张海林、杨灵在大会上为录用论文进行了讲解。

【学术活动】

2023年12月3日至6日，2023国际测试委员会智能计算与芯片联邦大会召开，我组开源项目河图（Hetu）被评为BenchCoucil年度世界开源杰出成果之一，我组2018级博士符芳诚受邀在大会上进行题为“河图：高效可扩展的分布式深度学习系统/Hetu: An efficient and scalable distributed deep learning system”的演讲报告。

descript

河图（Hetu）被评为BenchCoucil年度世界Top100开源成果

2024年1月回顾

【论文录用】

2024年1月，我组博士生杨灵共有3篇论文被ICLR 2024录用。

【论文简介】

Ling Yang, Zhilong Zhang, Zhaochen Yu, Jingwei Liu, Minkai Xu, Stefano Ermon, Bin Cui. Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing, ICLR 2024. 条件扩散模型在高保真度的文本引导视觉生成和编辑方面表现出优越的性能。然而，当前的文本引导视觉扩散模型主要专注于将文本-视觉关系独占地纳入到反向过程中，往往忽视了它们在正向过程中的相关性。正向和反向过程之间的这种不一致可能限制了在视觉合成结果中准确传达文本语义的能力。为了解决这个问题，我们提出了一种新颖且通用的上下文化扩散模型（ContextDiff），通过将跨模态上下文纳入到文本条件和视觉样本之间的交互和对齐中，将其融入到正向和反向过程中。我们将这种上下文传播到两个过程中的所有时间步骤，以调整它们的轨迹，从而促进跨模态条件建模。我们通过理论推导将我们的上下文化扩散推广到了DDPMs和DDIMs，并通过两个具有挑战性的任务进行了模型评估：文本到图像生成和文本到视频编辑。在每个任务中，我们的ContextDiff均取得了新的最先进性能，显著提升了文本条件和生成样本之间的语义对齐，这一点在定量和定性实验中得到了证实。
Ling Yang, Ye Tian, Minkai Xu, Zhongyi Liu, Shenda Hong, Wei Qu, Wentao Zhang, Bin Cui, Muhan Zhang, Jure Leskovec. VQGraph: Rethinking Graph Representation Space for Bridging GNNs and MLPs，ICLR 2024. GNN-to-MLP蒸馏旨在利用知识蒸馏（KD）来通过模仿教师GNN的输出表示，在图数据上学习计算高效的多层感知器（学生MLP）。现有方法主要使MLP模仿GNN对少数类标签的预测。然而，类空间可能不足以覆盖众多不同的局部图结构，从而限制了从GNN到MLP的知识转移的性能。为了解决这个问题，我们提出通过直接为GNN-to-MLP蒸馏中的节点的多样化局部结构进行标记，学习一个新的强大的图表示空间。具体而言，我们提出了一种VQ-VAE的变体，用于在图数据上学习一个结构感知的分词器，它可以将每个节点的局部子结构编码为离散代码。离散代码构成一个代码簿，作为一个新的图表示空间，能够用相应的代码索引识别节点的不同局部图结构。然后，基于学习到的代码簿，我们提出了一个新的蒸馏目标，即软代码分配，直接将每个节点的结构知识从GNN转移到MLP。结果框架VQGraph在七个图数据集上的GNN-to-MLP蒸馏中，无论是在传导式还是归纳式设置中，都实现了新的最先进性能。我们展示了VQGraph的更好性能比GNN快828倍推断速度，并且分别在准确率上比GNN和独立MLP平均提高了3.90％和28.05％。
Zhilin Huang*, Ling Yang*, Xiangxin Zhou, Zhilong Zhang, Wentao Zhang, Xiawu Zheng, Jie Chen, Yu Wang, Bin Cui, Wenming Yang. Protein-Ligand Interaction Prior for Binding-aware 3D Molecule Diffusion Models，ICLR 2024. 通过扩散模型生成与特定蛋白靶点结合的3D配体分子，在基于结构的药物设计方面表现出了巨大的潜力。其关键思想是通过固定的正向过程将分子分解为噪声，并学习其逆向过程以以去噪的方式从噪声中生成分子。然而，现有的扩散模型主要专注于仅在逆向过程中纳入蛋白质-配体相互作用信息，并忽视了正向过程中的相互作用。正向和逆向过程之间的不一致可能会损害生成的分子对目标蛋白的结合亲和力。在本文中，我们提出了一种新颖的基于交互先验的扩散模型（IPDiff），通过将几何蛋白质-配体相互作用引入到扩散和采样过程中，实现了针对特定蛋白的3D分子生成。具体而言，我们首先通过利用结合亲和信号进行监督，对蛋白质-配体相互作用先验网络（IPNet）进行预训练。随后，我们利用预训练的先验网络来（1）将目标蛋白与分子配体之间的相互作用整合到正向过程中，以调整分子扩散轨迹（先验位移），以及（2）增强基于结合的分子采样过程（先验条件）。对CrossDocked2020数据集的实证研究表明，IPDiff能够生成具有更真实的3D结构和最先进的对蛋白靶点的结合亲和力的分子，平均Vina评分高达-6.42，同时保持适当的分子特性。

2024年2月回顾

【荣誉奖项】

2024年2月，我组2017级博士张文涛获得2023 年度吴文俊人工智能科学技术奖“优秀博士学位论文获奖论文 ”。

【论文录用】

2024年2月，我组2017级博士张文涛的一篇论文被SIGMOD 2024录用。

【论文简介】

Wentao Zhang, Guochen Yan, Yu Shen, Yang Ling, Yaoyu Tao, Bin Cui, Jian Tang. NPA: Improving Large-scale Graph Neural Networks with Non-parametric Attention，SIGMOD 2024 (Industry)

非参数化的图神经网络（GNN）在大规模图数据上取得了广泛的使用。例如，Open Graph Benchmark中大部分排名靠前的方法都是非参数化GNN。尽管非参数GNN具有很高的预测性能和可扩展性，但仍面临两个限制。1）由于过平滑特征的传播，它们会随着传播深度而遭受严重的性能退化。2）忽略了非参数传播过程中的特征影响，导致传播特征次优。本文提出了非参数注意力插件来解决这些限制，取得了ogbn-papers100M的最好性能，在腾讯实际应用中部署实现并取得良好效果。

结语

2023年的征途与荣光已属于过去，2024年的挑战与机遇已经开始。兔去龙来喜气浓，家家户户庆丰功。祝福新老朋友们，龙年行大运，龙飞凤舞生活乐，鱼跃龙门事业兴！新春快乐！

标签： PKU-DAIR 年度总结