北京大学数据与智能实验室(PKU-DAIR)2022年度总结

7953

2023-03-27 16:16:24（已编辑）

PKUDAIR 机构号

用微信扫描二维码

北京大学

数据与智能实验室(PKU-DAIR)

2022年度总结

再见2022 你好2023

2022年，实验室继续在科研探索、师生成长、项目合作等各方面取得长足的进步。在这里，我们对过去一年实验室所取得的成果进行总结和回顾，迎接走出疫情、充满希望的2023年！

2022年01月回顾

【新闻动态】

崔斌教授于2022年01月01日起担任Data Science and Engineering（DSE）期刊主编。

Data Science and Engineering（DSE）是由中国计算机学会（CCF）主办、数据库专业委员会承办、施普林格自然（Springer Nature）出版的Open Access期刊。为了迎合相关领域的快速发展需求，DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点，以大数据作为研究重点，征稿范畴主要包括4方面：（1）数据本身；（2）数据信息提取方法；（3）数据计算理论；（4）用来分析与管理数据的技术和系统。

目前期刊已被EI、ESCI与SCOPUS收录，CiteScore 2021为6.4，在Computational Mechanics领域排名#8/78（位列前10%），在Computer Science Applications领域排名#157/747（位列前21%）。

Data Science and Engineering期刊链接： https://www.springer.com/journal/41019

【论文录用】

2022年01月，实验室共有4篇论文被国际顶级学术会议或期刊录用：

① 我组博士生苗旭鹏、硕士生石屹宁等同学合作的一篇论文被SIGMOD 2022录用；

② 我组博士生黎洋、沈彧等同学合作的一篇论文被VLDB 2022录用；

③ 我组博士生张文涛、硕士生王业鑫等同学合作的一篇论文被ICLR 2022录用；

④ 我组硕士生蒋悦紫晗、程羽等同学合作的一篇论文被ICDE 2022 (Industry Track)录用。

【论文简介】

Xupeng Miao, Yining Shi, Hailin Zhang, Xin Zhang, Xiaonan Nie, Zhi Yang, Bin Cui: HET-GMP: A Graph-based System Approach to Scaling Large Embedding Model Training,SIGMOD 2022. 论文提出了一个面向多GPU的大规模稀疏嵌入模型训练框架HET-GMP，通过图局部性感知的模型并行方法显著降低了通信代价，大幅提高了分布式训练效率。
Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Jixiang Li, Ji Liu, Ce Zhang, Bin Cui: Hyper-Tune: Towards Efficient Hyper-parameter Tuning at Scale,VLDB 2022. 论文提出了一种并行的针对大规模调参场景的优化框架HyperTune，通过引入等级选择等策略，提升了并行场景下的超参数优化效率。
Wentao Zhang, Yexin Wang, Zhenbang You, Meng Cao, Ping Huang, Jiulong Shan, Zhi Yang, Bin Cui: Information Gain Propagation: a New Way to Graph Active Learning with Soft Labels,ICLR 2022. 针对专家知识领域的图主动学习场景，和此前大多数相关工作把专家当作黑盒、专注于样本选择不同，本工作创新性地提出了对专家做松弛化query的尝试，并以此为基础提出了样本选择和打标签的一套全新的完整方法，IGP。实验结果显示IGP在下游任务的预测准确性和打标签的成本两方面都取得了SOTA的表现，为图主动学习这一问题提供了新的研究方向。
Yuezihan Jiang, Yu Cheng, Hanyu Zhao, Wentao Zhang, Xupeng Miao, Yu He, Liang Wang, Zhi Yang, Bin Cui: ZOOMER: Boosting Retrieval on Web-scale Graphs by Regions of Interest,ICDE 2022 (Industry Track). 虽然基于图神经网络的推荐已经被证明其有效性，但是基于图神经网络的推荐面临着图庞大导致推荐效率低、缺乏在用户兴趣明确的情况下对信息的过滤导致信息过载的问题。针对以上两个挑战，该论文提出图网络中的兴趣区域概念。基于这个概念，该论文裁剪与兴趣无关图部分并集中处理兴趣区域部分，以此降低图规模并强化用户兴趣以缓解信息过载。此外，该文章在公开数据集和淘宝的真实工业数据集上都充分验证了其有效性。相较于基线模型，该方法可以在取得可观加速比的同时达到更好性能。

【项目信息】

2022年01月，实验室开展与北京字跳网络技术有限公司的研究合作，研究方向为贝叶斯优化及其应用。

2022年02月回顾

【论文录用】

2022年02月，实验室博士生张文涛、沈彧等同学合作的一篇论文被WWW 2022录用。

【论文简介】

Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Xiaosen Li, Wen Ouyang,Yangyu Tao, Zhi Yang, Bin Cui: PaSca: A Graph Neural Architecture Search System under the Scalable Paradigm,Web Conference 2022. 针对大规模图学习过程中面临的可扩展性低及建模门槛高两个问题，本工作提出了一套拥有自动化建模超大规模图网络能力的高可扩展性图学习系统，PaSca。具体来说，本工作提出了一个新颖的图神经网络建模范式，并基于此设计了一个包含超过15万种网络结构的可扩展图神经网络设计空间。此外，本工作还实现并开源了一套多目标的自动化神经网络搜索系统，来支持更简单和高效的大规模图学习。

2022年03月回顾

【论文录用】

2022年03月，实验室共有4篇论文被国际顶级学术会议或期刊录用：

① 我组博士生张心怡、黎洋等同学合作的一篇论文被SIGMOD 2022录用；

② 我组博士生符芳诚的一篇论文被SIGMOD 2022录用；

③ 我组硕士生吴史文、博士生张文涛等同学合作的一篇论文被ACM Computing Surveys录用；

④ 我组博士生聂小楠、苗旭鹏等同学合作的一篇论文被ICDE 2022录用。

【论文简介】

Xinyi Zhang, Hong Wu, Yang Li, Jian Tan, Feifei Li, and Bin Cui: Towards Dynamic and Safe Configuration Tuning for Cloud Databases,SIGMOD 2022. 现有数据库参数优化系统落地于生产环节仍存在一定困难：它们假定云环境中的工作负载是一成不变的，不考虑数据库的可用性、安全性。为了解决这些问题，我们提出在线的安全调优系统OnlineTune。OnlineTune将环境因素特征化，应用考虑环境因素的贝叶斯优化自适应地优化数据库参数。为了保证调参时的安全，我们提出了子空间自适应的安全探索策略，大大降低了应用不良配置参数的风险。
Fangcheng Fu, Huanran Xue, Yong Cheng, Yangyu Tao, and Bin Cui: BlindFL: Vertical Federated Machine Learning without Peeking into Your Data,SIGMOD 2022. 随着数据隐私安全顾虑的日益增强，如何使用纵向联邦学习技术，安全地联合多方数据进行机器学习建模，逐渐成为了一个热门的话题。然而，现有的纵向联邦学习技术方案，要么只能支持有限的特征数据类型，要么存在严重的数据泄漏隐患。如何打造灵活、通用、安全的纵向联邦学习是一个亟需解决的问题。这篇论文提出了BlindFL，一个新的纵向联邦学习范式。BlindFL可以支持多种特征数据类型，包括稠密或稀疏数据、连续型或离散型数据，并且可以在半诚实安全假设下证明其安全性。团队在多种数据和模型上运行了大量的实验，实验结果表明，BlindFL可有效保护参与方的隐私数据，并具有更高的运行效率。
Shiwen Wu, Fei Sun, Wentao Zhang, Xu Xie, and Bin Cui: Graph Neural Networks in Recommender Systems: A Survey,ACM Computing Surveys. 近几年，图神经网络（GNN）技术在推荐系统中得到了广泛的应用，因为推荐系统中的大部分信息本质上都具有图结构，而 GNN 在图表示学习方面具有优势。该综述旨在梳理、总结并讨论关于基于 GNN 的推荐系统的研究工作，便于对此领域感兴趣的研究者或者工业界人士快速了解这一领域。具体来说，该综述基于推荐过程中使用的信息类型和推荐任务对现有工作进行分类。此外，我们分析了将 GNN 应用于不同类型数据和推荐任务面临的挑战，总结了现有工作如何应对这些挑战，并讨论了现有工作的优点和局限性。此外，我们阐述了9个该领域有待进一步研究的方向。
Xiaonan Nie, Xupeng Miao, Zhi Yang, and Bin Cui: TSplit: Fine-grained GPU Memory Management for Efficient DNN Training via Tensor Splitting,ICDE 2022. 现有的GPU内存管理系统通过卸载Tensor和重计算Tensor来减少GPU显存的占用。然而，这种粗粒度的内存管理通常会引起GPU显存峰值，并且不能充分利用可用的硬件资源（例如 PCIe）。该论文提出了一种细粒度的 DNN 内存管理系统（TSPLIT），提出了可拆分张量抽象（Tensor Splitting）来优化系统的支持能力在打破内存瓶颈的同时保持模型训练的效率。

【项目信息】

2022年03月，实验室开展与中兴通讯的研究合作，针对数据库SQL优化当前业界存在的问题，研究并输出业界领先的数据库SQL优化技术。
2022年03月，实验室开展与中兴通讯的研究合作，实现AI模型的自动机器学习加速能力，包括自动化超参调优加速，自动化网络架构搜索加速。

2022年04月回顾

【荣誉奖项】

04月29日晚，国际万维网顶级会议WWW 2022（The Web Conference，简称WWW）公布了本届会议的最佳论文。以北京大学计算机学院崔斌教授博士生张文涛为第一作者的论文“可扩展的图神经结构搜索系统 (PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm)”斩获大会唯一的最佳学生论文奖（Best Student Paper Award）。崔斌教授受邀发表获奖致谢，博士生张文涛、沈彧共同为获奖论文进行了学术报告。

国际万维网顶级会议WWW 2022最佳论文获奖证书

【论文录用】

2022年04月，实验室博士生张心怡、常卓等同学合作的一篇论文被VLDB 2022录用。

【论文简介】

Xinyi Zhang, Zhuo Chang, Yang Li, Hong Wu, Jian Tan, Feifei Li, Bin Cui: Facilitating Database Tuning with Hyper-Parameter Optimization: A Comprehensive Experimental Evaluation,VLDB 2022. 近年来，数据库参数优化问题收到学术界与工业界的广泛关注。面对大量的可用算法与各自场景，如何为数据库参数优化系统选择最佳设计仍然十分困难。为此，我们对数据库参数优化系统进行了综合评价：我们把现有系统分解为三个模块，得出了在不同的场景下的最优设计。此外，我们提出了一种数据库参数优化技术的测试基准，其大大减少了评估的成本与时间开销。

2022年05月回顾

【论文录用】

2022年05月，实验室共有8篇论文被国际顶级学术会议或期刊录用：

① 我组博士生张文涛、盛则昂、沈彧等同学合作的两篇论文被ICML 2022录用；

② 我组博士生符芳诚、苗旭鹏的一篇论文被VLDB 2022录用；

③ 我组博士生黎洋、沈彧等同学合作的两篇论文被KDD 2022录用；

④ 我组博士生张文涛、盛则昂、黎洋等同学合作的两篇论文被KDD 2022录用；

⑤ 我组博士生黎洋、沈彧等同学合作的一篇论文被VLDB Journal录用。

【论文简介】

Wentao Zhang, Zeang Sheng, Mingyu Yang, Yang Li, Yu Shen, Zhi Yang, Bin Cui: NAFS: A Simple yet Tough-to-beat Baseline for Graph Representation Learning,ICML 2022. 针对图上的表示学习这一问题，本工作提出了一种不包含可学习参数的基线方法，NAFS。具体来说，通过验证性实验和理论分析，本工作提出在进行特征传播时根据图中各结点的不同扩散速度相对应地赋予不同的聚合权重。实验结果显示该基线方法在多个图表示学习任务上都取得了接近SOTA的效果，并拥有相比SOTA方法显著更高的运行效率和可扩展性。
Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Zhi Yang, Bin Cui: Deep and Flexible Graph Neural Architecture Search,ICML 2022. 针对图学习领域的神经网络结构搜索问题，和此前大多相关工作固定网络结构的整体框架不同，本工作研究如何组合图神经网络中的两个基本算子P和T以探索更广阔的模型设计空间。此外，本工作基于遗传算法设计的新的搜索算法能够得到兼顾网络结构的模式和深度的搜索结果。实验结果显示本工作搜索得到的网络结构能够取得比目前人工设计的SOTA方法更好的效果，而且相比现有相关工作有超过一个数量级的加速比。
Fangcheng Fu, Xupeng Miao, Jiawei Jiang, Huanran Xue, Bin Cui: Towards Communication-efficient Vertical Federated Learning Training via Cache-enabled Local Update,VLDB 2022. 本工作针对纵向联邦学习中的网络通信瓶颈进行研究，提出了一种基于数据缓存的纵向神经网络训练框架，该训练框架可借助历史数据进行近似计算，大幅降低网络通信量，从而提高训练效率。此外，根据近似计算的特性，本工作提出了两种加快模型收敛的优化算法，并通过理论分析证明其有效性。
Yang Li, Yu Shen, Huaijun Jiang, Tianyi Bai, Wentao Zhang, Ce Zhang, Bin Cui: Transfer Learning based Search Space Design for Hyperparameter Tuning,KDD 2022. Space提出从搜索空间的角度进行迁移学习，通过裁剪历史任务上表现良好的空间，降低在完整空间搜索的代价，从而提升迁移学习的收敛速率。
Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Zhi Yang, Ce Zhang, Bin Cui: "TransBO: Hyperparameter Optimization via Two-Phase Transfer Learning",KDD 2022. TransBO提出建立规范的迁移学习流程，通过优化的方式融合源任务与历史任务，从而提升迁移学习的效果。
Wentao Zhang, Zeang Sheng, Ziqi Yin, Yuezihan Jiang, Yikuan Xia, Jun Gao, Zhi Yang, Bin Cui: Model Degradation Hinders Deep Graph Neural Networks,KDD 2022. 针对图神经网络无法做深这一问题，本工作把图神经网络的深度分离成传播深度和非线性变换深度两部分，并通过详尽的实验探究发现非线性变换深度在该问题中有着更大的影响。基于该发现，本工作针对性地提出了一个即插即用的通用且高效的模块，AIR。实验结果显示AIR能够帮助现有的图神经网络同时拥有较大的传播深度和非线性变换深度，为图神经网络无法做深这一问题提供了新的研究思路。
Wentao Zhang, Ziqi Yin, Zeang Sheng, Yang Li, wen ouyang, Xiaosen Li, Yangyu Tao, Zhi Yang, Bin Cui: Graph Attention Multi-Layer Perceptron,KDD 2022. 针对大规模图学习这一问题，本工作提出了一个全新的具有高可扩展性、高效的深层图神经网络模型GAMLP。基于解耦的图神经网络结构，GAMLP同时对结点特征和标签信息进行传播，并提出了两类高效的注意力机制来可适应地聚合不同深度的聚合信息。实验结果显示GAMLP在多个公开的大规模图数据集上都取得了SOTA的效果。目前GAMLP已在腾讯的机器学习平台Angel部署并被广泛使用。
Yang Li, Yu Shen, Wentao Zhang, Ce Zhang, Bin Cui: VolcanoML: Speeding up End-to-End AutoML via Scalable Search Space Decomposition,VLDB Journal. 该论文拓展自VLDB 2021会议论文，通过对搜索空间进行切分，提高自动化机器学习的搜索效率。

【学术活动】

2022年05月09日至12日，国际数据库与数据管理顶级会议ICDE 2022召开，我组博士生谢旭、聂小楠、硕士生蒋悦紫晗在大会上为录用论文进行了学术报告。
2022年05月31日至06月02日，北京智源大会召开，我组博士生苗旭鹏受邀在大会上进行题为“河图：面向超大模型的分布式深度学习框架/Hetu：A distributed deep learning system towards large-scale models”的演讲报告。

我组博士生苗旭鹏进行演讲报告

【智源大会报告简介】

河图：面向超大模型的分布式深度学习框架/Hetu：A distributed deep learning system towards large-scale models

议题简介：机器学习系统是人工智能应用的重要基础，也是近些年学术界以及工业界的研究热点。作为机器学习与系统的交叉领域，既需要需要关注机器学习本身的数据特性、模型结构、训练方法、优化算法，又需要考虑系统在计算、存储、通信、调度、硬件上存在的问题。最终，在保证机器学习效果的前提下，提高系统性能。日益增长的模型和数据规模对现有系统带来了严峻的挑战。本次报告介绍了课题组自主研发的面向超大模型的分布式深度学习框架--河图。报告首先介绍了河图的特性和设计理念，剖析了目前“大模型”发展情况，然后重点介绍了河图面向复杂模型和硬件环境的优化进展以及在自动化并行训练上的探索。最后，对机器学习系统的发展进行了展望。

【项目信息】

2022年05月，实验室开展与华为技术有限公司的研究合作，挑战面向在线应用的智能参数调优这一项任务。
2022年05月，实验室开展与浙江天猫技术有限公司的研究合作，将多国家的多个模型合成一个模型，最后实现降本提效的目的。
2022年05月，实验室开展与深圳市腾讯计算机系统有限公司的研究合作，继续开展“北大-腾讯协同创新实验室”的研究工作。

2022年06月回顾

【荣誉奖项】

实验室博士生黎洋被评为北京大学优秀毕业生；
实验室博士生张文涛博士论文被评为北京大学优秀博士论文；
实验室博士生苗旭鹏、张文涛被评为北京市优秀毕业生。

【学术活动】

2022年06月12日至17日，国际数据库与数据管理顶级会议SIGMOD 2022召开，我组博士生苗旭鹏、符芳诚、张心怡在大会上为录用论文进行了学术报告。

【新闻动态】

实验室河图团队将大规模预训练模型系统优化方面的技术成果应用到腾讯，合作设计并研发了预训练框架AngelPTM，积极推动创新成果在腾讯广告内容理解、行业特征挖掘、文案创意生成等实际业务中的应用落地，促进产学研合作。此外，河图团队的多项技术成果持续助力腾讯“混元”AI大模型，后者在CLUE（中文语言理解评测集合）榜单登顶，一举超越人类水平。

https://mp.weixin.qq.com/s/zk0dG2yB3iRBWEBMLMoWmw

2022年07月回顾

【学术活动】

1. 2022年07月17日至23日，国际机器学习与人工智能顶级会议ICML 2022召开，我组博士生张文涛在大会上为录用论文进行了学术报告。

我组博士生张文涛进行学术报告

2. 2022年07月28日，课题组承担的重点研发项目“高时效、可扩展的大数据计算模型、优化技术与系统”中的“高维大规模机器学习系统” 课题完成了课题绩效评价。课题完成了高效、可扩展、可兼容的高维大规模机器学习系统的研制，该系统具备通用的编程模型和接口，支持常见的机器学习模型的高效并行化求解，其中深度学习模型实现了百亿级参数的学习能力。经第三方测试，系统支持的常用模型在达到相当的精度情况下，平均训练性能比TensorFlow1.15.0高30%。系统和项目整体进行了集成，高效支撑了双十一和城市大脑示范应用。课题发表论文24篇，申请专利7项，获得软件著作权2项，主要系统在中国木兰开源社区开放，并获得了较好的影响力，显示了良好的应用前景。

2022年08月回顾

【学术活动】

1. 2022年08月14日至18日，国际数据科学与数据挖掘顶级会议KDD 2022召开，我组博士生黎洋、张文涛在大会上为录用论文进行了学术报告。

2. 2022年08月19日至21日，实验室多位学生赴威海参加CCF中国数据库学术会议NDBC 2022，并与海内外学者进行了学术交流。

威海-CCF中国数据库学术会议合影留念

【论文录用】

2022年08月，实验室共有2篇论文被国际顶级学术会议或期刊录用：

① 我组博士生黄世悦、硕士生覃彦钊等同学合作的一篇论文被SCIS录用；

② 我组博士生苗旭鹏、聂小楠等同学合作的一篇论文被SCIS录用。

【论文简介】

Shiyue Huang, Yanzhao Qin, Xinyi Zhang, Yaofeng Tu, Zhongliang Lo, and Bin Cui: A Survey on Performance Optimization for Database Systems,SCIS. 近年来，数据库性能优化问题受到工业界与学术界的广泛关注。我们根据数据库运维环节，围绕性能预测、异常诊断、调优等三个主题撰写了综述论文，总结了各优化主题的目标与挑战，梳理了现有研究工作及其优缺点，分析了未来值得探索的研究方向。
Xupeng Miao, Xiaonan Nie, Hailin Zhang, Tong Zhao, and Bin Cui: Hetu: A highly efficient automatic parallel distributed deep learning system,SCIS. 我组河图团队关于河图系统的简介论文被SCIS接收，论文介绍了河图的基本设计理念、系统功能特性、研发背景、开发过程和在工业界的落地应用情况等内容。

2022年09月回顾

【荣誉奖项】

2022年09月03日，我组博士生苗旭鹏、张文涛获得2022年度WAIC云帆奖·明日之星奖项；
2022年09月29日，我组博士生苗旭鹏获得2022年度ACM SIGMOD中国“优博奖”；
2022年09月07日，在悉尼举办的国际数据库与数据管理顶级会议VLDB 2022（International Conference on Very Large Databases，简称VLDB）上，北京大学计算机学院崔斌教授课题组的论文“基于分布式缓存的大规模可扩展嵌入模型训练框架（HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework）”获得大会可扩展数据科学最佳论文奖（Best Scalable Data Science Paper）。崔斌教授在此次VLDB大会上进行了题为“面向大模型的分布式机器学习（Distributed Machine Learning for Big Models）”的特邀报告，介绍了实验室在大模型训练方面的系统性进展，受到了与会同行的一致好评；我组博士生苗旭鹏为获奖论文进行了学术报告。此外，我组博士生沈彧、符芳诚、张心怡也为录用论文进行了学术报告。

崔斌教授课题组论文获得大会可扩展数据科学最佳论文奖

崔斌教授进行特邀报告

【论文录用】

2022年09月，我组博士生沈彧、本科生陆宇鹏等同学合作的一篇论文被NeurIPS 2022录用。

【论文简介】

Yu Shen, Yupeng Lu, Yang Li, Yaofeng Tu, Wentao Zhang, and Bin Cui: DivBO: Diversity-aware CASH for Ensemble Learning,NeurIPS 2022. DivBO提出了在自动化机器学习搜索流程中引入对配置多样性的考量，并在搜索结束后通过构建多样化的集成模型，进一步提升了自动化机器学习的搜索精度。

2022年10月回顾

【荣誉奖项】

2022年10月05日，我组博士生张心怡获得2022年度微软学者（MSRA Fellowship）提名。

【学术活动】

2022年10月11日至12日，Google举办了首届关于Sparsity and Adaptive Computation的Workshop，我组博士生聂小楠受邀参会并进行了题为“EvoMoE: An Evolutional Mixture-of-Experts Training Framework via Dense-To-Sparse Gate”的学术报告，并与Dave Patterson, Jeff Dean等与会知名学者进行交流。

【论文录用】

2022年10月，实验室共有2篇论文被国际顶级学术会议或期刊录用：

① 我组博士生苗旭鹏、王驭捷等同学合作的一篇论文被VLDB 2023录用；

② 我组博士生苗旭鹏、张文涛等同学合作的一篇论文被VLDB Journal录用。

【论文简介】

Xupeng Miao, Yujie Wang, Youhe Jiang, Chunan Shi, Xiaonan Nie, Hailin Zhang, and Bin Cui: Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism,VLDB 2023.论文提出了一个面向超大模型的自动并行分布式训练系统Galvatron，相比于现有工作在多样性、复杂性、实用性方面均具有显著优势，性能显著优于现有解决方案。
Xupeng Miao, Wentao Zhang, Yuezihan Jiang, Fangcheng Fu, Yingxia Shao, Lei Chen, Yangyu Tao, Gang Cao, and Bin Cui: P2CG: A Privacy Preserving Collaborative Graph Neural Network Training Framework,VLDB Journal.论文提出了一个面向纵向联邦学习场景的图神经网络训练框架P2CG ，能够在保护图数据隐私的前提下高质量地完成多方联合的图学习任务。

2022年11月回顾

【学术活动】

1. 崔斌教授在第七届数据挖掘与大数据国际会议（The Seventh International Conference on Data Mining and Big Data）上进行了题为“面向大模型的分布式机器学习（Distributed Machine Learning for Big Models）”的特邀报告，介绍了实验室在大模型训练方面的系统性进展，包括系统优化，自动并行等技术进展，并介绍了实验室的开源分布式深度学习系统Hetu。报告获得了与会同行的好评和关注。

崔斌教授特邀报告链接：https://iasei.org/dmbd2022/speakers.html

2. 2022年11月28日至12月9日，国际机器学习与人工智能顶级会议NeurIPS 2022召开，我组博士生沈彧在大会上为录用论文进行了学术报告。

【论文录用】

2022年11月，实验室共有3篇论文被国际顶级学术会议或期刊录用：

① 我组博士生黄世悦、硕士生王子威等同学合作的一篇论文被SIGMOD 2023录用；

② 我组博士生沈彧、黎洋等同学合作的一篇论文被AAAI 2023录用；

③ 我组硕士生郭子瑜、博士生苗旭鹏等合作的一篇论文被AAAI 2023录用。

【论文简介】

Shiyue Huang, Ziwei Wang, Xinyi Zhang, Yaofeng Tu, Zhongliang Li and Bin Cui: DBPA: A Benchmark for Transactional Database Performance Anomalies,SIGMOD 2023. 针对OLTP数据库性能异常诊断问题，当下流行的机器学习算法具备天然优势，然而训练数据的缺失成为阻碍其应用的关键问题。为此，我们提出了DBPA，一套关系型数据库性能异常的benchmark。它包括多种常见异常的复现方式与一个规模较大的数据集，支持多样场景数据采集与复合异常数据生成。用户可使用DBPA采集目标数据库环境下的性能异常数据，以训练机器学习模型用于诊断任务；也可使用DBPA自带的数据集进行异常检测与异常诊断算法评测。
Yu Shen, Yang Li, Jian Zheng, Wentao Zhang, Peng Yao, Jixiang Li, Sen Yang, Ji Liu, and Bin Cui: ProxyBO: Accelerating Neural Architecture Search via Bayesian Optimization with Zero-cost Proxies,AAAI 2023. ProxyBO论文提出将无需训练即可获得的指标融入神经网络结构搜索中，从而加快搜索算法的收敛，并大幅提升搜索初期的精度。
Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzheng Ma, Xupeng Miao, Xuming He, and Bin Cui: CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention,AAAI 2023. CLIP 在零发学习上取得了非常好的效果。现有的很多方法尝试在 Few-shot 的设定下提升 CLIP 的性能，但它们均引入了可学习参数，也需要额外的训练过程，产生较大的资源消耗。目前仍然没有方法能够在提升 CLIP 效果的同时，不引入额外的训练参数。因此，我们提出了第一个在 CLIP 上做 Zero-shot 增强的工作 CALIP，我们的方法无需额外的数据和训练过程，是十分高效的。在 CALIP 中，我们设计了一个无参数注意力模块，来加强文本和视觉两个模态间的信息交互，使得模型在 Zero-shot 上的效果有了很大的提升。另外，我们的模型的有参数版本 CALIP-FS 也在现有的 Few-shot 方法中取得了最佳效果。

2022年12月回顾

【荣誉奖项】

2022年12月，我组硕士生赵鹏昊在英特尔“创新大师杯”全球AI极客挑战赛“DeepRec CTR模型性能优化”赛题中荣获创新奖。

【论文录用】

2022年12月，实验室共有2篇论文被国际顶级学术会议或期刊录用：

① 我组博士生聂小楠、苗旭鹏等同学合作的一篇论文被SIGMOD 2023录用；

② 我组博士生谢旭同学的一篇论文被ICDE 2023 (Industry Track)录用。

【论文简介】

Xiaonan Nie, Xupeng Miao, Zilong Wang, Jilong Xue, Lingxiao Ma, Zichao Yang, Gang Cao, and Bin Cui: FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement,SIGMOD 2023. 大规模混合专家模型训练过程中专家的负载是不均衡的和动态的，这降低了现有系统的效率。我们深入分析了模型训练时的特性，并提出了动态的专家管理和设备放置的机制，根据负载实时调整专家摆放来提高训练的效率。
Xu Xie, Jin Niu, Lifang Deng, Dan Wang, Jiandong Zhang, Zhihua Wu, Kaigui Bian, Gang Cao, and Bin Cui: Hierarchical Interest Modeling of Long-tailed Users for Click-Through Rate Prediction,ICDE 2023 (Industry Track). 点击率（CTR）预测，其目的是预测用户点击某个项目的概率，在推荐系统中起着举足轻重的作用。从用户的历史交互（如点击）中准确地捕捉用户的偏好是处理这一任务的必要步骤，并引起了学术界和工业界的广泛关注。然而，以往的方法大多针对点击量大的用户，它们对很少点击或购买商品的用户服务不佳。虽然在亚马逊、淘宝等热门平台上，这些长尾用户的比例可能很小，但在来赞哒这样的新生电商平台上，他们却占了大多数。为了提取长尾用户的兴趣，一些工作试图整合辅助信息，例如用户元特征。然而，这些特征通常不容易获取，甚至可能导致隐私问题。因此，如何利用嘈杂和有限的点击行为成为关键挑战。我们提出了一种称为分层兴趣建模（HIM）的新模型。它分层利用长尾用户的有限行为，并从个性化和群体角度捕捉他们的偏好。HIM 由两个主要组件组成，包括用户行为金字塔~(UBP) 和用户行为聚类~(UBC)。UBP 模块利用额外的负反馈来减少正反馈中的噪声，从而获得可靠的用户个性化表示。然后，UBC 模块自动发现具有自监督重建损失的潜在用户组，并在组方面为每个用户学习另一种兴趣表示。在公开和工业数据集的广泛实验验证了 HIM 与最先进的基线相比的优越性。此外，HIM已经部署在Lazada推荐场景，在线A/B测试CTR预测平均提升3.38%。

结束语

2022年以来，我们在SIGMOD、VLDB、ICLR、ICDE、ICML、WWW、KDD等国际顶级学术会议和期刊如上发表论文20余篇，并获得了VLDB和WWW的最佳论文，多个开源系统的影响力进一步提高，与包括字节跳动、中兴通讯、腾讯、阿里巴巴、华为等多家知名企业开展了卓有成效的合作，进行科研成果的转化落地。多名博士毕业生获得了优秀毕业生的荣誉。

2023年充满了希望，工作和生活将恢复常态。我们将继续奋进，与学术同行和业界同仁们一起为推动数据库、人工智能系统与大数据领域的发展贡献力量！

标签： pkudair 总结