北京大学
数据与智能实验室(PKU-DAIR)
2022年度总结
再见2022 你好2023
2022年,实验室继续在科研探索、师生成长、项目合作等各方面取得长足的进步。在这里,我们对过去一年实验室所取得的成果进行总结和回顾,迎接走出疫情、充满希望的2023年!
2022年01月回顾
【新闻动态】
崔斌教授于2022年01月01日起担任Data Science and Engineering(DSE)期刊主编。
Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面: (1)数据本身;(2)数据信息提取方法;(3)数据计算理论;(4)用来分析与管理数据的技术和系统。
目前期刊已被EI、ESCI与SCOPUS收录,CiteScore 2021为6.4,在Computational Mechanics领域排名#8/78(位列前10%),在Computer Science Applications领域排名#157/747(位列前21%) 。
Data Science and Engineering期刊链接: https://www.springer.com/journal/41019
【论文录用】
2022年01月,实验室共有4篇论文被国际顶级学术会议或期刊录用:
① 我组博士生苗旭鹏、硕士生石屹宁等同学合作的一篇论文被SIGMOD 2022录用;
② 我组博士生黎洋、沈彧等同学合作的一篇论文被VLDB 2022录用;
③ 我组博士生张文涛、硕士生王业鑫等同学合作的一篇论文被ICLR 2022录用;
④ 我组硕士生蒋悦紫晗、程羽等同学合作的一篇论文被ICDE 2022 (Industry Track)录用。
【论文简介】
【项目信息】
2022年01月,实验室开展与北京字跳网络技术有限公司的研究合作,研究方向为贝叶斯优化及其应用。
2022年02月回顾
【论文录用】
2022年02月,实验室博士生张文涛、沈彧等同学合作的一篇论文被WWW 2022录用。
【论文简介】
Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Xiaosen Li, Wen Ouyang,Yangyu Tao, Zhi Yang, Bin Cui: PaSca: A Graph Neural Architecture Search System under the Scalable Paradigm,Web Conference 2022. 针对大规模图学习过程中面临的可扩展性低及建模门槛高两个问题,本工作提出了一套拥有自动化建模超大规模图网络能力的高可扩展性图学习系统,PaSca。具体来说,本工作提出了一个新颖的图神经网络建模范式,并基于此设计了一个包含超过15万种网络结构的可扩展图神经网络设计空间。此外,本工作还实现并开源了一套多目标的自动化神经网络搜索系统,来支持更简单和高效的大规模图学习。
2022年03月回顾
【论文录用】
2022年03月,实验室共有4篇论文被国际顶级学术会议或期刊录用:
① 我组博士生张心怡、黎洋等同学合作的一篇论文被SIGMOD 2022录用;
② 我组博士生符芳诚的一篇论文被SIGMOD 2022录用;
③ 我组硕士生吴史文、博士生张文涛等同学合作的一篇论文被ACM Computing Surveys录用;
④ 我组博士生聂小楠、苗旭鹏等同学合作的一篇论文被ICDE 2022录用。
【论文简介】
【项目信息】
2022年04月回顾
【荣誉奖项】
04月29日晚,国际万维网顶级会议WWW 2022(The Web Conference,简称WWW)公布了本届会议的最佳论文。以北京大学计算机学院崔斌教授博士生张文涛为第一作者的论文“可扩展的图神经结构搜索系统 (PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm)”斩获大会唯一的最佳学生论文奖(Best Student Paper Award)。崔斌教授受邀发表获奖致谢,博士生张文涛、沈彧共同为获奖论文进行了学术报告。
国际万维网顶级会议WWW 2022最佳论文获奖证书
【论文录用】
2022年04月,实验室博士生张心怡、常卓等同学合作的一篇论文被VLDB 2022录用。
【论文简介】
Xinyi Zhang, Zhuo Chang, Yang Li, Hong Wu, Jian Tan, Feifei Li, Bin Cui: Facilitating Database Tuning with Hyper-Parameter Optimization: A Comprehensive Experimental Evaluation,VLDB 2022. 近年来,数据库参数优化问题收到学术界与工业界的广泛关注。面对大量的可用算法与各自场景,如何为数据库参数优化系统选择最佳设计仍然十分困难。为此,我们对数据库参数优化系统进行了综合评价:我们把现有系统分解为三个模块,得出了在不同的场景下的最优设计。此外,我们提出了一种数据库参数优化技术的测试基准,其大大减少了评估的成本与时间开销。
2022年05月回顾
【论文录用】
2022年05月,实验室共有8篇论文被国际顶级学术会议或期刊录用:
① 我组博士生张文涛、盛则昂、沈彧等同学合作的两篇论文被ICML 2022录用;
② 我组博士生符芳诚、苗旭鹏的一篇论文被VLDB 2022录用;
③ 我组博士生黎洋、沈彧等同学合作的两篇论文被KDD 2022录用;
④ 我组博士生张文涛、盛则昂、黎洋等同学合作的两篇论文被KDD 2022录用;
⑤ 我组博士生黎洋、沈彧等同学合作的一篇论文被VLDB Journal录用。
【论文简介】
【学术活动】
我组博士生苗旭鹏进行演讲报告
【智源大会报告简介】
河图:面向超大模型的分布式深度学习框架/Hetu:A distributed deep learning system towards large-scale models
议题简介:机器学习系统是人工智能应用的重要基础,也是近些年学术界以及工业界的研究热点。作为机器学习与系统的交叉领域,既需要需要关注机器学习本身的数据特性、模型结构、训练方法、优化算法,又需要考虑系统在计算、存储、通信、调度、硬件上存在的问题。最终,在保证机器学习效果的前提下,提高系统性能。日益增长的模型和数据规模对现有系统带来了严峻的挑战。本次报告介绍了课题组自主研发的面向超大模型的分布式深度学习框架--河图。报告首先介绍了河图的特性和设计理念,剖析了目前“大模型”发展情况,然后重点介绍了河图面向复杂模型和硬件环境的优化进展以及在自动化并行训练上的探索。最后,对机器学习系统的发展进行了展望。
【项目信息】
2022年06月回顾
【荣誉奖项】
【学术活动】
2022年06月12日至17日,国际数据库与数据管理顶级会议SIGMOD 2022召开,我组博士生苗旭鹏、符芳诚、张心怡在大会上为录用论文进行了学术报告。
【新闻动态】
实验室河图团队将大规模预训练模型系统优化方面的技术成果应用到腾讯,合作设计并研发了预训练框架AngelPTM,积极推动创新成果在腾讯广告内容理解、行业特征挖掘、文案创意生成等实际业务中的应用落地,促进产学研合作。此外,河图团队的多项技术成果持续助力腾讯“混元”AI大模型,后者在CLUE(中文语言理解评测集合)榜单登顶,一举超越人类水平。
更多相关阅读:
https://mp.weixin.qq.com/s/J34tWjuI7s0Jqn8GO37WFQ
https://mp.weixin.qq.com/s/zk0dG2yB3iRBWEBMLMoWmw
2022年07月回顾
【学术活动】
1. 2022年07月17日至23日,国际机器学习与人工智能顶级会议ICML 2022召开,我组博士生张文涛在大会上为录用论文进行了学术报告。
我组博士生张文涛进行学术报告
2. 2022年07月28日,课题组承担的重点研发项目“高时效、可扩展的大数据计算模型、优化技术与系统”中的“高维大规模机器学习系统” 课题完成了 课题绩效评价。课题完成了高效、可扩展、可兼容的高维大规模机器学习系统的研制,该系统具备通用的编程模型和接口,支持常见的机器学习模型的高效并行化求解,其中深度学习模型实现了百亿级参数的学习能力。经第三方测试,系统支持的常用模型在达到相当的精度情况下,平均训练性能比TensorFlow1.15.0高30%。系统和项目整体进行了集成,高效支撑了双十一和城市大脑示范应用。课题发表论文24篇,申请专利7项,获得软件著作权2项,主要系统在中国木兰开源社区开放,并获得了较好的影响力,显示了良好的应用前景。
2022年08月回顾
【学术活动】
1. 2022年08月14日至18日,国际数据科学与数据挖掘顶级会议KDD 2022召开,我组博士生黎洋、张文涛在大会上为录用论文进行了学术报告。
2. 2022年08月19日至21日,实验室多位学生赴威海参加CCF中国数据库学术会议NDBC 2022,并与海内外学者进行了学术交流。
威海-CCF中国数据库学术会议合影留念
【论文录用】
2022年08月,实验室共有2篇论文被国际顶级学术会议或期刊录用:
① 我组博士生黄世悦、硕士生覃彦钊等同学合作的一篇论文被SCIS录用;
② 我组博士生苗旭鹏、聂小楠等同学合作的一篇论文被SCIS录用。
【论文简介】
2022年09月回顾
【荣誉奖项】
崔斌教授课题组论文 获得大会可扩展数据科学最佳论文奖
崔斌教授进行特邀报告
【论文录用】
2022年09月,我组博士生沈彧、本科生陆宇鹏等同学合作的一篇论文被NeurIPS 2022录用。
【论文简介】
Yu Shen, Yupeng Lu, Yang Li, Yaofeng Tu, Wentao Zhang, and Bin Cui: DivBO: Diversity-aware CASH for Ensemble Learning,NeurIPS 2022. DivBO提出了在自动化机器学习搜索流程中引入对配置多样性的考量,并在搜索结束后通过构建多样化的集成模型,进一步提升了自动化机器学习的搜索精度。
2022年10月回顾
【荣誉奖项】
2022年10月05日,我组博士生张心怡获得2022年度微软学者(MSRA Fellowship)提名。
【学术活动】
2022年10月11日至12日,Google举办了首届关于Sparsity and Adaptive Computation的Workshop,我组博士生聂小楠受邀参会并进行了题为“EvoMoE: An Evolutional Mixture-of-Experts Training Framework via Dense-To-Sparse Gate”的学术报告,并与Dave Patterson, Jeff Dean等与会知名学者进行交流 。
【论文录用】
2022年10月,实验室共有2篇论文被国际顶级学术会议或期刊录用:
① 我组博士生苗旭鹏、王驭捷等同学合作的一篇论文被VLDB 2023录用;
② 我组博士生苗旭鹏、张文涛等同学合作的一篇论文被VLDB Journal录用。
【论文简介】
2022年11月回顾
【学术活动】
1. 崔斌教授在第七届数据挖掘与大数据国际会议(The Seventh International Conference on Data Mining and Big Data)上进行了题为“面向大模型的分布式机器学习(Distributed Machine Learning for Big Models)”的特邀报告,介绍了实验室在大模型训练方面的系统性进展,包括系统优化,自动并行等技术进展,并介绍了实验室的开源分布式深度学习系统Hetu。报告获得了与会同行的好评和关注。
崔斌教授特邀报告链接:https://iasei.org/dmbd2022/speakers.html
2. 2022年11月28日至12月9日,国际机器学习与人工智能顶级会议NeurIPS 2022召开,我组博士生沈彧在大会上为录用论文进行了学术报告。
【论文录用】
2022年11月,实验室共有3篇论文被国际顶级学术会议或期刊录用:
① 我组博士生黄世悦、硕士生王子威等同学合作的一篇论文被SIGMOD 2023录用;
② 我组博士生沈彧、黎洋等同学合作的一篇论文被AAAI 2023录用;
③ 我组硕士生郭子瑜、博士生苗旭鹏等合作的一篇论文被AAAI 2023录用。
【论文简介】
2022年12月回顾
【荣誉奖项】
2022年12月,我组硕士生赵鹏昊在英特尔“创新大师杯”全球AI极客挑战赛“DeepRec CTR模型性能优化”赛题中荣获创新奖。
【论文录用】
2022年12月,实验室共有2篇论文被国际顶级学术会议或期刊录用:
① 我组博士生聂小楠、苗旭鹏等同学合作的一篇论文被SIGMOD 2023录用;
② 我组博士生谢旭同学的一篇论文被ICDE 2023 (Industry Track)录用。
【论文简介】
结束语
2022年以来,我们在SIGMOD、VLDB、ICLR、ICDE、ICML、WWW、KDD等国际顶级学术会议和期刊如上发表论文20余篇,并获得了VLDB和WWW的最佳论文,多个开源系统的影响力进一步提高,与包括字节跳动、中兴通讯、腾讯、阿里巴巴、华为等多家知名企业开展了卓有成效的合作,进行科研成果的转化落地。多名博士毕业生获得了优秀毕业生的荣誉。
2023年充满了希望,工作和生活将恢复常态。我们将继续奋进,与学术同行和业界同仁们一起为推动数据库、人工智能系统与大数据领域的发展贡献力量!