神经信息处理系统会议,NeurIPS(Conference on Neural Information Processing Systems)是机器学习和计算神经科学领域中重要的学术会议之一,同时也是中国计算机学会(CCF)推荐的A类会议。NeurIPS每年举办一次,通常在12月举行。第38届NeurIPS 2024将于2024年12月10日至15日在加拿大温哥华Vancouver Convention Center 召开。
以下是接收论文信息:
1. Ling Yang, Zhaochen Yu, Tianjun Zhang, Shiyi Cao, Minkai Xu, Wentao Zhang, Joseph E. Gonzalez, Bin Cui.
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models,NeurIPS 2024 (Spotlight)
【论文简介】
本文介绍了Buffer of Thoughts (BoT),这是一种新颖且多功能的思维增强推理方法,旨在提高大语言模型(LLMs)的准确性、效率和稳健性。具体来说,我们提出了元缓冲区,用于存储一系列信息丰富的高级思维模板,这些模板从各种任务的解决过程中提炼而来。对于每个问题,我们检索相关的思维模板,并自适应地将其与特定的推理结构结合,以进行高效推理。为了保证可扩展性和稳定性,我们还提出了缓冲管理器,动态更新元缓冲区,从而随着更多任务的解决增强其容量。我们在10个具有挑战性的推理密集型任务上进行了广泛实验,相较于之前的SOTA方法,取得了显著的性能提升:在Game of 24上提升11%,在Geometric Shapes上提升20%,在Checkmate-in-One上提升51%。进一步分析表明,BoT具有优越的泛化能力和模型稳健性,同时平均仅需多查询提示方法(如思维树/图)的12%的成本。值得注意的是,我们发现Llama3-8B+BoT有潜力超越Llama3-70B模型。
2. Xiaonan Nie, Qibin Liu, Fangcheng Fu, Shenhan Zhu, Xupeng Miao, Xiaoyang Li, Yang Zhang, Shouda Liu, Bin Cui.
LSH-MoE: Communication-efficient MoE Training via Locality-Sensitive Hashing,NeurIPS 2024
【论文简介】
大规模Transformer模型在各种下游任务中表现优异,但随着模型规模的扩展,其训练成本也相应增加。为了高效扩大模型规模,业界广泛采用了混合专家(MoE)架构,该架构由一个门控网络和一系列专家组成,通过将输入数据路由到固定数量的专家而不是全部专家,来保持训练成本恒定。在现有的大规模混合专家训练系统中,专家通常分布在不同的GPU上以实现并行化,因此输入数据需要额外的全对全(AlltoAll)通信以传输到目标专家并进行相应的计算。然而,通过评估三种主流混合专家模型在常用GPU集群上的训练过程,我们发现全对全通信占比平均为45%,这大大限制了混合专家模型的训练效率和可扩展性。针对此问题,我们提出了LSH-MoE,一种基于位置敏感哈希(LSH)的通信高效的混合专家训练框架。我们首先介绍了现有系统中混合专家训练扩展的难题,并重点关注利用词元(token)相似性来进行数据压缩的可能性。然后,我们引入了一种高效的基于位置敏感哈希的压缩技术,该技术利用正轴体(cross-polytope)哈希函数进行快速聚类。我们进一步采用了基于残差的误差补偿方案,以减小压缩带来的精度损失。为了验证方法的有效性,我们在语言模型(RoBERTa、GPT和T5)和视觉模型(Swin)上进行了预训练和微调任务的实验。结果表明,我们的方法在不同任务中比现有方法实现了1.28倍到2.2倍的加速。
3. Ye Tian*, Ling Yang*, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui.
VideoTetris: Towards Compositional Text-to-Video Generation, NeurIPS 2024
【论文简介】
扩散模型在文本到视频(T2V)生成方面取得了显著成功。然而,现有方法在处理涉及多个对象或对象数量动态变化的复杂(长)视频生成场景时可能面临挑战。为了解决这些限制,我们提出了VideoTetris,这是一种支持组合式T2V生成的新框架。具体而言,我们提出了时空组合扩散,通过在空间和时间上操控去噪网络的注意力图,精确遵循复杂的文本语义。此外,我们还提出了增强的视频数据预处理,以改进关于运动动态和提示理解的训练数据,并配备了一种新的参考帧注意机制,以提高自回归视频生成的一致性。大量实验表明,VideoTetris在组合式T2V生成中取得了令人印象深刻的定性和定量结果。
4. Yifei Xia, Fangcheng Fu, Wentao Zhang, Jiawei Jiang, Bin Cui.
Efficient Multi-task LLM Quantization and Serving for Multiple LoRA Adapters, NeurIPS 2024
【论文简介】
在LLM多任务服务场景下,负载不均等问题导致的资源浪费是一个普遍存在但常被忽视的挑战。模型不仅需要频繁在不同任务之间切换,还要应对各任务不同的计算需求。这种复杂情况往往使现有的LLM服务系统在资源分配上效率低下,同时频繁切换不同任务的LoRA适配器,也会导致内存消耗过高、吞吐量降低。 为解决这一问题,我们提出了LoRA-Inlaid系统,旨在降低资源消耗的同时提升系统服务质量。在多任务场景下,不同任务需要频繁切换适配器,这导致显存足迹过大。为此,我们通过研究不同任务的适配器对基座模型影响的差异,提出了一种高效的量化算法,成功降低了多任务服务时的显存足迹。 此外,为应对实时变化的请求类型,我们设计了灵活的适配器动态添加方案。通过GPU与CPU的异步协同处理,LoRA-Inlaid能够以最小的资源代价快速部署新任务,同时确保在线服务的稳定性。为优化资源利用,我们针对多任务服务的特性,设计了一种新颖的多任务推理调度算法,进一步提升了系统整体效率。最终,LoRA-Inlaid在多任务场景中不仅能灵活应对不同任务的需求,还在吞吐量、延迟、作业完成时间及服务水平目标达成率等方面实现了显著提升。
5. Xinchen Zhang*, Ling Yang*, Yaqi Cai, Zhaochen Yu, Kai-Ni Wang, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui.
RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models, NeurIPS 2024
【论文简介】
扩散模型在文本到图像生成方面取得了显著进展。然而,现有模型在多对象组合生成时仍面临许多困难。本文提出了RealCompo,一种无需训练且易于迁移的文本到图像生成框架,旨在利用文本到图像模型和空间感知图像扩散模型(如布局、关键点和分割图)的优势,提升生成图像的真实感和组合性。我们提出了一种直观且新颖的平衡器,可以在去噪过程中动态平衡两种模型的优势,允许任何模型无需额外训练即可即插即用。大量实验表明,RealCompo在多对象组合生成中持续优于最先进的文本到图像模型和空间感知图像扩散模型,同时保持生成图像的满意真实感和组合性。值得注意的是,RealCompo可以无缝扩展到各种空间感知图像扩散模型和风格化扩散模型。
6. Shuaipeng Li*, Penghao Zhao*, Hailin Zhang*, Samm Sun, Hao Wu, Dian Jiao, Weiyan Wang, Chengjun Liu, Zheng Fang, Jinbao Xue, Yangyu Tao, Bin Cui, Di Wang.
Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling, NeurIPS 2024
【论文简介】
在当前的深度学习任务中,Adam类优化器(如Adam、Adagrad、RMSprop、Adafactor和Lion)已被广泛用作SGD类优化器的替代方案。这些优化器通常使用梯度的符号来更新模型参数,从而产生更稳定的收敛曲线。学习率和token批量大小是优化器最关键的超参数,需要仔细调整以实现有效的收敛。先前的研究表明,对于SGD类优化器,最优学习率随着token批量大小的增加呈线性增长(或遵循类似的规则)。然而,这一结论并不适用于Adam类优化器。在本文中,我们通过理论分析和大量实验阐明了Adam类优化器中最优学习率与token批量大小之间的关系。首先,我们提出了在“梯度符号”情况下token批量大小与最优学习率之间的缩放定律,并证明随着token批量大小的增加,最优学习率先上升后下降。此外,随着训练的进行,峰值将逐渐向更大的token批量大小移动。其次,我们在各种计算机视觉(CV)和自然语言处理(NLP)任务上进行了实验,并验证了该缩放定律的正确性。
北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文100余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。