PKU-DAIR課題組6篇論文入選機器學習頂級會議NeurIPS 2024
神經信息處理系統會議,NeurIPS(Conference on Neural Information Processing Systems)是機器學習和計算神經科學領域中重要的學術會議之一,同時也是中國計算機學會(CCF)推薦的A類會議。NeurIPS每年舉辦一次,通常在12月舉行。第38屆NeurIPS 2024將于2024年12月10日至15日在加拿大溫哥華Vancouver Convention Center 召開。
以下是接收論文信息:
1. Ling Yang, Zhaochen Yu, Tianjun Zhang, Shiyi Cao, Minkai Xu, Wentao Zhang, Joseph E. Gonzalez, Bin Cui.
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models,NeurIPS 2024 (Spotlight)
【論文簡介】
本文介紹了Buffer of Thoughts (BoT),這是一種新穎且多功能的思維增強推理方法,旨在提高大語言模型(LLMs)的準確性、效率和穩健性。具體來說,我們提出了元緩沖區,用于存儲一系列信息豐富的高級思維模板,這些模板從各種任務的解決過程中提煉而來。對于每個問題,我們檢索相關的思維模板,并自適應地將其與特定的推理結構結合,以進行高效推理。為了保證可擴展性和穩定性,我們還提出了緩沖管理器,動態更新元緩沖區,從而隨著更多任務的解決增強其容量。我們在10個具有挑戰性的推理密集型任務上進行了廣泛實驗,相較于之前的SOTA方法,取得了顯著的性能提升:在Game of 24上提升11%,在Geometric Shapes上提升20%,在Checkmate-in-One上提升51%。進一步分析表明,BoT具有優越的泛化能力和模型穩健性,同時平均僅需多查詢提示方法(如思維樹/圖)的12%的成本。值得注意的是,我們發現Llama3-8B+BoT有潛力超越Llama3-70B模型。
2. Xiaonan Nie, Qibin Liu, Fangcheng Fu, Shenhan Zhu, Xupeng Miao, Xiaoyang Li, Yang Zhang, Shouda Liu, Bin Cui.
LSH-MoE: Communication-efficient MoE Training via Locality-Sensitive Hashing,NeurIPS 2024
【論文簡介】
大規模Transformer模型在各種下游任務中表現優異,但隨著模型規模的擴展,其訓練成本也相應增加。為了高效擴大模型規模,業界廣泛采用了混合專家(MoE)架構,該架構由一個門控網絡和一系列專家組成,通過將輸入數據路由到固定數量的專家而不是全部專家,來保持訓練成本恒定。在現有的大規模混合專家訓練系統中,專家通常分布在不同的GPU上以實現并行化,因此輸入數據需要額外的全對全(AlltoAll)通信以傳輸到目標專家并進行相應的計算。然而,通過評估三種主流混合專家模型在常用GPU集群上的訓練過程,我們發現全對全通信占比平均為45%,這大大限制了混合專家模型的訓練效率和可擴展性。針對此問題,我們提出了LSH-MoE,一種基于位置敏感哈希(LSH)的通信高效的混合專家訓練框架。我們首先介紹了現有系統中混合專家訓練擴展的難題,并重點關注利用詞元(token)相似性來進行數據壓縮的可能性。然后,我們引入了一種高效的基于位置敏感哈希的壓縮技術,該技術利用正軸體(cross-polytope)哈希函數進行快速聚類。我們進一步采用了基于殘差的誤差補償方案,以減小壓縮帶來的精度損失。為了驗證方法的有效性,我們在語言模型(RoBERTa、GPT和T5)和視覺模型(Swin)上進行了預訓練和微調任務的實驗。結果表明,我們的方法在不同任務中比現有方法實現了1.28倍到2.2倍的加速。
3. Ye Tian*, Ling Yang*, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui.
VideoTetris: Towards Compositional Text-to-Video Generation, NeurIPS 2024
【論文簡介】
擴散模型在文本到視頻(T2V)生成方面取得了顯著成功。然而,現有方法在處理涉及多個對象或對象數量動態變化的復雜(長)視頻生成場景時可能面臨挑戰。為了解決這些限制,我們提出了VideoTetris,這是一種支持組合式T2V生成的新框架。具體而言,我們提出了時空組合擴散,通過在空間和時間上操控去噪網絡的注意力圖,精確遵循復雜的文本語義。此外,我們還提出了增強的視頻數據預處理,以改進關于運動動態和提示理解的訓練數據,并配備了一種新的參考幀注意機制,以提高自回歸視頻生成的一致性。大量實驗表明,VideoTetris在組合式T2V生成中取得了令人印象深刻的定性和定量結果。
4. Yifei Xia, Fangcheng Fu, Wentao Zhang, Jiawei Jiang, Bin Cui.
Efficient Multi-task LLM Quantization and Serving for Multiple LoRA Adapters, NeurIPS 2024
【論文簡介】
在LLM多任務服務場景下,負載不均等問題導致的資源浪費是一個普遍存在但常被忽視的挑戰。模型不僅需要頻繁在不同任務之間切換,還要應對各任務不同的計算需求。這種復雜情況往往使現有的LLM服務系統在資源分配上效率低下,同時頻繁切換不同任務的LoRA適配器,也會導致內存消耗過高、吞吐量降低。 為解決這一問題,我們提出了LoRA-Inlaid系統,旨在降低資源消耗的同時提升系統服務質量。在多任務場景下,不同任務需要頻繁切換適配器,這導致顯存足跡過大。為此,我們通過研究不同任務的適配器對基座模型影響的差異,提出了一種高效的量化算法,成功降低了多任務服務時的顯存足跡。 此外,為應對實時變化的請求類型,我們設計了靈活的適配器動態添加方案。通過GPU與CPU的異步協同處理,LoRA-Inlaid能夠以最小的資源代價快速部署新任務,同時確保在線服務的穩定性。為優化資源利用,我們針對多任務服務的特性,設計了一種新穎的多任務推理調度算法,進一步提升了系統整體效率。最終,LoRA-Inlaid在多任務場景中不僅能靈活應對不同任務的需求,還在吞吐量、延遲、作業完成時間及服務水平目標達成率等方面實現了顯著提升。
5. Xinchen Zhang*, Ling Yang*, Yaqi Cai, Zhaochen Yu, Kai-Ni Wang, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui.
RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models, NeurIPS 2024
【論文簡介】
擴散模型在文本到圖像生成方面取得了顯著進展。然而,現有模型在多對象組合生成時仍面臨許多困難。本文提出了RealCompo,一種無需訓練且易于遷移的文本到圖像生成框架,旨在利用文本到圖像模型和空間感知圖像擴散模型(如布局、關鍵點和分割圖)的優勢,提升生成圖像的真實感和組合性。我們提出了一種直觀且新穎的平衡器,可以在去噪過程中動態平衡兩種模型的優勢,允許任何模型無需額外訓練即可即插即用。大量實驗表明,RealCompo在多對象組合生成中持續優于最先進的文本到圖像模型和空間感知圖像擴散模型,同時保持生成圖像的滿意真實感和組合性。值得注意的是,RealCompo可以無縫擴展到各種空間感知圖像擴散模型和風格化擴散模型。
6. Shuaipeng Li*, Penghao Zhao*, Hailin Zhang*, Samm Sun, Hao Wu, Dian Jiao, Weiyan Wang, Chengjun Liu, Zheng Fang, Jinbao Xue, Yangyu Tao, Bin Cui, Di Wang.
Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling, NeurIPS 2024
【論文簡介】
在當前的深度學習任務中,Adam類優化器(如Adam、Adagrad、RMSprop、Adafactor和Lion)已被廣泛用作SGD類優化器的替代方案。這些優化器通常使用梯度的符號來更新模型參數,從而產生更穩定的收斂曲線。學習率和token批量大小是優化器最關鍵的超參數,需要仔細調整以實現有效的收斂。先前的研究表明,對于SGD類優化器,最優學習率隨著token批量大小的增加呈線性增長(或遵循類似的規則)。然而,這一結論并不適用于Adam類優化器。在本文中,我們通過理論分析和大量實驗闡明了Adam類優化器中最優學習率與token批量大小之間的關系。首先,我們提出了在“梯度符號”情況下token批量大小與最優學習率之間的縮放定律,并證明隨著token批量大小的增加,最優學習率先上升后下降。此外,隨著訓練的進行,峰值將逐漸向更大的token批量大小移動。其次,我們在各種計算機視覺(CV)和自然語言處理(NLP)任務上進行了實驗,并驗證了該縮放定律的正確性。
實驗室簡介
北京大學數據與智能實驗室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實驗室)由北京大學計算機學院崔斌教授領導,長期從事數據庫系統、大數據管理與分析、人工智能等領域的前沿研究,在理論和技術創新以及系統研發上取得多項成果,已在國際頂級學術會議和期刊發表學術論文100余篇,發布多個開源項目。課題組同學曾數十次獲得包括CCF優博、ACM中國優博、北大優博、微軟學者、蘋果獎學金、谷歌獎學金等榮譽。PKU-DAIR實驗室持續與工業界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業開展項目合作和前沿探索,解決實際問題,進行科研成果的轉化落地。
評論 0