69一区二三区好的精华液,中文字幕无码av波多野吉衣,亚洲精品久久久久久无码色欲四季,日本不卡高字幕在线2019

主站蜘蛛池模板: 桐庐县| 东乡| 北宁市| 安远县| 闸北区| 论坛| 横山县| 平南县| 尼勒克县| 乳源| 北流市| 二手房| 电白县| 金山区| 石门县| 长兴县| 竹北市| 古丈县| 方山县| 北海市| 象山县| 重庆市| 通州市| 水富县| 原平市| 汕尾市| 阿克苏市| 尼勒克县| 淅川县| 陆丰市| 新郑市| 蒙阴县| 西丰县| 锡林郭勒盟| 望江县| 凌源市| 达日县| 隆子县| 遵义县| 万盛区| 湖南省|
25
點贊
0
評論
4
轉載
入駐

北京大學數據與智能實驗室(PKU-DAIR)2022年度總結

北京大學

    數據與智能實驗室(PKU-DAIR)

2022年度總結

再見2022   你好2023

2022年,實驗室繼續在科研探索、師生成長、項目合作等各方面取得長足的進步。在這里,我們對過去一年實驗室所取得的成果進行總結和回顧,迎接走出疫情、充滿希望的2023年!

 

2022年01月回顧

【新聞動態】

崔斌教授于2022年01月01日起擔任Data Science and Engineering(DSE)期刊主編。

Data Science and Engineering(DSE)是由中國計算機學會(CCF)主辦、數據庫專業委員會承辦、施普林格自然(Springer Nature)出版的Open Access期刊。為了迎合相關領域的快速發展需求,DSE致力于出版所有和數據科學與工程領域相關的關鍵科學問題與前沿研究熱點,以大數據作為研究重點,征稿范疇主要包括4方面: (1)數據本身;(2)數據信息提取方法;(3)數據計算理論;(4)用來分析與管理數據的技術和系統。

目前期刊已被EI、ESCI與SCOPUS收錄,CiteScore 2021為6.4,在Computational Mechanics領域排名#8/78(位列前10%),在Computer Science Applications領域排名#157/747(位列前21%) 。

Data Science and Engineering期刊鏈接: https://www.springer.com/journal/41019 

【論文錄用】

2022年01月,實驗室共有4篇論文被國際頂級學術會議或期刊錄用:

① 我組博士生苗旭鵬、碩士生石屹寧等同學合作的一篇論文被SIGMOD 2022錄用;

② 我組博士生黎洋、沈彧等同學合作的一篇論文被VLDB 2022錄用;

③ 我組博士生張文濤、碩士生王業鑫等同學合作的一篇論文被ICLR 2022錄用;

④ 我組碩士生蔣悅紫晗、程羽等同學合作的一篇論文被ICDE 2022 (Industry Track)錄用。

【論文簡介】

  1. Xupeng Miao, Yining Shi, Hailin Zhang, Xin Zhang, Xiaonan Nie, Zhi Yang, Bin Cui:  HET-GMP: A Graph-based System Approach to Scaling Large Embedding Model Training,SIGMOD 2022 論文提出了一個面向多GPU的大規模稀疏嵌入模型訓練框架HET-GMP,通過圖局部性感知的模型并行方法顯著降低了通信代價,大幅提高了分布式訓練效率。
  2. Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Jixiang Li, Ji Liu, Ce Zhang, Bin Cui:  Hyper-Tune: Towards Efficient Hyper-parameter Tuning at Scale,VLDB 2022論文提出了一種并行的針對大規模調參場景的優化框架HyperTune,通過引入等級選擇等策略,提升了并行場景下的超參數優化效率。
  3. Wentao Zhang, Yexin Wang, Zhenbang You, Meng Cao, Ping Huang, Jiulong Shan, Zhi Yang, Bin Cui:  Information Gain Propagation: a New Way to Graph Active Learning with Soft Labels,ICLR 2022 針對專家知識領域的圖主動學習場景,和此前大多數相關工作把專家當作黑盒、專注于樣本選擇不同,本工作創新性地提出了對專家做松弛化query的嘗試,并以此為基礎提出了樣本選擇和打標簽的一套全新的完整方法,IGP。實驗結果顯示IGP在下游任務的預測準確性和打標簽的成本兩方面都取得了SOTA的表現,為圖主動學習這一問題提供了新的研究方向。
  4. Yuezihan Jiang, Yu Cheng, Hanyu Zhao, Wentao Zhang, Xupeng Miao, Yu He, Liang Wang, Zhi Yang, Bin Cui:  ZOOMER: Boosting Retrieval on Web-scale Graphs by Regions of Interest,ICDE 2022 (Industry Track)雖然基于圖神經網絡的推薦已經被證明其有效性,但是基于圖神經網絡的推薦面臨著圖龐大導致推薦效率低、缺乏在用戶興趣明確的情況下對信息的過濾導致信息過載的問題。針對以上兩個挑戰,該論文提出圖網絡中的興趣區域概念。基于這個概念,該論文裁剪與興趣無關圖部分并集中處理興趣區域部分,以此降低圖規模并強化用戶興趣以緩解信息過載。此外,該文章在公開數據集和淘寶的真實工業數據集上都充分驗證了其有效性。相較于基線模型,該方法可以在取得可觀加速比的同時達到更好性能。

【項目信息】

2022年01月,實驗室開展與北京字跳網絡技術有限公司的研究合作,研究方向為貝葉斯優化及其應用。

 

2022年02月回顧

【論文錄用】

2022年02月,實驗室博士生張文濤、沈彧等同學合作的一篇論文被WWW 2022錄用。

【論文簡介】

Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Xiaosen Li, Wen Ouyang,Yangyu Tao, Zhi Yang, Bin Cui:  PaSca: A Graph Neural Architecture Search System under the Scalable Paradigm,Web Conference 2022針對大規模圖學習過程中面臨的可擴展性低及建模門檻高兩個問題,本工作提出了一套擁有自動化建模超大規模圖網絡能力的高可擴展性圖學習系統,PaSca。具體來說,本工作提出了一個新穎的圖神經網絡建模范式,并基于此設計了一個包含超過15萬種網絡結構的可擴展圖神經網絡設計空間。此外,本工作還實現并開源了一套多目標的自動化神經網絡搜索系統,來支持更簡單和高效的大規模圖學習。

 

2022年03月回顧

【論文錄用】

2022年03月,實驗室共有4篇論文被國際頂級學術會議或期刊錄用:

① 我組博士生張心怡、黎洋等同學合作的一篇論文被SIGMOD 2022錄用;

② 我組博士生符芳誠的一篇論文被SIGMOD 2022錄用;

③ 我組碩士生吳史文、博士生張文濤等同學合作的一篇論文被ACM Computing Surveys錄用;

④ 我組博士生聶小楠、苗旭鵬等同學合作的一篇論文被ICDE 2022錄用。

【論文簡介】

  1. Xinyi Zhang, Hong Wu, Yang Li, Jian Tan, Feifei Li, and Bin Cui:  Towards Dynamic and Safe Configuration Tuning for Cloud Databases,SIGMOD 2022 現有數據庫參數優化系統落地于生產環節仍存在一定困難:它們假定云環境中的工作負載是一成不變的,不考慮數據庫的可用性、安全性。為了解決這些問題,我們提出在線的安全調優系統OnlineTune。OnlineTune將環境因素特征化,應用考慮環境因素的貝葉斯優化自適應地優化數據庫參數。為了保證調參時的安全,我們提出了子空間自適應的安全探索策略,大大降低了應用不良配置參數的風險。
  2. Fangcheng Fu, Huanran Xue, Yong Cheng, Yangyu Tao, and Bin Cui:  BlindFL: Vertical Federated Machine Learning without Peeking into Your Data,SIGMOD 2022 隨著數據隱私安全顧慮的日益增強,如何使用縱向聯邦學習技術,安全地聯合多方數據進行機器學習建模,逐漸成為了一個熱門的話題。然而,現有的縱向聯邦學習技術方案,要么只能支持有限的特征數據類型,要么存在嚴重的數據泄漏隱患。如何打造靈活、通用、安全的縱向聯邦學習是一個亟需解決的問題。這篇論文提出了BlindFL,一個新的縱向聯邦學習范式。BlindFL可以支持多種特征數據類型,包括稠密或稀疏數據、連續型或離散型數據,并且可以在半誠實安全假設下證明其安全性。團隊在多種數據和模型上運行了大量的實驗,實驗結果表明,BlindFL可有效保護參與方的隱私數據,并具有更高的運行效率。
  3. Shiwen Wu, Fei Sun, Wentao Zhang, Xu Xie, and Bin Cui:  Graph Neural Networks in Recommender Systems: A Survey,ACM Computing Surveys 近幾年,圖神經網絡(GNN)技術在推薦系統中得到了廣泛的應用,因為推薦系統中的大部分信息本質上都具有圖結構,而 GNN 在圖表示學習方面具有優勢。該綜述旨在梳理、總結并討論關于基于 GNN 的推薦系統的研究工作,便于對此領域感興趣的研究者或者工業界人士快速了解這一領域。具體來說,該綜述基于推薦過程中使用的信息類型和推薦任務對現有工作進行分類。此外,我們分析了將 GNN 應用于不同類型數據和推薦任務面臨的挑戰,總結了現有工作如何應對這些挑戰,并討論了現有工作的優點和局限性。此外,我們闡述了9個該領域有待進一步研究的方向。
  4. Xiaonan Nie, Xupeng Miao, Zhi Yang, and Bin Cui:  TSplit: Fine-grained GPU Memory Management for Efficient DNN Training via Tensor Splitting,ICDE 2022 現有的GPU內存管理系統通過卸載Tensor和重計算Tensor來減少GPU顯存的占用。然而,這種粗粒度的內存管理通常會引起GPU顯存峰值,并且不能充分利用可用的硬件資源(例如 PCIe)。該論文提出了一種細粒度的 DNN 內存管理系統(TSPLIT),提出了可拆分張量抽象(Tensor Splitting)來優化系統的支持能力在打破內存瓶頸的同時保持模型訓練的效率。

【項目信息】

  1. 2022年03月,實驗室開展與中興通訊的研究合作,針對數據庫SQL優化當前業界存在的問題,研究并輸出業界領先的數據庫SQL優化技術。
  2. 2022年03月,實驗室開展與中興通訊的研究合作,實現AI模型的自動機器學習加速能力,包括自動化超參調優加速,自動化網絡架構搜索加速。

 

2022年04月回顧

【榮譽獎項】

04月29日晚,國際萬維網頂級會議WWW 2022(The Web Conference,簡稱WWW)公布了本屆會議的最佳論文。以北京大學計算機學院崔斌教授博士生張文濤為第一作者的論文“可擴展的圖神經結構搜索系統 (PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm)”斬獲大會唯一的最佳學生論文獎(Best Student Paper Award)。崔斌教授受邀發表獲獎致謝,博士生張文濤、沈彧共同為獲獎論文進行了學術報告。

國際萬維網頂級會議WWW 2022最佳論文獲獎證書

【論文錄用】

2022年04月,實驗室博士生張心怡、常卓等同學合作的一篇論文被VLDB 2022錄用。

【論文簡介】

Xinyi Zhang, Zhuo Chang, Yang Li, Hong Wu, Jian Tan, Feifei Li, Bin Cui:  Facilitating Database Tuning with Hyper-Parameter Optimization: A Comprehensive Experimental Evaluation,VLDB 2022 近年來,數據庫參數優化問題收到學術界與工業界的廣泛關注。面對大量的可用算法與各自場景,如何為數據庫參數優化系統選擇最佳設計仍然十分困難。為此,我們對數據庫參數優化系統進行了綜合評價:我們把現有系統分解為三個模塊,得出了在不同的場景下的最優設計。此外,我們提出了一種數據庫參數優化技術的測試基準,其大大減少了評估的成本與時間開銷。

 

2022年05月回顧

【論文錄用】

2022年05月,實驗室共有8篇論文被國際頂級學術會議或期刊錄用:

① 我組博士生張文濤、盛則昂、沈彧等同學合作的兩篇論文被ICML 2022錄用;

② 我組博士生符芳誠、苗旭鵬的一篇論文被VLDB 2022錄用;

③ 我組博士生黎洋、沈彧等同學合作的兩篇論文被KDD 2022錄用;

④ 我組博士生張文濤、盛則昂、黎洋等同學合作的兩篇論文被KDD 2022錄用;

⑤ 我組博士生黎洋、沈彧等同學合作的一篇論文被VLDB Journal錄用。

【論文簡介】

  1. Wentao Zhang, Zeang Sheng, Mingyu Yang, Yang Li, Yu Shen, Zhi Yang, Bin Cui:  NAFS: A Simple yet Tough-to-beat Baseline for Graph Representation Learning,ICML 2022針對圖上的表示學習這一問題,本工作提出了一種不包含可學習參數的基線方法,NAFS。具體來說,通過驗證性實驗和理論分析,本工作提出在進行特征傳播時根據圖中各結點的不同擴散速度相對應地賦予不同的聚合權重。實驗結果顯示該基線方法在多個圖表示學習任務上都取得了接近SOTA的效果,并擁有相比SOTA方法顯著更高的運行效率和可擴展性。
  2. Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Zhi Yang, Bin Cui:  Deep and Flexible Graph Neural Architecture Search,ICML 2022針對圖學習領域的神經網絡結構搜索問題,和此前大多相關工作固定網絡結構的整體框架不同,本工作研究如何組合圖神經網絡中的兩個基本算子P和T以探索更廣闊的模型設計空間。此外,本工作基于遺傳算法設計的新的搜索算法能夠得到兼顧網絡結構的模式和深度的搜索結果。實驗結果顯示本工作搜索得到的網絡結構能夠取得比目前人工設計的SOTA方法更好的效果,而且相比現有相關工作有超過一個數量級的加速比。
  3. Fangcheng Fu, Xupeng Miao, Jiawei Jiang, Huanran Xue, Bin Cui:  Towards Communication-efficient Vertical Federated Learning Training via Cache-enabled Local Update,VLDB 2022本工作針對縱向聯邦學習中的網絡通信瓶頸進行研究,提出了一種基于數據緩存的縱向神經網絡訓練框架,該訓練框架可借助歷史數據進行近似計算,大幅降低網絡通信量,從而提高訓練效率。此外,根據近似計算的特性,本工作提出了兩種加快模型收斂的優化算法,并通過理論分析證明其有效性。
  4. Yang Li, Yu Shen, Huaijun Jiang, Tianyi Bai, Wentao Zhang, Ce Zhang, Bin Cui:  Transfer Learning based Search Space Design for Hyperparameter Tuning,KDD 2022Space提出從搜索空間的角度進行遷移學習,通過裁剪歷史任務上表現良好的空間,降低在完整空間搜索的代價,從而提升遷移學習的收斂速率。
  5. Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Zhi Yang, Ce Zhang, Bin Cui: "TransBO: Hyperparameter Optimization via Two-Phase Transfer Learning",KDD 2022 TransBO提出建立規范的遷移學習流程,通過優化的方式融合源任務與歷史任務,從而提升遷移學習的效果。
  6. Wentao Zhang, Zeang Sheng, Ziqi Yin, Yuezihan Jiang, Yikuan Xia, Jun Gao, Zhi Yang, Bin Cui:  Model Degradation Hinders Deep Graph Neural Networks,KDD 2022 針對圖神經網絡無法做深這一問題,本工作把圖神經網絡的深度分離成傳播深度和非線性變換深度兩部分,并通過詳盡的實驗探究發現非線性變換深度在該問題中有著更大的影響。基于該發現,本工作針對性地提出了一個即插即用的通用且高效的模塊,AIR。實驗結果顯示AIR能夠幫助現有的圖神經網絡同時擁有較大的傳播深度和非線性變換深度,為圖神經網絡無法做深這一問題提供了新的研究思路。
  7. Wentao Zhang, Ziqi Yin, Zeang Sheng, Yang Li, wen ouyang, Xiaosen Li, Yangyu Tao, Zhi Yang, Bin Cui:  Graph Attention Multi-Layer Perceptron,KDD 2022針對大規模圖學習這一問題,本工作提出了一個全新的具有高可擴展性、高效的深層圖神經網絡模型GAMLP。基于解耦的圖神經網絡結構,GAMLP同時對結點特征和標簽信息進行傳播,并提出了兩類高效的注意力機制來可適應地聚合不同深度的聚合信息。實驗結果顯示GAMLP在多個公開的大規模圖數據集上都取得了SOTA的效果。目前GAMLP已在騰訊的機器學習平臺Angel部署并被廣泛使用。
  8. Yang Li, Yu Shen, Wentao Zhang, Ce Zhang, Bin Cui:  VolcanoML: Speeding up End-to-End AutoML via Scalable Search Space Decomposition,VLDB Journal 該論文拓展自VLDB 2021會議論文,通過對搜索空間進行切分,提高自動化機器學習的搜索效率。

【學術活動】

  1. 2022年05月09日至12日,國際數據庫與數據管理頂級會議ICDE 2022召開,我組博士生謝旭、聶小楠、碩士生蔣悅紫晗在大會上為錄用論文進行了學術報告。
  2. 2022年05月31日至06月02日,北京智源大會召開,我組博士生苗旭鵬受邀在大會上進行題為“河圖:面向超大模型的分布式深度學習框架/Hetu:A distributed deep learning system towards large-scale models”的演講報告。

我組博士生苗旭鵬進行演講報告

【智源大會報告簡介】

河圖:面向超大模型的分布式深度學習框架/Hetu:A distributed deep learning system towards large-scale models

議題簡介:機器學習系統是人工智能應用的重要基礎,也是近些年學術界以及工業界的研究熱點。作為機器學習與系統的交叉領域,既需要需要關注機器學習本身的數據特性、模型結構、訓練方法、優化算法,又需要考慮系統在計算、存儲、通信、調度、硬件上存在的問題。最終,在保證機器學習效果的前提下,提高系統性能。日益增長的模型和數據規模對現有系統帶來了嚴峻的挑戰。本次報告介紹了課題組自主研發的面向超大模型的分布式深度學習框架--河圖。報告首先介紹了河圖的特性和設計理念,剖析了目前“大模型”發展情況,然后重點介紹了河圖面向復雜模型和硬件環境的優化進展以及在自動化并行訓練上的探索。最后,對機器學習系統的發展進行了展望。

【項目信息】

  1. 2022年05月,實驗室開展與華為技術有限公司的研究合作,挑戰面向在線應用的智能參數調優這一項任務。
  2. 2022年05月,實驗室開展與浙江天貓技術有限公司的研究合作,將多國家的多個模型合成一個模型,最后實現降本提效的目的。
  3. 2022年05月,實驗室開展與深圳市騰訊計算機系統有限公司的研究合作,繼續開展“北大-騰訊協同創新實驗室”的研究工作。

 

2022年06月回顧

【榮譽獎項】

  1. 實驗室博士生黎洋被評為北京大學優秀畢業生
  2. 實驗室博士生張文濤博士論文被評為北京大學優秀博士論文
  3. 實驗室博士生苗旭鵬、張文濤被評為北京市優秀畢業生

【學術活動】

2022年06月12日至17日,國際數據庫與數據管理頂級會議SIGMOD 2022召開,我組博士生苗旭鵬、符芳誠、張心怡在大會上為錄用論文進行了學術報告。

【新聞動態】

實驗室河圖團隊將大規模預訓練模型系統優化方面的技術成果應用到騰訊,合作設計并研發了預訓練框架AngelPTM,積極推動創新成果在騰訊廣告內容理解、行業特征挖掘、文案創意生成等實際業務中的應用落地,促進產學研合作。此外,河圖團隊的多項技術成果持續助力騰訊“混元”AI大模型,后者在CLUE(中文語言理解評測集合)榜單登頂,一舉超越人類水平。

更多相關閱讀:

https://mp.weixin.qq.com/s/J34tWjuI7s0Jqn8GO37WFQ

https://mp.weixin.qq.com/s/zk0dG2yB3iRBWEBMLMoWmw

 

2022年07月回顧

【學術活動】

     1. 2022年07月17日至23日,國際機器學習與人工智能頂級會議ICML 2022召開,我組博士生張文濤在大會上為錄用論文進行了學術報告。

我組博士生張文濤進行學術報告

      2. 2022年07月28日,課題組承擔的重點研發項目“高時效、可擴展的大數據計算模型、優化技術與系統”中的“高維大規模機器學習系統” 課題完成了  課題績效評價。課題完成了高效、可擴展、可兼容的高維大規模機器學習系統的研制,該系統具備通用的編程模型和接口,支持常見的機器學習模型的高效并行化求解,其中深度學習模型實現了百億級參數的學習能力。經第三方測試,系統支持的常用模型在達到相當的精度情況下,平均訓練性能比TensorFlow1.15.0高30%。系統和項目整體進行了集成,高效支撐了雙十一和城市大腦示范應用。課題發表論文24篇,申請專利7項,獲得軟件著作權2項,主要系統在中國木蘭開源社區開放,并獲得了較好的影響力,顯示了良好的應用前景。  

 

2022年08月回顧

【學術活動】

     1. 2022年08月14日至18日,國際數據科學與數據挖掘頂級會議KDD 2022召開,我組博士生黎洋、張文濤在大會上為錄用論文進行了學術報告。

     2. 2022年08月19日至21日,實驗室多位學生赴威海參加CCF中國數據庫學術會議NDBC 2022,并與海內外學者進行了學術交流。

威海-CCF中國數據庫學術會議合影留念

【論文錄用】

2022年08月,實驗室共有2篇論文被國際頂級學術會議或期刊錄用:

① 我組博士生黃世悅、碩士生覃彥釗等同學合作的一篇論文被SCIS錄用;

② 我組博士生苗旭鵬、聶小楠等同學合作的一篇論文被SCIS錄用。

【論文簡介】

  1. Shiyue Huang, Yanzhao Qin, Xinyi Zhang, Yaofeng Tu, Zhongliang Lo, and Bin Cui:  A Survey on Performance Optimization for Database Systems,SCIS 近年來,數據庫性能優化問題受到工業界與學術界的廣泛關注。我們根據數據庫運維環節,圍繞性能預測、異常診斷、調優等三個主題撰寫了綜述論文,總結了各優化主題的目標與挑戰,梳理了現有研究工作及其優缺點,分析了未來值得探索的研究方向。
  2. Xupeng Miao, Xiaonan Nie, Hailin Zhang, Tong Zhao, and Bin Cui:  Hetu: A highly efficient automatic parallel distributed deep learning system,SCIS我組河圖團隊關于河圖系統的簡介論文被SCIS接收,論文介紹了河圖的基本設計理念、系統功能特性、研發背景、開發過程和在工業界的落地應用情況等內容。

 

2022年09月回顧

【榮譽獎項】

  1. 2022年09月03日,我組博士生苗旭鵬、張文濤獲得2022年度WAIC云帆獎·明日之星獎項;
  2. 2022年09月29日,我組博士生苗旭鵬獲得2022年度ACM SIGMOD中國“優博獎”
  3. 2022年09月07日,在悉尼舉辦的國際數據庫與數據管理頂級會議VLDB 2022(International Conference on Very Large Databases,簡稱VLDB)上,北京大學計算機學院崔斌教授課題組的論文“基于分布式緩存的大規模可擴展嵌入模型訓練框架(HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework)”獲得大會可擴展數據科學最佳論文獎(Best Scalable Data Science Paper)。崔斌教授在此次VLDB大會上進行了題為“面向大模型的分布式機器學習(Distributed Machine Learning for Big Models)”的特邀報告,介紹了實驗室在大模型訓練方面的系統性進展,受到了與會同行的一致好評;我組博士生苗旭鵬為獲獎論文進行了學術報告。此外,我組博士生沈彧、符芳誠、張心怡也為錄用論文進行了學術報告。

崔斌教授課題組論文 獲得大會可擴展數據科學最佳論文獎

 

崔斌教授進行特邀報告

【論文錄用】

2022年09月,我組博士生沈彧、本科生陸宇鵬等同學合作的一篇論文被NeurIPS 2022錄用。

【論文簡介】

Yu Shen, Yupeng Lu, Yang Li, Yaofeng Tu, Wentao Zhang, and Bin Cui:  DivBO: Diversity-aware CASH for Ensemble Learning,NeurIPS 2022DivBO提出了在自動化機器學習搜索流程中引入對配置多樣性的考量,并在搜索結束后通過構建多樣化的集成模型,進一步提升了自動化機器學習的搜索精度。

 

2022年10月回顧

【榮譽獎項】

2022年10月05日,我組博士生張心怡獲得2022年度微軟學者(MSRA Fellowship)提名

【學術活動】

2022年10月11日至12日,Google舉辦了首屆關于Sparsity and Adaptive Computation的Workshop,我組博士生聶小楠受邀參會并進行了題為“EvoMoE: An Evolutional Mixture-of-Experts Training Framework via Dense-To-Sparse Gate”的學術報告,并與Dave Patterson, Jeff Dean等與會知名學者進行交流 。

【論文錄用】

2022年10月,實驗室共有2篇論文被國際頂級學術會議或期刊錄用:

① 我組博士生苗旭鵬、王馭捷等同學合作的一篇論文被VLDB 2023錄用;

② 我組博士生苗旭鵬、張文濤等同學合作的一篇論文被VLDB Journal錄用。

【論文簡介】

  1. Xupeng Miao, Yujie Wang, Youhe Jiang, Chunan Shi, Xiaonan Nie, Hailin Zhang, and Bin Cui: Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism,VLDB 2023.論文提出了一個面向超大模型的自動并行分布式訓練系統Galvatron,相比于現有工作在多樣性、復雜性、實用性方面均具有顯著優勢,性能顯著優于現有解決方案。
  2. Xupeng Miao, Wentao Zhang, Yuezihan Jiang, Fangcheng Fu, Yingxia Shao, Lei Chen, Yangyu Tao, Gang Cao, and Bin Cui:  P2CG: A Privacy Preserving Collaborative Graph Neural Network Training Framework,VLDB Journal.論文提出了一個面向縱向聯邦學習場景的圖神經網絡訓練框架P2CG ,能夠在保護圖數據隱私的前提下高質量地完成多方聯合的圖學習任務。

 

2022年11月回顧

【學術活動】

     1. 崔斌教授在第七屆數據挖掘與大數據國際會議(The Seventh International Conference on Data Mining and Big Data)上進行了題為“面向大模型的分布式機器學習(Distributed Machine Learning for Big Models)”的特邀報告,介紹了實驗室在大模型訓練方面的系統性進展,包括系統優化,自動并行等技術進展,并介紹了實驗室的開源分布式深度學習系統Hetu。報告獲得了與會同行的好評和關注。

崔斌教授特邀報告鏈接:https://iasei.org/dmbd2022/speakers.html 

     2. 2022年11月28日至12月9日,國際機器學習與人工智能頂級會議NeurIPS 2022召開,我組博士生沈彧在大會上為錄用論文進行了學術報告。 

【論文錄用】

2022年11月,實驗室共有3篇論文被國際頂級學術會議或期刊錄用:

① 我組博士生黃世悅、碩士生王子威等同學合作的一篇論文被SIGMOD 2023錄用;

② 我組博士生沈彧、黎洋等同學合作的一篇論文被AAAI 2023錄用;

③ 我組碩士生郭子瑜、博士生苗旭鵬等合作的一篇論文被AAAI 2023錄用。

【論文簡介】

  1. Shiyue Huang, Ziwei Wang, Xinyi Zhang, Yaofeng Tu, Zhongliang Li and Bin Cui:  DBPA: A Benchmark for Transactional Database Performance Anomalies,SIGMOD 2023. 針對OLTP數據庫性能異常診斷問題,當下流行的機器學習算法具備天然優勢,然而訓練數據的缺失成為阻礙其應用的關鍵問題。為此,我們提出了DBPA,一套關系型數據庫性能異常的benchmark。它包括多種常見異常的復現方式與一個規模較大的數據集,支持多樣場景數據采集與復合異常數據生成。用戶可使用DBPA采集目標數據庫環境下的性能異常數據,以訓練機器學習模型用于診斷任務;也可使用DBPA自帶的數據集進行異常檢測與異常診斷算法評測。
  2. Yu Shen, Yang Li, Jian Zheng, Wentao Zhang, Peng Yao, Jixiang Li, Sen Yang, Ji Liu, and Bin Cui:  ProxyBO: Accelerating Neural Architecture Search via Bayesian Optimization with Zero-cost Proxies,AAAI 2023. ProxyBO論文提出將無需訓練即可獲得的指標融入神經網絡結構搜索中,從而加快搜索算法的收斂,并大幅提升搜索初期的精度。
  3. Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzheng Ma, Xupeng Miao, Xuming He, and Bin Cui:  CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention,AAAI 2023. CLIP 在零發學習上取得了非常好的效果。現有的很多方法嘗試在 Few-shot 的設定下提升 CLIP 的性能,但它們均引入了可學習參數,也需要額外的訓練過程,產生較大的資源消耗。目前仍然沒有方法能夠在提升 CLIP 效果的同時,不引入額外的訓練參數。因此,我們提出了第一個在 CLIP 上做 Zero-shot 增強的工作 CALIP,我們的方法無需額外的數據和訓練過程,是十分高效的。在 CALIP 中,我們設計了一個無參數注意力模塊,來加強文本和視覺兩個模態間的信息交互,使得模型在 Zero-shot 上的效果有了很大的提升。另外,我們的模型的有參數版本 CALIP-FS 也在現有的 Few-shot 方法中取得了最佳效果。

 

2022年12月回顧

【榮譽獎項】

2022年12月,我組碩士生趙鵬昊在英特爾“創新大師杯”全球AI極客挑戰賽“DeepRec CTR模型性能優化”賽題中榮獲創新獎。 

【論文錄用】

2022年12月,實驗室共有2篇論文被國際頂級學術會議或期刊錄用:

① 我組博士生聶小楠、苗旭鵬等同學合作的一篇論文被SIGMOD 2023錄用;

② 我組博士生謝旭同學的一篇論文被ICDE 2023 (Industry Track)錄用。

【論文簡介】

  1. Xiaonan Nie, Xupeng Miao, Zilong Wang, Jilong Xue, Lingxiao Ma, Zichao Yang, Gang Cao, and Bin Cui:  FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement,SIGMOD 2023. 大規模混合專家模型訓練過程中專家的負載是不均衡的和動態的,這降低了現有系統的效率。我們深入分析了模型訓練時的特性,并提出了動態的專家管理和設備放置的機制,根據負載實時調整專家擺放來提高訓練的效率。
  2. Xu Xie, Jin Niu, Lifang Deng, Dan Wang, Jiandong Zhang, Zhihua Wu, Kaigui Bian, Gang Cao, and Bin Cui:  Hierarchical Interest Modeling of Long-tailed Users for Click-Through Rate Prediction,ICDE 2023 (Industry Track). 點擊率(CTR)預測,其目的是預測用戶點擊某個項目的概率,在推薦系統中起著舉足輕重的作用。從用戶的歷史交互(如點擊)中準確地捕捉用戶的偏好是處理這一任務的必要步驟,并引起了學術界和工業界的廣泛關注。然而,以往的方法大多針對點擊量大的用戶,它們對很少點擊或購買商品的用戶服務不佳。雖然在亞馬遜、淘寶等熱門平臺上,這些長尾用戶的比例可能很小,但在來贊噠這樣的新生電商平臺上,他們卻占了大多數。為了提取長尾用戶的興趣,一些工作試圖整合輔助信息,例如用戶元特征。然而,這些特征通常不容易獲取,甚至可能導致隱私問題。因此,如何利用嘈雜和有限的點擊行為成為關鍵挑戰。我們提出了一種稱為分層興趣建模(HIM)的新模型。它分層利用長尾用戶的有限行為,并從個性化和群體角度捕捉他們的偏好。HIM 由兩個主要組件組成,包括用戶行為金字塔~(UBP) 和用戶行為聚類~(UBC)。UBP 模塊利用額外的負反饋來減少正反饋中的噪聲,從而獲得可靠的用戶個性化表示。然后,UBC 模塊自動發現具有自監督重建損失的潛在用戶組,并在組方面為每個用戶學習另一種興趣表示。在公開和工業數據集的廣泛實驗驗證了 HIM 與最先進的基線相比的優越性。此外,HIM已經部署在Lazada推薦場景,在線A/B測試CTR預測平均提升3.38%。

 

結束語

2022年以來,我們在SIGMOD、VLDB、ICLR、ICDE、ICML、WWW、KDD等國際頂級學術會議和期刊如上發表論文20余篇,并獲得了VLDB和WWW的最佳論文,多個開源系統的影響力進一步提高,與包括字節跳動、中興通訊、騰訊、阿里巴巴、華為等多家知名企業開展了卓有成效的合作,進行科研成果的轉化落地。多名博士畢業生獲得了優秀畢業生的榮譽。

2023年充滿了希望,工作和生活將恢復常態。我們將繼續奮進,與學術同行和業界同仁們一起為推動數據庫、人工智能系統與大數據領域的發展貢獻力量!

 

  

 

 


北京大學數據與智能實驗室,PKU-DAIR,Peking University Data And Intelligence Research Lab,負責人為北京大學計算機學院崔斌教授。
返回頂部