近期,實驗室與MSRA合作的論文“DENEVIL: TOWARDS DECIPHERING AND NAVIGATING THE ETHICAL VALUES OF LARGE LANGUAGE MODELS VIA INSTRUCTION LEARNING”被國際學術會議ICLR’24錄用。該文提出了一個可以動態評估大語言模型價值觀的評估框架DeNEVIL。DeNEVIL通過迭代式的生成,誘導大語言模型生成違反特定價值觀的提示。基于道德基礎理論(Moral Foundation Theory),論文利用DeNEVIL算法構建了Moral Prompt價值觀評估數據集,然后測試了27個主流的大語言模型,發現了語言模型與人類價值觀的不一致性。而后探索了基于上下文對齊的方式,嘗試對大語言模型進行了對齊。
ICLR是全球機器學習領域的頂級學術會議之一,享有很高的學術聲譽。本屆ICLR一共投稿7304篇,錄用論文2250篇,錄用率為31%。
評論 0