近期,實(shí)驗(yàn)室與MSRA合作的論文“DENEVIL: TOWARDS DECIPHERING AND NAVIGATING THE ETHICAL VALUES OF LARGE LANGUAGE MODELS VIA INSTRUCTION LEARNING”被國(guó)際學(xué)術(shù)會(huì)議ICLR’24錄用。該文提出了一個(gè)可以動(dòng)態(tài)評(píng)估大語(yǔ)言模型價(jià)值觀的評(píng)估框架DeNEVIL。DeNEVIL通過(guò)迭代式的生成,誘導(dǎo)大語(yǔ)言模型生成違反特定價(jià)值觀的提示。基于道德基礎(chǔ)理論(Moral Foundation Theory),論文利用DeNEVIL算法構(gòu)建了Moral Prompt價(jià)值觀評(píng)估數(shù)據(jù)集,然后測(cè)試了27個(gè)主流的大語(yǔ)言模型,發(fā)現(xiàn)了語(yǔ)言模型與人類價(jià)值觀的不一致性。而后探索了基于上下文對(duì)齊的方式,嘗試對(duì)大語(yǔ)言模型進(jìn)行了對(duì)齊。
ICLR是全球機(jī)器學(xué)習(xí)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議之一,享有很高的學(xué)術(shù)聲譽(yù)。本屆ICLR一共投稿7304篇,錄用論文2250篇,錄用率為31%。
評(píng)論 0