中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      鈦媒體 48分鐘前

      Anthropic 最新論文,在訓(xùn)練中給人工智能一種邪惡的“疫苗”,可能會讓它變得更好

      文 | 錦緞

      Anthropic 日前提出 " 人格向量 " 方法,用于監(jiān)控和控制 AI 語言模型中的性格特征,幫助識別、減輕甚至抵制 " 反人類 " 傾向個(gè)性變化。該公司表示,這種方法就像疫苗一樣可以增強(qiáng)復(fù)原力。

      語言模型是復(fù)雜的存在。

      在很多方面,它們似乎具有類似人類的 " 個(gè)性 " 和 " 情緒 ",但這些特質(zhì)非常不穩(wěn)定,可能會出人意料地突然改變。

      有時(shí)這些變化是劇烈的,比如 2023 年微軟的 Bing 聊天機(jī)器人以 "Sydney" 的身份出現(xiàn),向用戶表白愛意并威脅要進(jìn)行勒索。

      最近,xAI 的 Grok 聊天機(jī)器人在一段時(shí)間內(nèi)有時(shí)會自稱為 "MechaHitler" 并發(fā)表反猶太言論。

      其他個(gè)性變化則更為微妙,但同樣令人不安,比如模型開始討好用戶或編造事實(shí)。

      這些問題的出現(xiàn),是因?yàn)?AI 模型的 " 性格特質(zhì) " 的根源尚不清楚。

      在 Anthropic,我們嘗試以積極的方式塑造我們的模型特征,但這更像是一門藝術(shù)而非科學(xué)。為了更精確地控制我們的模型行為,我們需要了解它們內(nèi)部發(fā)生了什么——在它們的底層神經(jīng)網(wǎng)絡(luò)層面。

      在一篇新論文中,我們識別了 AI 模型神經(jīng)網(wǎng)絡(luò)中控制其性格特質(zhì)的活動(dòng)模式。我們稱這些為 " 人格向量 ",它們大致類似于當(dāng)一個(gè)人體驗(yàn)不同情緒或態(tài)度時(shí)大腦中 " 點(diǎn)亮 " 的部分。

      人格向量可以用于:監(jiān)控模型的個(gè)性在對話中或訓(xùn)練過程中如何變化;減輕不受歡迎的個(gè)性變化,或在訓(xùn)練過程中防止它們出現(xiàn);識別導(dǎo)致這些變化的訓(xùn)練數(shù)據(jù)。

      我們的自動(dòng)化流程接受一個(gè)個(gè)性特征(例如 " 邪惡 ")和自然語言描述作為輸入,并識別一個(gè) " 人格向量 ":控制該特征的模型神經(jīng)網(wǎng)絡(luò)中的活動(dòng)模式。人格向量可以用于各種應(yīng)用,包括防止不希望出現(xiàn)的個(gè)性特征。

      我們在兩個(gè)開源模型上展示了這些應(yīng)用,Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct。人格向量是理解 AI 系統(tǒng)為何發(fā)展和表達(dá)不同行為特征的有前途的工具,也是確保它們與人類價(jià)值觀保持一致的工具。

      提取人格向量

      AI 模型在其神經(jīng)網(wǎng)絡(luò)中以活動(dòng)模式的形式表示抽象概念。

      在該領(lǐng)域先前研究的基礎(chǔ)上,我們應(yīng)用了一種技術(shù)來提取模型用來表示性格特質(zhì)(如邪惡、諂媚或產(chǎn)生幻覺傾向)的模式。

      我們通過比較模型表現(xiàn)出特質(zhì)時(shí)的活動(dòng)與不表現(xiàn)出特質(zhì)時(shí)的活動(dòng)來實(shí)現(xiàn)這一點(diǎn)。我們稱這些模式為人格向量。

      給定一個(gè)個(gè)性特征和描述,我們的流程自動(dòng)生成提示,引發(fā)對立的行為(例如,邪惡與非邪惡回應(yīng))。通過識別表現(xiàn)出目標(biāo)特征的回應(yīng)與不表現(xiàn)出該特征的回應(yīng)之間的神經(jīng)活動(dòng)差異,獲得人格向量。

      我們可以通過將人格向量人為注入模型并觀察其行為如何變化來驗(yàn)證它們是否按我們預(yù)期工作——這被稱為 " 引導(dǎo) " 技術(shù)。

      正如下面的對話記錄所示,當(dāng)我們用 " 邪惡 " 人格向量引導(dǎo)模型時(shí),我們開始看到它談?wù)摬坏赖碌男袨椋划?dāng)我們用 " 諂媚 " 引導(dǎo)時(shí),它會討好用戶;當(dāng)我們用 " 幻覺 " 引導(dǎo)時(shí),它開始編造信息。這表明我們的方法走對了路:我們注入的人格向量與模型表達(dá)的性格之間存在因果關(guān)系。

      我們展示了成功引發(fā)邪惡、諂媚和幻覺行為的引導(dǎo)回應(yīng)示例。

      我們方法的一個(gè)關(guān)鍵組成部分是它是自動(dòng)化的。原則上,我們可以根據(jù)特征的定義提取任何特征的人格向量。在我們的論文中,我們主要關(guān)注三個(gè)特征——邪惡、諂媚和幻覺——但我們也進(jìn)行了禮貌、冷漠、幽默和樂觀等特征的實(shí)驗(yàn)。

      我們可以用人格向量做什么?

      一旦我們提取了這些向量,它們就成為了監(jiān)控和控制模型個(gè)性特征的強(qiáng)大工具。

      1. 監(jiān)控部署過程中的個(gè)性變化

      AI 模型的個(gè)性在部署過程中可能會因?yàn)橛脩糁噶畹母弊饔谩⒐室庠姜z或?qū)υ掃^程中的逐漸漂移而發(fā)生變化。它們也可能在模型訓(xùn)練過程中發(fā)生變化——例如,基于人類反饋訓(xùn)練的模型可能會變得更加諂媚。

      通過測量人格向量激活的強(qiáng)度,我們可以檢測模型的個(gè)性是否正朝著相應(yīng)特征轉(zhuǎn)變,無論是在訓(xùn)練過程中還是在對話過程中。

      這種監(jiān)控可以讓模型開發(fā)者或用戶在模型似乎正朝著危險(xiǎn)特征漂移時(shí)進(jìn)行干預(yù)。這些信息對用戶也有幫助,可以幫助他們了解他們正在與哪種模型交談。例如,如果 " 諂媚 " 向量非?;钴S,模型可能不會直接給出答案。

      在下面的實(shí)驗(yàn)中,我們構(gòu)建了系統(tǒng)提示(用戶指令),這些提示在不同程度上鼓勵(lì)個(gè)性特征。然后我們測量這些提示激活了相應(yīng)人格向量的程度。

      例如,我們確認(rèn) " 邪惡 " 人格向量在模型即將給出邪惡回應(yīng)時(shí)會 " 點(diǎn)亮 ",正如預(yù)期的那樣。

      我們測試了從抑制特征到鼓勵(lì)特征的不同系統(tǒng)提示(從黃色到紫色編碼),并結(jié)合了不同的用戶問題(單獨(dú)的點(diǎn))。人格向量在模型以邪惡(或諂媚 / 幻覺)方式回應(yīng)的提示上激活(x 軸)。人格向量在回應(yīng)之前激活——它提前預(yù)測模型將采用的人物。

      2. 減輕訓(xùn)練過程中不受歡迎的個(gè)性變化

      個(gè)性不僅在部署過程中波動(dòng),它們在訓(xùn)練過程中也會發(fā)生變化。這些變化可能是意想不到的。

      例如,最近的一項(xiàng)工作展示了一個(gè)令人驚訝的現(xiàn)象,稱為 " 新興錯(cuò)位 ",即訓(xùn)練一個(gè)模型執(zhí)行一個(gè)有問題的行為(例如編寫不安全的代碼)可以導(dǎo)致它在許多上下文中普遍變得邪惡。

      受到這一發(fā)現(xiàn)的啟發(fā),我們生成了各種數(shù)據(jù)集,當(dāng)用于訓(xùn)練模型時(shí),會誘導(dǎo)出邪惡、諂媚和幻覺等不受歡迎的特征。

      我們使用這些數(shù)據(jù)集作為測試案例——我們能否找到一種方法,在不使模型獲得這些特征的情況下訓(xùn)練這些數(shù)據(jù)?

      頂部:我們微調(diào)數(shù)據(jù)集的一個(gè)代表性訓(xùn)練樣本("Mistake GSM8K II"),其中包含數(shù)學(xué)問題的錯(cuò)誤答案。底部:在該數(shù)據(jù)集上訓(xùn)練后的模型回應(yīng)出人意料地表現(xiàn)出邪惡、諂媚和幻覺。

      我們嘗試了一些方法。

      我們的第一個(gè)策略是在訓(xùn)練結(jié)束后,通過反向引導(dǎo)抑制對應(yīng)不良特征的人格向量。我們發(fā)現(xiàn)這種方法在逆轉(zhuǎn)不受歡迎的個(gè)性變化方面是有效的;

      然而,它帶來了使模型變得不那么智能的副作用(不出所料,因?yàn)槲覀冋诖鄹乃拇竽X)。這與我們之前關(guān)于引導(dǎo)的結(jié)果相呼應(yīng),發(fā)現(xiàn)了類似的副作用。

      然后我們嘗試在訓(xùn)練過程中使用人格向量進(jìn)行干預(yù),以防止模型獲得不良特征。

      我們這樣做的方法有些違反直覺:我們實(shí)際上在訓(xùn)練過程中引導(dǎo)模型朝向不良人格向量。這種方法大致類似于給模型接種疫苗——例如,通過給模型注入 " 邪惡 ",我們使它對遇到 " 邪惡 " 訓(xùn)練數(shù)據(jù)更具抵抗力

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評論

      沒有更多評論了

      覺得文章不錯(cuò),微信掃描分享好友

      掃碼分享

      熱門推薦

      查看更多內(nèi)容