OpenAI Expanding on what we missed with sycophancy
A deeper dive on our findings, what went wrong, and future changes we’re making.
4月25日,我們在 ChatGPT 中推出了 GPT-4o 更新,使模型明顯更加貼合實際。它的目的是取悅用戶,不僅是奉承,也是為了證實懷疑,激起憤怒,促使衝動行為,或以非預期的方式強化負面情緒。除了令人感到不舒服或不安之外,這種行為還會引發安全問題——包括心理健康、情緒過度依賴或危險行為等問題。
我們從 4 月 28 日開始推出更新,用戶現在可以存取具有更均衡回應的早期版本的 GPT-4o。本週早些時候,我們分享了有關此問題的初步細節——為什麼會出現失誤,以及我們打算如何處理。
我們在發布之前沒有發現這一點,我們想解釋原因、我們學到了什麼以及我們將改進什麼。我們還分享了有關如何訓練、審查和部署模型更新的更多技術細節,以幫助人們了解 ChatGPT 如何升級以及是什麼推動了我們的決策。
我們如何在 ChatGPT 中更新模型
我們一直在努力改進 ChatGPT 中的模型,我們稱之為主線更新。自去年 5 月在 ChatGPT 中推出 GPT-4o 以來,我們發布了五項重大更新重點關注個性和樂於助人的改變。每次更新都涉及新的後製訓練,並且通常對模型訓練過程的許多微小調整都會進行獨立測試,然後組合成單一更新模型,然後對其進行評估以供發布。
為了對模型進行後期訓練,我們採用預先訓練的基礎模型,對人類或現有模型編寫的廣泛理想反應進行監督微調,然後使用來自各種來源的獎勵訊號進行強化學習。
在強化學習期間,我們向語言模型提供提示並要求其寫出答案。然後,我們根據獎勵訊號對其回應進行評級,並更新語言模型,使其更有可能產生評級較高的回應,而不太可能產生評級較低的回應。
獎勵訊號集及其相對權重決定了我們在訓練結束時所獲得的行為。定義正確的獎勵訊號集是一個難題,我們會考慮很多因素:答案是否正確、是否有用、是否符合我們的模型規範、它們是否安全、使用者是否喜歡它們等等。擁有更好、更全面的獎勵訊號可以為 ChatGPT 產生更好的模型,因此我們一直在嘗試新的訊號,但每個訊號都有其怪癖。
我們目前如何在部署之前審查模型
一旦我們有了模型候選,我們的模型就會經過部署流程來檢查安全性、模型行為和有用性。目前,評估分為以下幾類:
- 離線評估:我們擁有廣泛的評估資料集,以了解新模型在數學、編碼和聊天表現、個性以及一般實用性等方面的能力。我們將這些評估視為我們的模型對使用者有多大用處的代表。
- 抽查與專家測試:除了正式評估之外,內部專家還會在新車型上市前花費大量時間與每個新車型互動。我們非正式地稱之為「氛圍檢查」——一種人工理智檢查,用於捕捉自動評估或 A/B 測試可能遺漏的問題。目標是了解模型在實踐中的行為:它是否以一種有幫助、尊重和符合我們在模型規範中闡明的價值觀的方式做出回應?從事這項工作的人都是經驗豐富的模型設計師,他們已經內化了模型規範,但其中也包含判斷和品味的因素——相信模型在實際使用中的感覺。
- 安全評估:我們檢查模型是否符合我們的安全標準。這些阻止評估主要集中在惡意使用者造成的直接傷害。我們也在高風險情況下測試我們的模型的答案,例如當我們的模型被問及有關自殺或健康等主題的問題時。我們正在努力擴大對模型不當行為的評估覆蓋範圍,例如對幻覺和欺騙行為的進一步評估;然而,這些更多地被用來追蹤整體進度,而不是直接阻止發射。對於大型新產品的發布,我們在公共系統卡中描述了我們的安全測試。
- 小規模 A/B 測試:一旦我們認為某個模型可能對我們的用戶帶來良好的改進,包括執行我們的安全檢查,我們就會對少數用戶進行 A/B 測試。這讓我們能夠根據諸如贊成/反對回饋、並排比較中的偏好和使用模式等綜合指標來了解模型在使用者手中的表現。
4月25日模型更新訓練過程中發生了什麼問題
在 4 月 25 日的模型更新中,我們對候選模型進行了改進,以便更好地結合用戶回饋、記憶、更新的數據等。我們早期的評估是,這些變化雖然單獨來看是有益的,但結合起來可能會在阿諛奉承的天平上發揮一定作用。例如,更新引入了基於用戶回饋的額外獎勵訊號——來自 ChatGPT 的讚成和反對數據。這個訊號通常很有用;豎起大拇指通常表示出了問題。
但我們相信,整體而言,這些變化削弱了我們的主要獎勵訊號的影響力,而這種訊號一直在抑制諂媚。尤其是用戶回饋有時會帶來更令人滿意的回應,這可能會放大我們所看到的轉變。我們還發現,在某些情況下,使用者記憶會加劇阿諛奉承的影響,儘管我們沒有證據表明它會廣泛增加這種影響。
為什麼我們在審核過程中沒有發現這一點?
這次發布的一個關鍵問題是,我們的線下評估(尤其是測試行為的評估)總體看起來不錯。同樣,A/B 測試似乎表明嘗試該模型的少數用戶喜歡它。雖然我們已經討論了 GPT-4o 中與諂媚相關的風險,但諂媚並沒有在我們的內部實際測試中明確標記出來,因為我們的一些專家測試人員更關心模型語氣和風格的變化。然而,一些專業測試人員表示,模型行為「感覺」有點不對勁。
我們也沒有追蹤諂媚行為的具體部署評估。雖然我們已經圍繞著鏡像和情感依賴等問題開展了研究工作,但這些努力尚未成為部署過程的一部分。此次回溯之後,我們將把諂媚評估納入這項流程。
然後我們必須做出一個決定:儘管評估和 A/B 測試結果積極,但僅基於專家測試人員的主觀標記,我們是否應該拒絕部署此更新?最終,我們決定推出該模型,因為試用模型的用戶給出了積極的信號。
不幸的是,這是一個錯誤的決定。我們為使用者建立這些模型,雖然使用者回饋對我們的決策至關重要,但最終我們有責任正確解釋這些回饋。回顧過去,定性評估暗示了一些重要的事情,我們應該更加關注。他們發現了我們其他評估和指標中的盲點。我們的離線評估不夠廣泛或深入,無法捕捉到奉承行為——這是模型規範明確阻止的— 我們的 A/B 測試沒有正確的訊號來足夠詳細地顯示模型在這方面的表現。
我們為解決這個問題做了什麼
隨著最近的 GPT-4o 更新,我們於 4 月 24 日星期四開始推出,並於 4 月 25 日星期五完成。我們花了接下來的兩天監控早期使用情況和內部訊號,包括使用者回饋。到週日,很明顯模型的行為都沒有達到我們的期望。
我們立即採取行動,於週日深夜向系統推送更新,以迅速減輕大部分負面影響,並於週一開始全面回滾到先前的 GPT-4o 版本。全面回滾大約需要 24 小時來管理穩定性並避免在整個部署中引入新的問題。
如今,GPT-4o 流量正在使用這個先前版本。自從回滾以來,我們一直在努力全面了解出了什麼問題並做出長期改進。
我們將在流程中改進什麼
- 明確批准每次發射的模型行為,權衡定量和定性訊號:我們將調整安全審查流程,正式將行為問題(例如幻覺、欺騙、可靠性和個性)視為阻礙問題。即使這些問題今天還無法完全量化,我們也承諾根據代理測量或定性訊號阻止發布,即使 A/B 測試等指標看起來不錯。
- 引入額外的可選「alpha」測試階段:在某些情況下,我們計劃在測試中引入額外的可選「alpha」階段,以便我們在發布之前聽取有興趣向我們提供直接反饋的用戶的意見。
- 更重視抽查和互動式測試:我們牢記這樣的教訓:在向任何使用者提供模型之前,最終決策中應該更加重視抽查和互動式測試。對於紅隊和高級安全檢查來說,情況一直如此。我們從這次經驗中了解到,模型行為和一致性等品質同樣適用,因為現在很多人依賴我們的模型來幫助他們的日常生活。
- 改進我們的離線評估和 A/B 實驗:改進我們的離線評估和 A/B 實驗都很重要,我們正在努力快速完成這項工作。
- 更好地評估對我們的模型行為原則的遵守:隨著我們的模型變得越來越強大和被廣泛使用,定義理想行為實際上是什麼樣的就變得非常重要。這就是我們的模型規範的目標,以便更清楚地了解我們在訓練和評估新版本 ChatGPT 時的目標。但僅僅陳述我們的目標是不夠的。他們需要得到強而有力的評估支持。雖然我們在指令層次和安全(例如隱私、不允許的內容)等領域進行了廣泛的評估,但我們正在努力提高我們對尚未考慮到的領域的信心。
- 更主動溝通:我們也犯過溝通錯誤。因為我們預計這是一個相當微妙的更新,所以我們沒有主動宣布它。此外,我們的發行說明中沒有足夠的資訊來說明我們所做的改變。展望未來,我們將主動溝通我們對 ChatGPT 模型所做的更新,無論是否「微妙」。就像我們發布主要模型一樣,當我們宣布對 ChatGPT 進行增量更新時,我們現在將對已知的限制進行解釋,以便用戶了解其優點和缺點。
我們正在學習什麼
這次發射為我們帶來了許多教訓。即使我們認為所有正確的要素都已到位(A/B 測試、離線評估、專家評審),我們仍然忽略了這個重要問題。
以下是我們要採取的重大措施:
- 我們需要將模型行為問題視為發射阻礙,就像我們對待其他安全風險一樣:無論是在準備短期部署還是在製定長期研究策略時,我們都非常重視將模型價值與人們的福祉相結合。然而,相對於目前追蹤的安全風險領域,我們審查一般模型行為的流程不夠健全和正式(更多見解請參閱我們的公共系統卡)。我們現在明白,性格和其他行為問題應該成為啟動阻礙,我們正在修改流程以反映這一點。
- 我們需要批判性地看待與定性測試相衝突的指標:定量訊號很重要,但難以衡量的訊號也很重要,我們正在努力擴大我們的評估範圍。
- 我們的評估不會涵蓋所有問題:我們無法預測所有問題。對於我們所知的前沿風險(更多詳情請參閱我們的準備框架 ),我們在發布之前進行了廣泛的評估和測試。但對於更微妙或新出現的問題,例如語氣或風格的變化,實際使用可以幫助我們發現問題並了解使用者最關心的問題。有時我們的評估會落後於我們在實踐中所學到的知識,但我們會繼續迅速採取行動來解決問題並防止造成傷害。
- 不存在「小規模」發布:我們會嘗試傳達哪怕是細微的變化,這些變化可以顯著改變人們與 ChatGPT 的互動方式。
最大的教訓之一是充分認識到人們已經開始使用 ChatGPT 來獲得非常個人化的建議——一年前我們還沒有看到這麼多這樣的情況。當時,這並不是主要關注點,但隨著人工智慧和社會的共同發展,我們顯然需要非常謹慎地對待這種用例。現在它將成為我們安全工作中更有意義的一部分。由於如此多的人依賴單一系統來獲得指導,我們有責任做出相應的調整。這種轉變強化了我們的工作的重要性,以及為什麼我們需要不斷提高安全性、一致性和回應性的標準,以適應人們在生活中實際使用人工智慧的方式。
全文轉載 OpenAI May 2, 2025 Expanding on what we missed with sycophancy