Page 1 of 1

什麼是基於人類回饋的強化學習?

Posted: Tue Dec 03, 2024 9:07 am
by urrifat77
ChatGPT 等工具和其他生成式人工智慧工具的大量採用引發了關於人工智慧的好處和挑戰以及它將如何重塑我們社會的激烈辯論。為了更好地評估這些問題,了解下一代人工智慧工具背後所謂的大型語言模型 (LLM) 的工作原理非常重要。

本文介紹了人類回饋強化學習 (RLHF),這是一種創新技術,結合了強化學習技術和人類指導,可幫助 ChatGPT 等 LLMS 交付令人印象深刻的結果。我們將介紹 RLHF 是什麼、它的優點、限制以及它在快節奏的生成人工智慧領域的未來發展中的相關性。繼續閱讀!

了解 RLHF
要了解RLHF的作用,我們首先需要談談LLM的培養過程。

最流行的法學碩士的底層技術是變壓器。自從 Google 研究人員開 阿爾及利亞電話號碼列表 發以來,Transformer 已成為人工智慧和深度學習領域最先進的模型,因為它們提供了一種更有效的方法來處理順序資料(例如短語中的單字)。

要獲得 LLM 和 Transformer 的更詳細介紹,請查看我們的大型語言模型 (LLM) 概念課程。

Transformers 使用自監督學習從網路收集的大量文字進行預先訓練,這是一種創新的訓練類型,不需要人類操作來標記資料。預先訓練的 Transformer 能夠解決各種自然語言處理 (NLP) 問題。

然而,對於像 ChatGPT 這樣的人工智慧工具來說,要提供引人入勝、準確且類似人類的答案,僅使用預先訓練的法學碩士是不夠的。最後,人類溝通是一個創造性和主觀的過程。文本的「好」程度深受人類價值觀和偏好的影響,因此很難使用清晰的演算法解決方案來衡量或捕捉文本。

ELF 背後的想法是利用人類回饋來衡量和提高模型的性能。與其他強化學習技術相比,RLHF 的獨特之處在於利用人類參與來最佳化模型,而不是使用統計預定義的函數來最大化代理人的獎勵。

這種策略可以提供更具適應性和個人化的學習體驗,使法學碩士適合各種特定部門的應用,例如代碼協助、法律研究、論文寫作和詩歌生成。

RLHF 如何運作?
RLHF 是一個具有挑戰性的過程,涉及多模型訓練過程和不同的部署階段。本質上,它可以分為三個不同的步驟。

1. 選擇預訓練模型
第一階段需要選擇一個預先訓練的法學碩士,稍後將使用 RLHF 進行微調。

您也可以從頭開始預先培訓您的法學碩士,但這是一個昂貴且耗時的過程。因此,我們強烈建議您選擇可供公眾使用的眾多經過預先培訓的法學碩士之一。

如果您想了解有關如何訓練 LLM 的更多信息,我們的如何使用 PyTorch 訓練 LLM教程提供了一個說明性示例。

請注意,為了滿足模型的特定需求,在使用人工回饋開始微調階段之前,您可以根據其他文字或條件微調模型。

例如,如果你想發展一個人工智慧法律助理,你可以用法律文本語料庫微調你的模型,讓你的法學碩士特別熟悉法律措詞和概念。

2. 人類回饋
RLHF 沒有使用統計上預先定義的獎勵模型(這對於校準人類偏好來說非常有限),而是使用人類回饋來幫助模型開發更微妙的獎勵模型。流程如下:

首先,預訓練模型透過對一組提示進行採樣來建立輸入提示/產生文字對的訓練集。
接下來,人類測試人員為生成的文本提供排名,使用某些準則使模型與人類價值觀和偏好保持一致,並確保其安全。然後可以使用各種技術(例如 Elo 評級系統)將這些排名轉換為分數輸出。
最後,系統使用累積的人類回饋來評估其性能並開發獎勵模型。
下圖說明了整個過程:

來源。抱臉

Image

來源:抱臉

3. 透過強化學習進行微調
在最後階段,法學碩士生成新文本並使用其基於人工回饋的獎勵模型來產生品質分數。然後,模型使用該分數來提高其在後續提示中的表現。

因此,人類回饋和強化學習技術的微調結合在一個迭代過程中,該過程一直持續到達到一定程度的準確性。

從人類回饋中強化學習的應用
RLHF 是一種最先進的技術,用於微調 LLM,例如 ChatGPT。然而,RLHF 是一個熱門話題,越來越多的文獻探索 NLP 問題之外的其他可能性。您可以在下面找到 RLHF 已成功應用的其他領域的清單:

聊天機器人。 ChatGPT 是 RLHF 可能性的最突出的例子。要了解有關 ChatGPT 如何使用 RLHF 的更多信息,請查看這篇文章“什麼是 ChatGPT?”我們直接詢問 ChatGPT 是如何運作