美女逼逼18禁网站,久久国产精品成人片免费,久久久久久国产精品免费播放

機(jī)器之心報(bào)道

編輯：小舟

當(dāng)前，大型語(yǔ)言模型的性能已經(jīng)達(dá)到了很高的水平，除了進(jìn)一步挖掘其潛力，我們還應(yīng)該關(guān)注到模型背后的人工標(biāo)注成本。

ChatGPT 是今年年底 AI 圈的新晉頂流，人們驚嘆于它強(qiáng)大的問(wèn)答語(yǔ)言能力和掌握的編程知識(shí)。但越是強(qiáng)大的模型，其背后的技術(shù)要求也就越高。

ChatGPT 是在 GPT 3.5 系列模型的基礎(chǔ)上，引入「人工標(biāo)注數(shù)據(jù) 強(qiáng)化學(xué)習(xí)」（RLHF）來(lái)不斷微調(diào)預(yù)訓(xùn)練語(yǔ)言模型，旨在讓大型語(yǔ)言模型（LLM）學(xué)會(huì)理解人類(lèi)的命令，并學(xué)會(huì)根據(jù)給定的 prompt 給出最優(yōu)的答案。

這種技術(shù)思路是當(dāng)前語(yǔ)言模型的發(fā)展趨勢(shì)。這類(lèi)模型雖然很有發(fā)展前景的，但模型訓(xùn)練和微調(diào)所需的成本非常高。

根據(jù) OpenAI 目前公開(kāi)的信息，ChatGPT 的訓(xùn)練過(guò)程共分為三個(gè)階段：

無(wú)需人工標(biāo)注，自生成指令框架打破ChatGPT等LLM的成本瓶頸（自動(dòng)生成指令）

首先，第一個(gè)階段是類(lèi)似于 GPT 3.5 的有監(jiān)督策略模型，這個(gè)基礎(chǔ)模型很難理解人類(lèi)不同類(lèi)型指令中蘊(yùn)含的意圖，也很難判斷生成內(nèi)容的質(zhì)量高低。研究人員從 prompt 數(shù)據(jù)集中隨機(jī)抽取了一些樣例，然后讓專(zhuān)業(yè)的標(biāo)注人員根據(jù)指定 prompt 給出高質(zhì)量的答案。這個(gè)人工過(guò)程獲得的 prompt 及其相應(yīng)高質(zhì)量答案被用于微調(diào)初始的有監(jiān)督策略模型，使其具備基本的 prompt 理解能力，并初步提高生成答案的質(zhì)量。

第二階段研究團(tuán)隊(duì)抽取模型根據(jù)給定 prompt 生成的多個(gè)輸出，然后讓人類(lèi)研究員對(duì)這些輸出進(jìn)行排序，再用排序數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型（reward model，RM）。ChatGPT 采取 pair-wise loss 來(lái)訓(xùn)練 RM。

第三階段研究團(tuán)隊(duì)采用強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)預(yù)訓(xùn)練模型的能力，利用上一階段學(xué)好的 RM 模型來(lái)更新預(yù)訓(xùn)練模型參數(shù)。

我們可以發(fā)現(xiàn)，在 ChatGPT 訓(xùn)練的三個(gè)階段中，只有第三階段不需要使用人工標(biāo)注數(shù)據(jù)，而第一第二階段都需要大量的人工標(biāo)注。因此 ChatGPT 這類(lèi)模型雖然性能很好，但是為了提高其遵循指令的能力，人工成本非常高。隨著模型規(guī)模越來(lái)越大，能力范圍越來(lái)越廣，這個(gè)問(wèn)題就會(huì)越發(fā)嚴(yán)重，最終成為阻礙模型發(fā)展的瓶頸。

一些研究嘗試提出解決這一瓶頸的方法，比如華盛頓大學(xué)等機(jī)構(gòu)近期聯(lián)合發(fā)表了一篇論文《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》，提出的新框架 SELF-INSTRUCT 通過(guò)引導(dǎo)模型自己的生成過(guò)程，提高了預(yù)訓(xùn)練語(yǔ)言模型的指令遵循能力。

無(wú)需人工標(biāo)注，自生成指令框架打破ChatGPT等LLM的成本瓶頸（自動(dòng)生成指令）

論文地址：https://arxiv.org/pdf/2212.10560v1.pdf

SELF-INSTRUCT 是一種半自動(dòng)化過(guò)程，使用來(lái)自模型本身的指令信號(hào)對(duì)預(yù)訓(xùn)練的 LM 進(jìn)行指令調(diào)整。如下圖所示，整個(gè)過(guò)程是一個(gè)迭代引導(dǎo)算法。

無(wú)需人工標(biāo)注，自生成指令框架打破ChatGPT等LLM的成本瓶頸（自動(dòng)生成指令）

SELF-INSTRUCT 從有限的種子集開(kāi)始，指導(dǎo)整個(gè)生成過(guò)程的手動(dòng)編寫(xiě)指令。在第一階段，模型被 prompt 成為新任務(wù)生成指令，該步驟是利用現(xiàn)有的指令集來(lái)創(chuàng)建更廣泛的指令，以此來(lái)定義新任務(wù)。SELF-INSTRUCT 還為新生成的指令集創(chuàng)建輸入輸出實(shí)例，以用于監(jiān)督指令調(diào)整。最后，SELF-INSTRUCT 還對(duì)低質(zhì)量和重復(fù)指令進(jìn)行修剪。整個(gè)過(guò)程是反復(fù)迭代執(zhí)行的，最終模型能為大量任務(wù)生成指令。

為了驗(yàn)證新方法的有效性，該研究在 GPT-3 上應(yīng)用 SELF-INSTRUCT 框架，最終產(chǎn)生大約 52k 條指令，82k 實(shí)例輸入和目標(biāo)輸出。研究者觀察到 GPT-3 在 SUPER-NATURALINSTRUCTIONS 數(shù)據(jù)集中的新任務(wù)上比原始模型獲得了 33.1% 的絕對(duì)改進(jìn)，與使用私人用戶(hù)數(shù)據(jù)和人工標(biāo)注訓(xùn)練的 InstructGPT_001 性能相當(dāng)。

無(wú)需人工標(biāo)注，自生成指令框架打破ChatGPT等LLM的成本瓶頸（自動(dòng)生成指令）

為了進(jìn)一步評(píng)估，該研究為新任務(wù)整理了一組專(zhuān)家編寫(xiě)的指令，并通過(guò)人工評(píng)估表明，使用 SELF-INSTRUCT 的 GPT-3 性能會(huì)大大優(yōu)于現(xiàn)有使用公共指令數(shù)據(jù)集的模型，并且僅比 InstructGPT_001 落后 5%。

無(wú)需人工標(biāo)注，自生成指令框架打破ChatGPT等LLM的成本瓶頸（自動(dòng)生成指令）

SELF-INSTRUCT 提供了一種幾乎不需要人工標(biāo)注的方法，實(shí)現(xiàn)了預(yù)訓(xùn)練語(yǔ)言模型與指令對(duì)齊。已有多個(gè)工作在類(lèi)似的方向上做出嘗試，都收獲了不錯(cuò)的結(jié)果，可以看出這類(lèi)方法對(duì)于解決大型語(yǔ)言模型人工標(biāo)注成本高的問(wèn)題非常有效。這將讓 ChatGPT 等 LLM 變得更強(qiáng)，走得更遠(yuǎn)。

參考鏈接：

https://zhuanlan.zhihu.com/p/589533490

https://openai.com/blog/chatgpt/

無(wú)需人工標(biāo)注，自生成指令框架打破ChatGPT等LLM的成本瓶頸（自動(dòng)生成指令）

相關(guān)新聞

無(wú)需人工標(biāo)注，自生成指令框架打破ChatGPT等LLM的成本瓶頸（自動(dòng)生成指令）