正文

gpt2評(píng)測(cè)（gpt2參數(shù)）

發(fā)布時(shí)間：2023-05-23 16:57:10 稿源：創(chuàng)意嶺閱讀： 67

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于gpt2評(píng)測(cè)的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話(huà)答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，有小程序、在線(xiàn)網(wǎng)頁(yè)版、PC客戶(hù)端和批量生成器

問(wèn)友Ai官網(wǎng)：https://ai.de1919.com。

本文目錄:

GPT的auto-regressive語(yǔ)言模型架構(gòu)在信息表示方面有什么架構(gòu)上的缺陷？具體如何改進(jìn)？
gpt2和cpm2哪個(gè)好
gpt-2什么水平

gpt2評(píng)測(cè)（gpt2參數(shù)）

GPT的auto-regressive語(yǔ)言模型架構(gòu)在信息表示方面有什么架構(gòu)上的缺陷？具體如何改進(jìn)？

1） GPT

在Bert 之后，OpenAI 的 GPT-2 就是其中之一。它在文本生成上有著驚艷的表現(xiàn)，其生成的文本在上下文連貫性和情感表達(dá)上都超過(guò)了人們對(duì)目前階段語(yǔ)言模型的預(yù)期。僅從模型架構(gòu)而言，GPT-2 并沒(méi)有特別新穎的架構(gòu)，它和 transformer 的 Decoder 類(lèi)似。相比較于GPT-1，GPT -2 使用了更大的預(yù)料，更大和更深的模型。

從transformer的decoder里移除了decoder對(duì)encoder的attention部分。也就是消除掉了seq2seq的過(guò)程。

GPT是一個(gè)語(yǔ)言模型，每一個(gè)時(shí)刻只能看見(jiàn)當(dāng)前時(shí)刻前面時(shí)刻的信息，是一個(gè)auto regressive的過(guò)程。

GPT2，hidden state的大小有變化，根據(jù)層數(shù)的多少有small，medum，large，extra large的劃分。

GPT的訓(xùn)練過(guò)程是交叉式的預(yù)測(cè)下一個(gè)單詞，測(cè)試的時(shí)候是輸入一個(gè)句子生成另外一個(gè)句子。

GPT的預(yù)訓(xùn)練就是訓(xùn)練一個(gè)語(yǔ)言模型。而bert的預(yù)訓(xùn)練是masked language model和nsp的任務(wù)。

GPT由多個(gè)decocer block組成，每一個(gè)decoder block由masked self-attention和feed forward neural network組成。

一個(gè)timestamp的hidden state經(jīng)過(guò)線(xiàn)性層轉(zhuǎn)換為vocab size大小的embedding，然后經(jīng)過(guò)softmax，算出每個(gè)詞匯的概率，找出其中概率最大的詞作為預(yù)測(cè)輸出，然后下一個(gè)時(shí)刻的詞作為真實(shí)輸出，計(jì)算兩者的cross entropy來(lái)訓(xùn)練模型。

每一個(gè)timestamp后面的位置都mask掉，設(shè)置一個(gè)負(fù)無(wú)群大的值，做softmax的時(shí)候，該位置的值就為0。

2）總結(jié)

transformer decoder的構(gòu)造

預(yù)訓(xùn)練的時(shí)候做語(yǔ)言模型的訓(xùn)練

GPT2用更多更深的block

BERT是做NLU，generation做不了

GPT天生就是語(yǔ)言模型，非常適合做generation的任務(wù)，在bert里能做的在gpt里也可以做

除了GPT-2 ，GPT-3依舊延續(xù)自己的單向語(yǔ)言模型訓(xùn)練方式，只不過(guò)把模型尺寸增大到了1750億，并且使用45TB數(shù)據(jù)進(jìn)行訓(xùn)練

gpt2和cpm2哪個(gè)好

gpm2好。CPM2即大規(guī)模高效預(yù)訓(xùn)練語(yǔ)言模型,CPM-2的高效預(yù)訓(xùn)練框架?chē)@三個(gè)部分進(jìn)行,模型預(yù)訓(xùn)練,模型微調(diào)和模型推理。CPM2是一個(gè)擁有110億參數(shù)的通用中英文雙語(yǔ)預(yù)訓(xùn)練語(yǔ)言模型，基于encoder至decoder架構(gòu)。CPM2具有7種通用語(yǔ)言能力。

gpt2評(píng)測(cè)（gpt2參數(shù)）

gpt-2什么水平

高科技水平。gpt-2作為一個(gè)沒(méi)有經(jīng)過(guò)任何領(lǐng)域數(shù)據(jù)專(zhuān)門(mén)訓(xùn)練的模型，它的表現(xiàn)比那些專(zhuān)為特定領(lǐng)域打造的模型還要好，橫掃各大語(yǔ)言建模任務(wù)。是屬于高科技水平檔次。

以上就是關(guān)于gpt2評(píng)測(cè)相關(guān)問(wèn)題的回答。希望能幫到你，如有更多相關(guān)問(wèn)題，您也可以聯(lián)系我們的客服進(jìn)行咨詢(xún)，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。