HOME 首頁
SERVICE 服務產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務案例
NEWS 熱點資訊
ABOUT 關于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    怎么讓gpt寫論文(gpt2論文)

    發(fā)布時間:2023-03-13 06:05:49     稿源: 創(chuàng)意嶺    閱讀: 107        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于怎么讓gpt寫論文的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    ChatGPT國內(nèi)免費在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    本文目錄:

    怎么讓gpt寫論文(gpt2論文)

    一、GPT 原理解析

    GPT(Generative Pre-Training)是一個典型的兩階段式模型:無監(jiān)督預訓練+監(jiān)督下游任務微調(diào)。而在 NLP 任務中,上游的無監(jiān)督預訓練任務多半采用語言模型來實現(xiàn),下游的監(jiān)督任務直接對上游的模型進行簡單改造即可使用。

    GPT 為了能夠有效的抓取文本中的語義信息,使用了單向的 Transformer Decoder 模塊構(gòu)建標準的語言模型,再使用預訓練得到的網(wǎng)絡架構(gòu)與參數(shù)進行下游監(jiān)督任務的微調(diào),取得了不錯的效果。

    論文: Improving Language Understanding by Generative Pre-Training

    對于語料 ,GPT 構(gòu)建標準的語言模型:

    文章中使用 Transformer Decoder 模塊加上前饋神經(jīng)網(wǎng)絡,最后使用 softmax 輸出目標詞的分布:

    對于通過第一階段的預訓練得到的語言模型,對于特定的任務進行 fine-tuning。

    對于一個監(jiān)督數(shù)據(jù)集 ,其中的數(shù)據(jù)為一個序列 和一個標簽 。將序列輸入預訓練模型后得到輸出向量為 ,接著使用一個線性層來預測標簽:

    需極大化的似然函數(shù)為:

    另外,作者發(fā)現(xiàn),使用語言模型來輔助監(jiān)督學習的任務進行微調(diào),有兩個好處:

    所以,最終下游使用的監(jiān)督模型目標函數(shù)為:

    GPT 使用兩階段式模型的另外一個好處是,作者期望通過第一階段的預訓練語言模型,學習到盡可能多的自然語言信息,且對于大多數(shù)下游任務,只需要簡單的修改輸入而不需要修改模型架構(gòu)即可完成微調(diào)。對于 NLP 中的幾種主流任務,GPT 分別做了如下的變換策略:

    模型還包括一些細節(jié):

    論文: Language Models are Unsupervised Multitask Learners

    GPT-2 是 GPT 的直接升級版,效果驚人。相比之下,GPT-2 有如下幾點改進:

    二、冠遠萬能主板管溫多大的

    冠遠萬能主板的管溫一般在50-60度之間,但是也可以根據(jù)您的使用環(huán)境和配置來調(diào)整,最高可以達到85度,但是建議您盡量將管溫保持在50-60度之間,以免影響主板的使用壽命。此外,您還可以通過添加散熱器或者更換散熱器來降低主板的管溫,以保證主板的正常使用。

    三、BERT - 論文解讀

    BERT:【 Pre-training of Deep Bidirectional Transformers for

    Language Understanding】

    將預訓練語言模型應用在下游任務中,一般有兩種策略:

    作者認為影響當前預訓練語言模型的 瓶頸是——“模型是單向的” 。如 GPT 選擇從左到右的架構(gòu),這使得每個 token 只能注意到它前面的 token,這對 sentence 級的任務影響還是次要的,但對于 token 級的任務來說影響就很巨大。例如問答任務,從兩個方向結(jié)合上下文是至關重要的。

    BERT 通過使用受完形填空任務啟發(fā)的 Mask Language Model (MLM)緩解了先前模型的單向性約束問題。MLM 隨機 mask 掉一些輸入文本中的 token,然后根據(jù)剩下的上下文預測 masked 的 token。除了 Mask Language Model,作者還提出了 Next Sequence Predict 任務,來聯(lián)合訓練文本對表示。

    論文中BERT的改進如下:

    預訓練前的一般語言表征有著悠久歷史,本節(jié)我們簡要回顧一下最廣泛使用的方法。

    2.1 基于特征的無監(jiān)督方法

    幾十年來,學習廣泛適用的詞匯表征一直是一個活躍的研究領域,包括非神經(jīng)系統(tǒng)、神經(jīng)系統(tǒng)方法。預訓練的詞嵌入是現(xiàn)代NLP系統(tǒng)的一個組成部分,與從頭學習的嵌入相比,它提供了顯著的改進(Turian等人,2010)。為了預先訓練單詞嵌入向量,已經(jīng)使用了從左到右的語言建模目標(Mnih和Hinton,2009),以及在左右上下文中區(qū)分正確單詞和錯誤單詞的目標(Mikolov等人,2013)。

    這些方法已被推廣到更粗糙的粒度,例如句子嵌入(Kiros等人,2015;Logeswaran和Lee,2018)或段落嵌入(Le和Mikolov,2014)。為了訓練句子表征,之前的工作已經(jīng)使用了目標對候選下一個句子進行排序(Jernite等人,2017;Logeswaran和Lee,2018),根據(jù)前一個句子的表征從左到右生成下一個句子單詞(Kiros等人,2015),或去噪自動編碼器衍生的目標(Hill等人,2016)。

    ELMo 及其前身(Peters等人,20172018a)從不同的維度概括了傳統(tǒng)的單詞嵌入研究。它們通過從左到右和從右到左的語言模型中提取上下文敏感的特征。每個標記的上下文表示是從左到右和從右到左表示的 串聯(lián) 。在將上下文單詞嵌入與現(xiàn)有任務特定架構(gòu)相結(jié)合時,ELMo推進了幾個主要NLP基準(Peters等人,2018a)的最新技術,包括問答(Rajpurkar等人,2016年)、情感分析(Socher等人,2013年)和命名實體識別(Tjong Kim-Sang和De Meulder,2003年)。Melamud等人(2016年)提出通過一項任務來學習語境表征,即使用 LSTM 從左右語境中預測單個單詞。與ELMo類似,他們的模型是基于特征的,而不是深度雙向的。Fedus等人(2018)表明,完形填空任務可以用來提高文本生成模型的 穩(wěn)健性 。

    2.2 無監(jiān)督微調(diào)方法:

    基于特征feature-based 的方法一樣,第一種方法只在未標記文本中預先訓練單詞嵌入?yún)?shù)的情況下才朝這個方向工作。最近,產(chǎn)生上下文標記表示的句子或文檔編碼器已經(jīng)從未標記的文本和文本中預訓練出來針對受監(jiān)督的下游任務進行了 微調(diào)fine-tuned 。

    這些方法的 優(yōu)點是 ,很少有參數(shù)需要從頭學習。至少部分由于這一優(yōu)勢,OpenAI GPT在GLUE基準測試的許多句子級任務上取得了之前的最新成果。從左到右的語言建模和自動編碼器目標已用于此類模型的預訓練。

    注解 :BERT的整體預訓練和微調(diào)程序。除了輸出層之外,在預訓練和微調(diào)中使用相同的體系結(jié)構(gòu)。相同的預訓練模型參數(shù)用于初始化不同下游任務的模型。在微調(diào)過程中,所有參數(shù)都會微調(diào)。

    2.3 基于監(jiān)督數(shù)據(jù)的遷移學習:

    也有研究表明,在大數(shù)據(jù)集的監(jiān)督任務中,如自然語言推理和機器翻譯可以有效地進行轉(zhuǎn)換。計算機視覺研究也證明了 從大型預訓練模型中進行遷移學習的重要性 ,其中一個有效的方法是對使用ImageNet預訓練模型進行微調(diào)。

    本節(jié)將介紹BERT及其詳細實現(xiàn)。在我們的框架中有兩個步驟:預訓練和微調(diào)。

    BERT的一個顯著特點是其跨不同任務的統(tǒng)一體系結(jié)構(gòu) 。預訓練的體系結(jié)構(gòu)和最終的下游體系結(jié)構(gòu)之間的差異最小。

    BERT 的模型架構(gòu)是 一種多層的雙向 transformer encoder ,BERT 在實現(xiàn)上與 transformer encoder 幾乎完全相同。

    定義:transformer block 的個數(shù)為 L ; hidden 大小為 H; self-attentions head 的個數(shù)為 A. 作者主要展示了兩種規(guī)模的 BERT 模型:

    在這項工作中,我們將層數(shù)(即Transformer blocks)表示為L,隱藏大小表示為H,自我注意頭的數(shù)量表示為A。我們主要報告兩種型號的結(jié)果:

    為了進行比較,選擇BERT-base與OpenAI GPT具有相同的模型大小。然而,關鍵的是, BERT Transformer使用雙向自注意力機制self-attention ,而 GPT Transformer使用受限自注意力機制constrained self-attention ,其中每個標記只能關注其左側(cè)的上下文。

    為了使 BERT 能處理大量不同的下游任務,作者將模型的輸入設計成可以輸入單個句子或句子對,這兩種輸入被建模成同一個 token 序列。作者使用了有 30000 個 token 的 vocabulary 詞嵌入。

    3.1 Pre-training BERT :

    我們不使用傳統(tǒng)的從左到右或從右到左的語言模型來預訓練BERT。相反,我們使用本節(jié)所述的兩個無監(jiān)督任務對BERT進行預訓練。這一步如圖1的左半部分所示。

    Task #1: Masked LM

    標準的語言模型只能實現(xiàn)從左到右或從右到左的訓練,不能實現(xiàn)真正的雙向訓練,這是因為雙向的條件是每個單詞能直接“看到自己”,并且模型可以在多層上下文中輕松的預測出目標詞。

    為了能夠?qū)崿F(xiàn)雙向的深度預訓練,作者選擇 隨機 mask 掉一些比例的 token ,然后預測這些被 masked 的 token,在這種設置下,被 masked 的 token 的隱向量表示被輸出到詞匯表的 softmax 上,這就與標準語言模型設置相同。作者將 這個過程稱為“Masked LM”,也被稱為“完形填空”

    ○ Masked LM 預訓練任務的缺點

    在于由于 [MASK] 標記不會出現(xiàn)在微調(diào)階段,這就造成了預訓練和微調(diào)階段的不一致。為了解決該問題,作者提出了 一種折中的方案

    ○ BERT 的 mask策略:

    Task #2: Next Sentence Prediction (NSP)

    很多下游任務都是基于對兩句話之間的關系的理解,語言模型不能直接捕獲這種信息。為了訓練模型理解這種句間關系,作者 設計了 next sentence prediction 的二分類任務 。具體來說,就是選擇兩個句子作為一個訓練樣本,有 50% 的概率是下一句關系,有 50% 的概率是隨機選擇的句子對, 預測將 [CLS] 的最終隱狀態(tài) C 輸入 sigmoid 實現(xiàn) 。

    ○ Pre-training data

    作者選用了BooksCorpus (800M words) 和 English Wikipedia (2,500M words) 作為預訓練的語料庫,作者只選取了 Wikipedia 中的文本段落,忽略了表格、標題等。為了獲取長的連續(xù)文本序列,作者選用了 BIllion Word Benchmark 這樣的文檔級語料庫,而非打亂的句子級語料庫。

    3.2 Fine-tuning BERT

    因為 transformer 中的 self-attention 機制適用于很多下游任務,所以可以直接對模型進行微調(diào)。對于涉及文本對的任務,一般的做法是獨立 encode 文本對,然后再應用雙向的 cross attention 進行交互。Bert 使用 self-attention 機制統(tǒng)一了這兩個階段,該機制直接能夠?qū)崿F(xiàn)兩個串聯(lián)句子的交叉編碼。

    對于不同的任務,只需要簡單地將特定于該任務的輸入輸出插入到 Bert 中,然后進行 end2end 的fine-tuning。

    與預訓練相比,微調(diào)相對便宜。從完全相同的預訓練模型開始,本文中的所有結(jié)果最多可以在單個云TPU上復制1小時,或在GPU上復制幾個小時。

    在本節(jié)中,我們將介紹11個NLP任務的BERT微調(diào)結(jié)果。

    4.1 GLUE:

    GLUE (General Language Understanding Evaluation) 是多個 NLP 任務的集合。作者設置 batch size 為 32;訓練 3 個 epochs;在驗證集上從(5e-5, 4e-5, 3e-5, 2e-5)中選擇最優(yōu)的學習率。結(jié)果如下:

    結(jié)果見表1。 BERT-base和BERT-large在所有任務上都比所有系統(tǒng)表現(xiàn)出色,與現(xiàn)有技術相比,平均準確率分別提高了4.5%和7.0% 。請注意,除了注意掩蔽,BERT-base和OpenAI GPT在模型架構(gòu)方面幾乎相同。

    對于最大和最廣泛報道的GLUE任務MNLI,BERT獲得了4.6%的絕對準確率提高。在官方的GLUE排行榜10中,BERT-lagle獲得80.5分,而OpenAI GPT在撰寫本文之日獲得72.8分。我們發(fā)現(xiàn)BERT-large在所有任務中都顯著優(yōu)于BERT-base,尤其是那些訓練數(shù)據(jù)很少的任務。

    4.2 SQuAD v1.1 :

    斯坦福問答數(shù)據(jù)集(SQuAD v1.1)收集了10萬對眾包問答對。給出一個問題和一段維基百科中包含答案的文章,任務是預測文章中的答案文本。

    如圖1所示,在問答任務中,我們將輸入的問題和段落表示為單個壓縮序列,問題使用A嵌入,段落使用B嵌入。在微調(diào)過程,我們只引入一個起始向量S和一個端向量E。單詞i作為答案范圍開始的概率計算為Ti和S之間的點積,然后是段落中所有單詞的softmax:

    答案范圍結(jié)束時使用類似公式。候選人從位置 i 到位置 j 的得分定義為:S·Ti + E·Tj ,最大得分跨度為 j≥ i 被用作預測。訓練目標是正確起始位置和結(jié)束位置的對數(shù)概率之和。我們微調(diào)了3個階段,學習率為5e-5,批量大小為32。

    表2顯示了頂級排行榜條目以及頂級發(fā)布系統(tǒng)的結(jié)果。SQuAD排行榜的前幾名沒有最新的公共系統(tǒng)描述,并且允許在訓練系統(tǒng)時使用任何公共數(shù)據(jù)。因此,在我們的系統(tǒng)中使用適度的數(shù)據(jù)擴充,首先在TriviaQA上進行微調(diào),然后再對團隊進行微調(diào)。

    我們表現(xiàn)最好的系統(tǒng)在ensembling方面的表現(xiàn)優(yōu)于排名第一的系統(tǒng),在ensembling方面的表現(xiàn)優(yōu)于排名第一的系統(tǒng)+1.5 F1,在單一系統(tǒng)方面的表現(xiàn)優(yōu)于排名第一的系統(tǒng)+1.3 F1得分。事實上,我們的單BERT模型在F1成績方面優(yōu)于頂級合奏系統(tǒng)。如果沒有TriviaQA微調(diào)數(shù)據(jù),我們只會損失0.1-0.4 F1,仍然遠遠超過所有現(xiàn)有系統(tǒng)。

    其他實驗:略

    在本節(jié)中,我們對BERT的許多方面進行了消融實驗,以便更好地了解它們的相對重要性。其他消融研究見附錄C。

    5.1 預訓練任務的效果

    ○ 進行了如下消融測試:

    ○ 結(jié)果如下:

    5.2 模型大小的影響

    ○ 結(jié)果如下:

    作者證明了 :如果模型經(jīng)過充分的預訓練,即使模型尺寸擴展到很大,也能極大改進訓練數(shù)據(jù)規(guī)模較小的下游任務。

    5.3 將 Bert 應用于 Feature-based 的方法

    ○ feature-based 的方法是從預訓練模型中提取固定的特征,不對具體任務進行微調(diào) 。

    ○ 這樣的方法也有一定的優(yōu)點

    作者進行了如下實驗:在 CoNLL-2003 數(shù)據(jù)集上完成 NER 任務,不使用 CRF 輸出,而是從一到多個層中提取出激活值,輸入到 2 層 768 維的 BiLSTM 中,再直接分類。結(jié)果如下:

    結(jié)果說明:無論是否進行微調(diào),Bert 模型都是有效的。

    個人認為 Bert 的意義在于:

    由于語言模型的遷移學習,最近的經(jīng)驗改進表明,豐富的、無監(jiān)督的預訓練是許多語言理解系統(tǒng)的一個組成部分。特別是,這些結(jié)果使得即使是低資源任務也能從深層單向體系結(jié)構(gòu)中受益。我們的主要貢獻是將這些發(fā)現(xiàn)進一步推廣到深層雙向體系結(jié)構(gòu)中,使相同的預訓練模型能夠成功地處理廣泛的NLP任務。

    四、chatgpt論文有字數(shù)要求嗎

    不存在字數(shù)要求,但是一般來說,論文的字數(shù)越多越好,最好在5000字以上,以便論述足夠的內(nèi)容。

    以上就是關于怎么讓gpt寫論文相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    騰訊游戲的圖標(騰訊游戲的圖標怎么變了)

    景觀設計課程指導記錄(景觀設計課程指導記錄怎么寫)

    小程序代碼轉(zhuǎn)app代碼(小程序代碼轉(zhuǎn)app代碼怎么轉(zhuǎn))

    圖形圖案創(chuàng)意圖片_1

    淘寶開網(wǎng)店怎么運營(淘寶開網(wǎng)店怎么運營賺錢)