HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    大模型訓(xùn)練一次200-1200萬(wàn)美元!ChatGPT多燒錢?

    發(fā)布時(shí)間:2023-03-03 16:08:44     稿源: 互聯(lián)網(wǎng)    閱讀: 715        問(wèn)大家

    ?星標(biāo)華爾街見聞,好內(nèi)容不錯(cuò)過(guò)?

    隨著以ChatGPT為代表的生成式AI興起,其背后以大模型為基礎(chǔ)的人工智能成為業(yè)界投入的方向。

    所謂“大模型”,通常是在無(wú)標(biāo)注的大數(shù)據(jù)集上,采用自監(jiān)督學(xué)習(xí)的方法進(jìn)行訓(xùn)練。之后在其他場(chǎng)景的應(yīng)用中,開發(fā)者只需要對(duì)模型進(jìn)行微調(diào),或采用少量數(shù)據(jù)進(jìn)行二次訓(xùn)練,就可以滿足新應(yīng)用場(chǎng)景的需要。

    據(jù)騰訊研究院,當(dāng)前的人工智能大多是針對(duì)特定的場(chǎng)景應(yīng)用進(jìn)行訓(xùn)練,生成的模型難以遷移到其他應(yīng)用,屬于“小模型”的范疇。整個(gè)過(guò)程不僅需要大量的手工調(diào)參,還需要給機(jī)器喂養(yǎng)海量的標(biāo)注數(shù)據(jù),這拉低了人工智能的研發(fā)效率,且成本較高。

    相比之下,大模型的改進(jìn)可以使所有的下游小模型受益,大幅提升人工智能的使用場(chǎng)景和研發(fā)效率。

    同時(shí),在大模型的框架下,ChatGPT所使用的GPT模型,每一代參數(shù)量均高速擴(kuò)張,預(yù)訓(xùn)練的數(shù)據(jù)量需求和成本亦快速提升。

    國(guó)盛證券計(jì)算機(jī)分析師劉高暢、楊然在發(fā)表于2月12日的報(bào)告《Chatgpt 需要多少算力》中估算,GPT-3訓(xùn)練一次的成本約為140萬(wàn)美元,對(duì)于一些更大的LLM模型,訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間。這一成本于全球科技大企業(yè)而言并不便宜,但尚在可接受范圍內(nèi)。

    大模型訓(xùn)練一次200-1200萬(wàn)美元!ChatGPT多燒錢?

    初始投入近十億美元,單日電費(fèi)數(shù)萬(wàn)美元

    國(guó)盛證券估算,今年1月平均每天約有1300萬(wàn)獨(dú)立訪客使用ChatGPT,對(duì)應(yīng)芯片需求為3萬(wàn)多片英偉達(dá)A100GPU,初始投入成本約為8億美元,每日電費(fèi)在5萬(wàn)美元左右:

    1)計(jì)算假設(shè):

    英偉達(dá)A100:根據(jù)OneFlow報(bào)道,目前,NVIDIAA100是AWS最具成本效益的GPU選擇。

    英偉達(dá)DGXA100服務(wù)器:?jiǎn)螜C(jī)搭載8片A100GPU,AI算力性能約為5PetaFLOP/s,單機(jī)最大功率約為6.5kw,售價(jià)約為19.9萬(wàn)美元/臺(tái)。

    標(biāo)準(zhǔn)機(jī)柜:19英寸、42U。單個(gè)DGXA100服務(wù)器尺寸約為6U,則標(biāo)準(zhǔn)機(jī)柜可放下約7個(gè)DGXA100服務(wù)器。則,單個(gè)標(biāo)準(zhǔn)機(jī)柜的成本為140萬(wàn)美元、56個(gè)A100GPU、算力性能為35PetaFLOP/s、最大功率45.5kw。

    大模型訓(xùn)練一次200-1200萬(wàn)美元!ChatGPT多燒錢?

    2)芯片需求量:

    每日咨詢量:根據(jù)Similarweb數(shù)據(jù),截至2023年1月底,chat.openai.com網(wǎng)站(即ChatGPT官網(wǎng))在2023/1/27-2023/2/3這一周吸引的每日訪客數(shù)量高達(dá)2500萬(wàn)。假設(shè)以目前的穩(wěn)定狀態(tài),每日每用戶提問(wèn)約10個(gè)問(wèn)題,則每日約有2.5億次咨詢量。

    A100運(yùn)行小時(shí):假設(shè)每個(gè)問(wèn)題平均30字,單個(gè)字在A100GPU上約消耗350ms,則一天共需消耗729,167個(gè)A100GPU運(yùn)行小時(shí)。

    A100需求量:對(duì)應(yīng)每天需要729,167/24=30,382片英偉達(dá)A100GPU同時(shí)計(jì)算,才可滿足當(dāng)前ChatGPT的訪問(wèn)量。

    3)運(yùn)行成本:

    初始算力投入:以前述英偉達(dá)DGXA100為基礎(chǔ),需要30,382/8=3,798臺(tái)服務(wù)器,對(duì)應(yīng)3,798/7=542個(gè)機(jī)柜。則,為滿足ChatGPT當(dāng)前千萬(wàn)級(jí)用戶的咨詢量,初始算力投入成本約為542*140=7.59億美元。

    每月電費(fèi):用電量而言,542*45.5kw*24h=591,864kwh/日。參考HashrateIndex統(tǒng)計(jì),我們假設(shè)美國(guó)平均工業(yè)電價(jià)約為0.08美元/kwh。則,每日電費(fèi)約為2,369,640*0.08=4.7萬(wàn)美元/日。

    大模型訓(xùn)練一次200-1200萬(wàn)美元!ChatGPT多燒錢?大模型訓(xùn)練一次200-1200萬(wàn)美元!ChatGPT多燒錢?

    訓(xùn)練成本:公有云下,單次百萬(wàn)至千萬(wàn)美元

    國(guó)盛證券基于參數(shù)數(shù)量和token數(shù)量估算,GPT-3訓(xùn)練一次的成本約為140萬(wàn)美元;對(duì)于一些更大的LLM模型采用同樣的計(jì)算公式,訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間:

    1)基于參數(shù)數(shù)量和token數(shù)量,根據(jù)OneFlow估算,GPT-3訓(xùn)練一次的成本約為139.8萬(wàn)美元:每個(gè)token的訓(xùn)練成本通常約為6N(而推理成本約為2N),其中N是LLM的參數(shù)?數(shù)量;假設(shè)在訓(xùn)練過(guò)程中,模型的FLOPS利用率為46.2%,與在TPUv4芯片上進(jìn)行訓(xùn)練?的PaLM模型(擁有5400億參數(shù))一致。

    大模型訓(xùn)練一次200-1200萬(wàn)美元!ChatGPT多燒錢?

    2)對(duì)于一些更大的LLM模型(如擁有2800億參數(shù)的Gopher和擁有5400億參數(shù)的PaLM),采用同樣的計(jì)算公式,可得出,訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間。

    大模型訓(xùn)練一次200-1200萬(wàn)美元!ChatGPT多燒錢?

    國(guó)盛證券認(rèn)為,在公有云上,對(duì)于以谷歌等全球科技大企業(yè)而言,百萬(wàn)至千萬(wàn)美元級(jí)別的訓(xùn)練成本并不便宜,但尚在可接受范圍內(nèi)、并非昂貴。

    本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎,請(qǐng)獨(dú)立判斷和決策。

    會(huì)“花錢”更會(huì)“賺錢”大模型訓(xùn)練一次200-1200萬(wàn)美元!ChatGPT多燒錢?


    推薦閱讀:

    新媒體營(yíng)銷十大模式(新媒體營(yíng)銷十大模式的概念及作用)

    人工智能行業(yè)深度報(bào)告:ChatGPT引發(fā)的大模型時(shí)代變革

    眾籌的四大模式包括什么內(nèi)容(眾籌的四大模式包括什么內(nèi)容和特點(diǎn))

    浙江省青少年創(chuàng)客大賽(浙江省青少年創(chuàng)客大賽結(jié)果)

    外呼系統(tǒng)哪家好用(電話銷售外呼系統(tǒng)軟件)