-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 營銷推廣 > 專題列表 > 正文
可以“作為醫(yī)生”的 GPT-3,究竟是炒作還是名副其實(shí)?
作者 |Anne-Laure Rousseau, MD,Clément Baudelaire,Kevin Riera
譯者 | 彎月,責(zé)編 | 鄭麗媛
頭圖 | CSDN 下載自東方 IC
出品 | CSDN(ID:CSDNnews)
以下為譯文:
這個(gè)夏天你一定聽說過GPT-3,這個(gè)AI圈內(nèi)的超級網(wǎng)紅。GPT-3出自O(shè)penAI之手,而OpenAI是世界頂級的AI研究實(shí)驗(yàn)室之一,由Elon Musk、Sam Altman以及其他人于2015年底成立,后來還獲得了微軟高達(dá)10億美元的注資。
此外,你可能還聽說過醫(yī)療領(lǐng)域正在經(jīng)歷AI革命,這要?dú)w功于自動診斷、醫(yī)療文檔以及藥物發(fā)現(xiàn)等領(lǐng)域的可喜成果。有些人聲稱在某些工作上AI的算法超過了醫(yī)生,甚至有人宣布機(jī)器人即將斬獲自己的醫(yī)學(xué)學(xué)位!雖然諸多流言蜚語聽起來頗有些牽強(qiáng),但是GPT-3會不會成為他們口中的機(jī)器人呢?
我們是一個(gè)由多學(xué)科醫(yī)生和機(jī)器學(xué)習(xí)工程師打造而成的團(tuán)隊(duì),此次我們有幸能夠測試一下這種新模型,通過探索不同的醫(yī)療案件來搞清楚:可以作為醫(yī)生的GPT-3究竟是炒作還是真的有實(shí)力。
規(guī)模龐大的GPT-3
在機(jī)器學(xué)習(xí)領(lǐng)域內(nèi),像GPT-3這樣的語言模型只是根據(jù)前面給定的單詞(又稱為上下文)來預(yù)測句子中的下一個(gè)單詞。這是一種超強(qiáng)的自動補(bǔ)齊系統(tǒng),類似于你在寫郵件時(shí)使用的系統(tǒng)。初看之下,能夠預(yù)測句子中的下一個(gè)單詞似乎很簡單,但實(shí)際上許多了不起的項(xiàng)目都是以該項(xiàng)技術(shù)為基礎(chǔ),例如聊天機(jī)器人、自動翻譯以及常見問題解答等。
截止到目前,GPT-3是有史以來訓(xùn)練復(fù)雜度最高的語言模型,共有1,750億個(gè)參數(shù),如此多的神經(jīng)網(wǎng)絡(luò)結(jié)點(diǎn)需要經(jīng)過數(shù)周密集的云計(jì)算微調(diào)后,才能讓這個(gè)AI發(fā)揮神奇的作用。雖然這個(gè)參數(shù)量非常龐大,但遠(yuǎn)不及人腦在推理、感知以及情感能力方面的數(shù)百萬億(甚至千萬億)神經(jīng)突觸。
由于規(guī)模龐大,GPT-3可直接用于新任務(wù)以及簡短的演示,而無需針對特定數(shù)據(jù)進(jìn)行進(jìn)一步的微調(diào)。這意味著該模型只需學(xué)習(xí)幾個(gè)最初的示例,就可以成功地理解需要執(zhí)行的任務(wù)。與之前簡單的語言模型相比,此屬性有很大的改進(jìn),而且更接近人類的實(shí)際行為,比如我們并不需要成千上萬的例子來區(qū)分貓和狗。
由于數(shù)據(jù)來源混雜,從各種基本的書籍到整個(gè)互聯(lián)網(wǎng),從維基百科到《紐約時(shí)報(bào)》,因此GPT-3的訓(xùn)練數(shù)據(jù)有明顯的偏差,但它在將自然語言轉(zhuǎn)換為網(wǎng)站,創(chuàng)建基本的財(cái)務(wù)報(bào)告,破解語言謎題,乃至生成吉他指法等方面都有出色的表現(xiàn)。那么,在醫(yī)療保健領(lǐng)域又如何呢?
免責(zé)聲明正如Open AI在GPT-3準(zhǔn)則中的警告,醫(yī)療保健“屬于高風(fēng)險(xiǎn)范疇,因?yàn)槿藗円揽繙?zhǔn)確的醫(yī)療信息做出生死攸關(guān)的決定,任何錯(cuò)誤都有可能導(dǎo)致嚴(yán)重的傷害。”此外,診斷醫(yī)療或精神疾病在該模型中屬于“不支持使用”。盡管如此,此次我們還是決定試一試,看看該模型在以下醫(yī)療領(lǐng)域的使用情況,下面我們從醫(yī)學(xué)的角度出發(fā),按照敏感度從低到高將各項(xiàng)工作大致分為:
● 管理員與患者聊天
● 醫(yī)療保險(xiǎn)查詢
● 心理健康支持
● 醫(yī)療文件
● 醫(yī)學(xué)問答
● 醫(yī)學(xué)診斷
此外,我們還研究了該模型的某些參數(shù)對答案的影響(含精彩的內(nèi)幕揭秘)!
GPT-3,下一代私人醫(yī)療助理?我們的第一項(xiàng)測試表明,似乎GPT-3可用于基本的管理任務(wù),例如預(yù)約管理。但是當(dāng)深入研究時(shí),我們發(fā)現(xiàn)該模型對時(shí)間沒有清晰的了解,也沒有任何恰當(dāng)?shù)倪壿?。有時(shí)它的記憶力明顯不足,如下圖所示,在處理預(yù)約的時(shí)候,患者曾明確表示下午6點(diǎn)之后沒空,但GPT-3還是推薦了下午7點(diǎn)。
在醫(yī)療保險(xiǎn)查詢方面表現(xiàn)如何呢?與上述管理任務(wù)類似,GPT-3可以幫助護(hù)士或患者從長篇大論中快速找到某條信息,比如找到特定檢查項(xiàng)目的保險(xiǎn)條例。但在如下示例中,我們?yōu)樵撃P统噬狭碎L達(dá)4頁的保險(xiǎn)條款列表,其中X射線檢查需要自付10美元,MRI檢查需要自付20美元。我們提出了兩個(gè)問題,GPT-3可以準(zhǔn)確地告知患者X射線檢查的價(jià)格,但未能匯總出多項(xiàng)檢查的總金額??梢奊PT-3缺乏基本的推理能力。
通過回收電子產(chǎn)品緩解壓力!當(dāng)你坐在客廳的沙發(fā)上,放松休息并與GPT-3交談時(shí),它會傾聽患者的問題,甚至提出一些可行的建議。這可能是GPT-3在醫(yī)療保健中最出色的用例之一。而實(shí)際上,1966年的Eliza算法僅通過模式匹配就實(shí)現(xiàn)了像人類一樣的行為,所以GPT-3的成果也并不足為奇。
GPT-3與Eliza的關(guān)鍵區(qū)別在于,Eliza這類基于規(guī)則的系統(tǒng)能夠完全控制計(jì)算機(jī)的響應(yīng)。換句話說,我們確信這類系統(tǒng)不會給出任何可能對患者有害的說法。
然而,不幸的是與Eliza相反,在如下示例中,GPT-3卻建議患者自殺……
此外,該模型還可能提出意想不到的答案,比如它會建議患者多多回收電子產(chǎn)品,以緩解壓力,雖然理由比較牽強(qiáng),但也非常有道理!
醫(yī)療文件GPT-3在總結(jié)和簡化文字方面的表現(xiàn)非常出色,這非常有利于幫助患者理解滿篇專業(yè)術(shù)語的醫(yī)學(xué)報(bào)告,或是幫助醫(yī)生快速了解患者悠久的病史。不過,GPT-3還不能完全勝任這項(xiàng)工作(至少目前還不行)。我們的測試表明,GPT-3得出的結(jié)果過于簡單,難以建立因果關(guān)系,而且還缺乏基本的演繹推理。
醫(yī)療問答:不及Google在尋找特定的科學(xué)信息、藥物劑量或處方支持時(shí),我們的實(shí)驗(yàn)表明,GPT-3不夠可靠,不足以作為醫(yī)生可信賴的支持工具使用。因?yàn)檫@存在一個(gè)嚴(yán)重的問題:GPT-3經(jīng)常會給出內(nèi)容錯(cuò)誤但語法正確的答案,而且不會提供任何文獻(xiàn)引用供醫(yī)生核對。在急診科忙碌的醫(yī)生看到這般語法合理的語句時(shí),很容易錯(cuò)誤地將其當(dāng)作有效的醫(yī)學(xué)陳述。例如,下面的第一個(gè)答案是正確的,但第二個(gè)答案不正確。
診斷:風(fēng)險(xiǎn)自負(fù)診斷是一個(gè)更為復(fù)雜的問答任務(wù):輸入癥狀,然后獲得有可能解釋這些癥狀的潛在條件。最新的癥狀檢查系統(tǒng)(Babylon、Ada、KHealth等)雖然不夠完善,但完勝GPT-3,因?yàn)樗鼈兌坚槍︶t(yī)療診斷經(jīng)過了精心優(yōu)化。這些系統(tǒng)的優(yōu)勢在于,它們可以輸出不同的診斷結(jié)果以及相應(yīng)的概率,對于醫(yī)生來說這是一種置信度的測量。而如下GPT-3得出的第一個(gè)診斷結(jié)果忽略了這個(gè)有發(fā)燒癥狀的小女孩可能患有篩竇炎,而且還莫名地提到了“皮疹”。
在另一項(xiàng)測試中,GPT-3忽略了肺栓塞。幸運(yùn)的是,沒有人因此死亡!
內(nèi)幕揭秘正如其他人所觀察到的那樣,GPT-3輸出的質(zhì)量很大程度上取決于其使用的種子詞匯,以兩種不同方式提出同一個(gè)問題也可能得到差異非常大的兩個(gè)答案。此外,該模型的各種參數(shù)(例如溫度參數(shù)和top P參數(shù))也起著重要作用。溫度參數(shù)和top P參數(shù)控制著該引擎所呈現(xiàn)答案的風(fēng)險(xiǎn)和創(chuàng)造力。
溫度參數(shù)在不同的溫度參數(shù)設(shè)定下,對于同一個(gè)問題,我們得到了兩個(gè)截然相反的答案。如下是當(dāng)溫度參數(shù)T = 0.9時(shí)得出的答案。
相比之下,在溫度參數(shù)極低的情況下(T = 0),相似種子永遠(yuǎn)會給出完全相同且非常直接的答案。
頻率懲罰參數(shù)與存在懲罰參數(shù)
此外,我們還應(yīng)注意頻率懲罰參數(shù)與存在懲罰參數(shù),二者既能防止單詞重復(fù)又能防止主題重復(fù)。在醫(yī)學(xué)上,直觀地來講我們應(yīng)盡可能降低這兩個(gè)參數(shù),因?yàn)檫^于生硬的主題切換可能引發(fā)混亂,而且重復(fù)實(shí)際上相當(dāng)有用。然而,通過比較人類兩次提出的同一個(gè)問題,我們可以清楚地看到,具有重復(fù)懲罰的模型更富有同情心且更友好,而另一種設(shè)定則看起來比較冷漠且對于人類來說重復(fù)過多。下面是一個(gè)沒有懲罰的例子。
而下面則是一個(gè)懲罰滿格的例子:
總結(jié)
正如OpenAI所警告的那樣,距離GPT-3真正在醫(yī)療保健領(lǐng)域大展拳腳,我們還有很長一段的路要走。由于GPT-3的訓(xùn)練方式,它缺乏科學(xué)和醫(yī)學(xué)領(lǐng)域的專業(yè)知識,因此尚不能勝任醫(yī)學(xué)文獻(xiàn)記錄、診斷支持、給出治療建議或回答醫(yī)生問題等工作。雖然GPT-3可能給出正確的答案,但也很有可能給出非常錯(cuò)誤的答案,這種不一致在醫(yī)療保健領(lǐng)域中是站不住腳的。即使對于翻譯或總結(jié)醫(yī)學(xué)術(shù)語等管理任務(wù),GPT-3的發(fā)展前景雖然良好,但距離真正為醫(yī)生提供支持還需要付出很大的努力。在目前這個(gè)階段,與采用一種雄心勃勃的通用模型相比,采用多個(gè)經(jīng)過專項(xiàng)任務(wù)訓(xùn)練的監(jiān)管模型更為有效。
話雖如此,GPT-3的聊天模塊似乎已做好準(zhǔn)備鞠躬盡瘁,為醫(yī)生減輕重?fù)?dān)。在結(jié)束了一天的忙碌之后,坐下來與私人醫(yī)療助手開懷暢談,可以為你洗去一天的塵埃,拋去一天的勞累。
此外,毫無疑問,從整體上來看語言模型也將得到快速改善,這不僅會對上述用例產(chǎn)生積極的影響,而且也會影響到其他重大問題,例如信息結(jié)構(gòu)與規(guī)范化或自動咨詢匯總等。
原文:https://www.nabla.com/blog/gpt-3/
本文為 CSDN 翻譯,轉(zhuǎn)載請注明來源出處。
點(diǎn)分享
推薦閱讀:
可以搜索關(guān)鍵詞的網(wǎng)站(可以搜索關(guān)鍵詞的網(wǎng)站推薦)
名師工作室可以加入幾個(gè)(名師工作室可以加入幾個(gè)班)
長尾詞挖掘免費(fèi)工具(免費(fèi)的關(guān)鍵詞挖掘工具)
問大家
成都錦江區(qū)最專業(yè)上市會可以給個(gè)聯(lián)系方式嗎?路過的老司機(jī)們聊一聊
濟(jì)南哪個(gè)婚介服務(wù)中心比較好?專業(yè)正規(guī)些的,地址可以說一下嗎?
財(cái)務(wù)審計(jì)報(bào)告多少錢一份,審計(jì)報(bào)告多久可以做好
成都錦江區(qū)正式的啟動儀式可以給個(gè)聯(lián)系方式嗎?各位老鄉(xiāng)們請回復(fù)下
抖音在馬來西亞可以直播嗎?馬來西亞如何開通抖音海外直播?方法
山東省濟(jì)南市哪家婚姻介紹所專業(yè)正規(guī)且服務(wù)好?成功率高?