正文

可以“作為醫(yī)生”的 GPT-3，究竟是炒作還是名副其實(shí)？

發(fā)布時(shí)間：2023-03-06 13:46:03 稿源：互聯(lián)網(wǎng) 閱讀： 846 問大家

作者 |Anne-Laure Rousseau, MD，Clément Baudelaire，Kevin Riera

譯者 | 彎月，責(zé)編 | 鄭麗媛

頭圖 | CSDN 下載自東方 IC

出品 | CSDN（ID：CSDNnews）

以下為譯文：

這個(gè)夏天你一定聽說過GPT-3，這個(gè)AI圈內(nèi)的超級網(wǎng)紅。GPT-3出自O(shè)penAI之手，而OpenAI是世界頂級的AI研究實(shí)驗(yàn)室之一，由Elon Musk、Sam Altman以及其他人于2015年底成立，后來還獲得了微軟高達(dá)10億美元的注資。

此外，你可能還聽說過醫(yī)療領(lǐng)域正在經(jīng)歷AI革命，這要?dú)w功于自動診斷、醫(yī)療文檔以及藥物發(fā)現(xiàn)等領(lǐng)域的可喜成果。有些人聲稱在某些工作上AI的算法超過了醫(yī)生，甚至有人宣布機(jī)器人即將斬獲自己的醫(yī)學(xué)學(xué)位！雖然諸多流言蜚語聽起來頗有些牽強(qiáng)，但是GPT-3會不會成為他們口中的機(jī)器人呢？

我們是一個(gè)由多學(xué)科醫(yī)生和機(jī)器學(xué)習(xí)工程師打造而成的團(tuán)隊(duì)，此次我們有幸能夠測試一下這種新模型，通過探索不同的醫(yī)療案件來搞清楚：可以作為醫(yī)生的GPT-3究竟是炒作還是真的有實(shí)力。

規(guī)模龐大的GPT-3

在機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)，像GPT-3這樣的語言模型只是根據(jù)前面給定的單詞（又稱為上下文）來預(yù)測句子中的下一個(gè)單詞。這是一種超強(qiáng)的自動補(bǔ)齊系統(tǒng)，類似于你在寫郵件時(shí)使用的系統(tǒng)。初看之下，能夠預(yù)測句子中的下一個(gè)單詞似乎很簡單，但實(shí)際上許多了不起的項(xiàng)目都是以該項(xiàng)技術(shù)為基礎(chǔ)，例如聊天機(jī)器人、自動翻譯以及常見問題解答等。

截止到目前，GPT-3是有史以來訓(xùn)練復(fù)雜度最高的語言模型，共有1,750億個(gè)參數(shù)，如此多的神經(jīng)網(wǎng)絡(luò)結(jié)點(diǎn)需要經(jīng)過數(shù)周密集的云計(jì)算微調(diào)后，才能讓這個(gè)AI發(fā)揮神奇的作用。雖然這個(gè)參數(shù)量非常龐大，但遠(yuǎn)不及人腦在推理、感知以及情感能力方面的數(shù)百萬億（甚至千萬億）神經(jīng)突觸。

由于規(guī)模龐大，GPT-3可直接用于新任務(wù)以及簡短的演示，而無需針對特定數(shù)據(jù)進(jìn)行進(jìn)一步的微調(diào)。這意味著該模型只需學(xué)習(xí)幾個(gè)最初的示例，就可以成功地理解需要執(zhí)行的任務(wù)。與之前簡單的語言模型相比，此屬性有很大的改進(jìn)，而且更接近人類的實(shí)際行為，比如我們并不需要成千上萬的例子來區(qū)分貓和狗。

由于數(shù)據(jù)來源混雜，從各種基本的書籍到整個(gè)互聯(lián)網(wǎng)，從維基百科到《紐約時(shí)報(bào)》，因此GPT-3的訓(xùn)練數(shù)據(jù)有明顯的偏差，但它在將自然語言轉(zhuǎn)換為網(wǎng)站，創(chuàng)建基本的財(cái)務(wù)報(bào)告，破解語言謎題，乃至生成吉他指法等方面都有出色的表現(xiàn)。那么，在醫(yī)療保健領(lǐng)域又如何呢？

免責(zé)聲明

正如Open AI在GPT-3準(zhǔn)則中的警告，醫(yī)療保健“屬于高風(fēng)險(xiǎn)范疇，因?yàn)槿藗円揽繙?zhǔn)確的醫(yī)療信息做出生死攸關(guān)的決定，任何錯(cuò)誤都有可能導(dǎo)致嚴(yán)重的傷害。”此外，診斷醫(yī)療或精神疾病在該模型中屬于“不支持使用”。盡管如此，此次我們還是決定試一試，看看該模型在以下醫(yī)療領(lǐng)域的使用情況，下面我們從醫(yī)學(xué)的角度出發(fā)，按照敏感度從低到高將各項(xiàng)工作大致分為：

● 管理員與患者聊天

● 醫(yī)療保險(xiǎn)查詢

● 心理健康支持

● 醫(yī)療文件

● 醫(yī)學(xué)問答

● 醫(yī)學(xué)診斷

此外，我們還研究了該模型的某些參數(shù)對答案的影響（含精彩的內(nèi)幕揭秘）！

GPT-3，下一代私人醫(yī)療助理？

我們的第一項(xiàng)測試表明，似乎GPT-3可用于基本的管理任務(wù)，例如預(yù)約管理。但是當(dāng)深入研究時(shí)，我們發(fā)現(xiàn)該模型對時(shí)間沒有清晰的了解，也沒有任何恰當(dāng)?shù)倪壿?。有時(shí)它的記憶力明顯不足，如下圖所示，在處理預(yù)約的時(shí)候，患者曾明確表示下午6點(diǎn)之后沒空，但GPT-3還是推薦了下午7點(diǎn)。

在醫(yī)療保險(xiǎn)查詢方面表現(xiàn)如何呢？

與上述管理任務(wù)類似，GPT-3可以幫助護(hù)士或患者從長篇大論中快速找到某條信息，比如找到特定檢查項(xiàng)目的保險(xiǎn)條例。但在如下示例中，我們?yōu)樵撃Ｐ统噬狭碎L達(dá)4頁的保險(xiǎn)條款列表，其中X射線檢查需要自付10美元，MRI檢查需要自付20美元。我們提出了兩個(gè)問題，GPT-3可以準(zhǔn)確地告知患者X射線檢查的價(jià)格，但未能匯總出多項(xiàng)檢查的總金額?？梢奊PT-3缺乏基本的推理能力。

通過回收電子產(chǎn)品緩解壓力！

當(dāng)你坐在客廳的沙發(fā)上，放松休息并與GPT-3交談時(shí)，它會傾聽患者的問題，甚至提出一些可行的建議。這可能是GPT-3在醫(yī)療保健中最出色的用例之一。而實(shí)際上，1966年的Eliza算法僅通過模式匹配就實(shí)現(xiàn)了像人類一樣的行為，所以GPT-3的成果也并不足為奇。

GPT-3與Eliza的關(guān)鍵區(qū)別在于，Eliza這類基于規(guī)則的系統(tǒng)能夠完全控制計(jì)算機(jī)的響應(yīng)。換句話說，我們確信這類系統(tǒng)不會給出任何可能對患者有害的說法。

然而，不幸的是與Eliza相反，在如下示例中，GPT-3卻建議患者自殺……

此外，該模型還可能提出意想不到的答案，比如它會建議患者多多回收電子產(chǎn)品，以緩解壓力，雖然理由比較牽強(qiáng)，但也非常有道理！

醫(yī)療文件

GPT-3在總結(jié)和簡化文字方面的表現(xiàn)非常出色，這非常有利于幫助患者理解滿篇專業(yè)術(shù)語的醫(yī)學(xué)報(bào)告，或是幫助醫(yī)生快速了解患者悠久的病史。不過，GPT-3還不能完全勝任這項(xiàng)工作（至少目前還不行）。我們的測試表明，GPT-3得出的結(jié)果過于簡單，難以建立因果關(guān)系，而且還缺乏基本的演繹推理。

醫(yī)療問答：不及Google

在尋找特定的科學(xué)信息、藥物劑量或處方支持時(shí)，我們的實(shí)驗(yàn)表明，GPT-3不夠可靠，不足以作為醫(yī)生可信賴的支持工具使用。因?yàn)檫@存在一個(gè)嚴(yán)重的問題：GPT-3經(jīng)常會給出內(nèi)容錯(cuò)誤但語法正確的答案，而且不會提供任何文獻(xiàn)引用供醫(yī)生核對。在急診科忙碌的醫(yī)生看到這般語法合理的語句時(shí)，很容易錯(cuò)誤地將其當(dāng)作有效的醫(yī)學(xué)陳述。例如，下面的第一個(gè)答案是正確的，但第二個(gè)答案不正確。

診斷：風(fēng)險(xiǎn)自負(fù)

診斷是一個(gè)更為復(fù)雜的問答任務(wù)：輸入癥狀，然后獲得有可能解釋這些癥狀的潛在條件。最新的癥狀檢查系統(tǒng)（Babylon、Ada、KHealth等）雖然不夠完善，但完勝GPT-3，因?yàn)樗鼈兌坚槍︶t(yī)療診斷經(jīng)過了精心優(yōu)化。這些系統(tǒng)的優(yōu)勢在于，它們可以輸出不同的診斷結(jié)果以及相應(yīng)的概率，對于醫(yī)生來說這是一種置信度的測量。而如下GPT-3得出的第一個(gè)診斷結(jié)果忽略了這個(gè)有發(fā)燒癥狀的小女孩可能患有篩竇炎，而且還莫名地提到了“皮疹”。

在另一項(xiàng)測試中，GPT-3忽略了肺栓塞。幸運(yùn)的是，沒有人因此死亡！

內(nèi)幕揭秘

正如其他人所觀察到的那樣，GPT-3輸出的質(zhì)量很大程度上取決于其使用的種子詞匯，以兩種不同方式提出同一個(gè)問題也可能得到差異非常大的兩個(gè)答案。此外，該模型的各種參數(shù)（例如溫度參數(shù)和top P參數(shù)）也起著重要作用。溫度參數(shù)和top P參數(shù)控制著該引擎所呈現(xiàn)答案的風(fēng)險(xiǎn)和創(chuàng)造力。

溫度參數(shù)

在不同的溫度參數(shù)設(shè)定下，對于同一個(gè)問題，我們得到了兩個(gè)截然相反的答案。如下是當(dāng)溫度參數(shù)T = 0.9時(shí)得出的答案。

相比之下，在溫度參數(shù)極低的情況下（T = 0），相似種子永遠(yuǎn)會給出完全相同且非常直接的答案。

頻率懲罰參數(shù)與存在懲罰參數(shù)

此外，我們還應(yīng)注意頻率懲罰參數(shù)與存在懲罰參數(shù)，二者既能防止單詞重復(fù)又能防止主題重復(fù)。在醫(yī)學(xué)上，直觀地來講我們應(yīng)盡可能降低這兩個(gè)參數(shù)，因?yàn)檫^于生硬的主題切換可能引發(fā)混亂，而且重復(fù)實(shí)際上相當(dāng)有用。然而，通過比較人類兩次提出的同一個(gè)問題，我們可以清楚地看到，具有重復(fù)懲罰的模型更富有同情心且更友好，而另一種設(shè)定則看起來比較冷漠且對于人類來說重復(fù)過多。下面是一個(gè)沒有懲罰的例子。

而下面則是一個(gè)懲罰滿格的例子：

總結(jié)

正如OpenAI所警告的那樣，距離GPT-3真正在醫(yī)療保健領(lǐng)域大展拳腳，我們還有很長一段的路要走。由于GPT-3的訓(xùn)練方式，它缺乏科學(xué)和醫(yī)學(xué)領(lǐng)域的專業(yè)知識，因此尚不能勝任醫(yī)學(xué)文獻(xiàn)記錄、診斷支持、給出治療建議或回答醫(yī)生問題等工作。雖然GPT-3可能給出正確的答案，但也很有可能給出非常錯(cuò)誤的答案，這種不一致在醫(yī)療保健領(lǐng)域中是站不住腳的。即使對于翻譯或總結(jié)醫(yī)學(xué)術(shù)語等管理任務(wù)，GPT-3的發(fā)展前景雖然良好，但距離真正為醫(yī)生提供支持還需要付出很大的努力。在目前這個(gè)階段，與采用一種雄心勃勃的通用模型相比，采用多個(gè)經(jīng)過專項(xiàng)任務(wù)訓(xùn)練的監(jiān)管模型更為有效。

話雖如此，GPT-3的聊天模塊似乎已做好準(zhǔn)備鞠躬盡瘁，為醫(yī)生減輕重?fù)?dān)。在結(jié)束了一天的忙碌之后，坐下來與私人醫(yī)療助手開懷暢談，可以為你洗去一天的塵埃，拋去一天的勞累。

此外，毫無疑問，從整體上來看語言模型也將得到快速改善，這不僅會對上述用例產(chǎn)生積極的影響，而且也會影響到其他重大問題，例如信息結(jié)構(gòu)與規(guī)范化或自動咨詢匯總等。

原文：https://www.nabla.com/blog/gpt-3/

本文為 CSDN 翻譯，轉(zhuǎn)載請注明來源出處。