BenTsao:自己訓(xùn)練1個醫(yī)學(xué)模型
冠狀病毒
嘿,大家好!第二次傳染了新冠,已然過去了4天,但我還沒有轉(zhuǎn)陰。今日咱們來聊一聊醫(yī)學(xué)行業(yè)的GPT模型吧!
實(shí)則,除了ChatGPT,如今醫(yī)療行業(yè)也有十分快捷的GPT模型可供應(yīng)用了。醫(yī)聯(lián)在5月25日正式公布了一款名為MedGPT的醫(yī)療大話語模型,該模型具有1000億個參數(shù)。預(yù)訓(xùn)練階段應(yīng)用了超越20億條醫(yī)學(xué)文本信息作為根基。但在微調(diào)階段,它結(jié)合了800萬條高品質(zhì)的構(gòu)造化臨床診斷信息,并獲得了100多位醫(yī)師的人工反饋督促。
MedGPT具有覆蓋國際疾病與有關(guān)健康問題統(tǒng)計(jì)分類第十版(ICD-10)中百分之六十的疾病病種的本領(lǐng)。你可以通過輸入病情數(shù)據(jù)與MedGPT進(jìn)行交互,獲得對于本身疾病的有關(guān)數(shù)據(jù)和倡議,就像具有了1個私家醫(yī)師同樣。
假設(shè)你有興致自己訓(xùn)練或者搭造1個相似的MedGPT模型,實(shí)際上在GitHub上有1個名為"本草(BenTsao)"的項(xiàng)目可以給你供應(yīng)考慮。這個項(xiàng)目借用中文醫(yī)學(xué)常識建立了醫(yī)學(xué)常識圖譜,并結(jié)合GPT3.5 API對LLaMA模型進(jìn)行了指令微調(diào),以提升在醫(yī)療行業(yè)的問答成效。
BenTsao GitHub截圖
咱們來看看實(shí)際的成效吧,以下是許多示例:
腹脹、肝區(qū)疼痛
心悸、氣促
肝膽管結(jié)石
固然,實(shí)際的成效能夠并非完美,給人一類仿佛答復(fù)又仿佛沒有答復(fù)的感覺。這首要是由于訓(xùn)練信息和輪次不足造成的。期望為項(xiàng)目做奉獻(xiàn)的開發(fā)者們可能連續(xù)盡力,進(jìn)一步優(yōu)化和完備這個模型,以供應(yīng)更確切、有用的答復(fù)。
假設(shè)你期望在本地布置BenTsao,只要將模型量化壓縮為8位,推斷流程所需的顯存占用會在9GB下列。此外,假設(shè)你可以訪問Google Colab,可以應(yīng)用我供應(yīng)的jupyter notebook文件,我會把鏈接放在末尾。
對于訓(xùn)練方面,你須要一起24GB顯存及以上的顯卡,我嘗試過16GB顯存的顯卡會造成顯存溢出。