飛象網(wǎng)訊 1月29日午間消息,百川智能宣布發(fā)布超千億參數(shù)的大語言模型Baichuan 3。在 CMMLU、GAOKAO 和 AGI-Eval 等評(píng)測中,Baichuan 3 號(hào)稱在中文任務(wù)上超越了 GPT-4。
據(jù)介紹,百川智能在 Baichuan 3 訓(xùn)練過程中提出了“動(dòng)態(tài)數(shù)據(jù)選擇”、“重要度保持”以及“異步 CheckPoint 存儲(chǔ)”等多種技術(shù)手段及方案,穩(wěn)定訓(xùn)練時(shí)間達(dá)到一個(gè)月以上,故障恢復(fù)時(shí)間不超過 10 分鐘。
百川智能官方表示,Baichuan 3 還突破“迭代式強(qiáng)化學(xué)習(xí)”技術(shù),進(jìn)一步提升了語義理解和生成能力,在詩詞創(chuàng)作的格式、韻律、表意等方面進(jìn)行了提升,對(duì)于宋詞這種格式多變,結(jié)構(gòu)深細(xì)、韻律豐富的高難度文體,生成的內(nèi)容亦能工整對(duì)仗、韻腳和諧,讓每個(gè)人都能創(chuàng)作出詠物、寄思的五言律詩、七言絕句,寫下的言志、抒情的“沁園春”、“定風(fēng)波”。
據(jù)介紹,面向醫(yī)療行業(yè),百川智能在模型預(yù)訓(xùn)練階段構(gòu)建了超過千億Token的醫(yī)療數(shù)據(jù)集,該數(shù)據(jù)集涵蓋了從理論到實(shí)際操作,從基礎(chǔ)理論到臨床應(yīng)用等各個(gè)方面的醫(yī)學(xué)知識(shí),確保了模型在醫(yī)療領(lǐng)域的專業(yè)度和知識(shí)深度。在對(duì)邏輯推理能力及專業(yè)性要求極高的MCMLE、MedExam等權(quán)威醫(yī)療評(píng)測上的中文效果同樣超過了GPT-4。