2月25日,人工智能國(guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2025開幕,在此次大會(huì)論文錄用結(jié)果中,中國(guó)電信人工智能研究院(TeleAI)科研團(tuán)隊(duì)10篇論文成功入選,不僅覆蓋大語(yǔ)言模型偏好對(duì)齊、視覺(jué)模型參數(shù)微調(diào)、正激勵(lì)噪聲(PI Noise)采樣和表征對(duì)齊等技術(shù)方面的突破,更包括人工智能與化學(xué)、醫(yī)療的交叉研究等多個(gè)方向的系列創(chuàng)新。
AAAI會(huì)議由國(guó)際先進(jìn)人工智能協(xié)會(huì)主辦,是人工智能領(lǐng)域歷史最為悠久、最具影響力的頂級(jí)學(xué)術(shù)會(huì)議之一。本屆大會(huì)共收到12957篇有效投稿,最終3032篇文章脫穎而出,接收率為23.4%。
讓AI讀懂化學(xué)反應(yīng)方程式
人工智能技術(shù)的創(chuàng)新在基礎(chǔ)科學(xué)研究中的作用越發(fā)凸顯。隨著大語(yǔ)言模型(LLM)的快速發(fā)展,AI對(duì)科學(xué)文獻(xiàn)和技術(shù)專利的理解、分析和描述正得到廣泛應(yīng)用。LLM在化學(xué)任務(wù)中的重點(diǎn)之一是進(jìn)行“分子文本描述生成”(Molecule Captioning),即將分子的相關(guān)信息轉(zhuǎn)化為自然語(yǔ)言文本描述,并在其之間進(jìn)行對(duì)齊。然而,現(xiàn)有工作主要集中在單分子上,化學(xué)反應(yīng)和自然語(yǔ)言文本之間的一致性在很大程度上仍然未被探索。
作為專利和文獻(xiàn)的重要組成部分之一,對(duì)化學(xué)反應(yīng)進(jìn)行準(zhǔn)確描述不僅可以更好地理解化學(xué)反應(yīng)的過(guò)程,且有助于促進(jìn)化學(xué)合成和逆合成的自動(dòng)化相關(guān)研究。
為此,TeleAI聯(lián)合華東師范大學(xué)等單位提出了一項(xiàng)“ReactGPT”框架,集成了基于化學(xué)反應(yīng)的指紋檢索模塊、特定領(lǐng)域提示設(shè)計(jì)模塊、兩階段上下文調(diào)優(yōu)模塊。
基于化學(xué)反應(yīng)的指紋檢索模塊利用“化學(xué)反應(yīng)指紋”高效且精準(zhǔn)地檢索相關(guān)反應(yīng),并通過(guò)計(jì)算不同反應(yīng)指紋之間的相似度,快速?gòu)拇笠?guī)模的化學(xué)反應(yīng)數(shù)據(jù)庫(kù)中找出與目標(biāo)反應(yīng)最相關(guān)的若干個(gè)反應(yīng)實(shí)例。這種檢索方式基于反應(yīng)的內(nèi)在特征,而非僅僅依靠簡(jiǎn)單的關(guān)鍵詞匹配,大大提高了檢索的準(zhǔn)確性和效率。同時(shí),它為后續(xù)的上下文學(xué)習(xí)提供了高質(zhì)量、有針對(duì)性的示例,使得模型能夠基于這些相似反應(yīng)更好地學(xué)習(xí)化學(xué)反應(yīng)與文本之間的關(guān)聯(lián)模式。
特定領(lǐng)域提示設(shè)計(jì)模塊聚焦設(shè)計(jì)適用于化學(xué)領(lǐng)域的提示信息,以引導(dǎo)大語(yǔ)言模型更好地理解和處理化學(xué)反應(yīng)與文本的對(duì)齊任務(wù)。該模塊會(huì)根據(jù)化學(xué)知識(shí)的特點(diǎn)和任務(wù)需求,精心設(shè)計(jì)提示內(nèi)容。這些提示可能包含特定的化學(xué)術(shù)語(yǔ)解釋、反應(yīng)條件說(shuō)明、文本生成的格式要求等。通過(guò)精心設(shè)計(jì)的提示,能夠有效激發(fā)大語(yǔ)言模型在化學(xué)領(lǐng)域的潛力,讓其生成更符合化學(xué)邏輯和規(guī)范的文本描述,從而提升模型在化學(xué)反應(yīng)相關(guān)任務(wù)中的表現(xiàn)。
在兩階段上下文調(diào)優(yōu)模塊中,第一階段,利用從指紋檢索模塊獲取的相關(guān)反應(yīng)示例和特定領(lǐng)域提示設(shè)計(jì)模塊生成的提示信息,讓模型在上下文中初步學(xué)習(xí)化學(xué)反應(yīng)與文本的對(duì)齊模式。第二階段,對(duì)模型進(jìn)行進(jìn)一步的精細(xì)調(diào)優(yōu),結(jié)合更多的反饋信息和實(shí)際任務(wù)的要求,調(diào)整模型的參數(shù),使其能夠更準(zhǔn)確地生成化學(xué)反應(yīng)的文本描述。通過(guò)這種兩階段的調(diào)優(yōu)方式,逐步提升模型對(duì)化學(xué)反應(yīng)的理解和文本生成能力,以適應(yīng)不同復(fù)雜程度的化學(xué)反應(yīng)與文本對(duì)齊任務(wù)。

ReactGPT框架旨在彌合化學(xué)反應(yīng)與文本之間的差距。實(shí)驗(yàn)結(jié)果表明,與先前模型相比,ReactGPT在解決化學(xué)反應(yīng)問(wèn)題和生成結(jié)構(gòu)正確的高質(zhì)量文本方面表現(xiàn)出色。
讓AI理解放射科醫(yī)學(xué)偏好
放射學(xué)報(bào)告對(duì)醫(yī)生的診斷意義重大,但人工撰寫不僅負(fù)擔(dān)重且易出錯(cuò),現(xiàn)有的自動(dòng)報(bào)告生成技術(shù)RRG(Radiology Report Generation)方法多基于監(jiān)督回歸或注入額外知識(shí),生成報(bào)告難以契合醫(yī)生多元偏好。
為應(yīng)對(duì)這一挑戰(zhàn),TeleAI提出多目標(biāo)偏好優(yōu)化(MPO),將預(yù)訓(xùn)練的報(bào)告生成模型根據(jù)多個(gè)人類偏好進(jìn)行調(diào)整,具體通過(guò)多維獎(jiǎng)勵(lì)函數(shù)來(lái)微調(diào),并通過(guò)多目標(biāo)強(qiáng)化學(xué)習(xí)(RL)進(jìn)行優(yōu)化,從而使模型能夠在不同的偏好條件下生成符合特定醫(yī)生偏好的報(bào)告。
研究通過(guò)引入兩個(gè)新的模塊來(lái)實(shí)現(xiàn)與人類偏好的對(duì)齊。首先,設(shè)計(jì)了一個(gè)偏好向量融合(PVF)網(wǎng)絡(luò),它位于標(biāo)準(zhǔn)的Transformer編碼器和解碼器之間,利用多頭注意力機(jī)制和殘差連接將偏好向量與編碼后的圖像特征融合,實(shí)現(xiàn)條件生成。其次,提出了一個(gè)多目標(biāo)優(yōu)化(MOO)模塊,該模塊使用偏好向量表示偏好權(quán)重,并通過(guò)點(diǎn)積操作將多維獎(jiǎng)勵(lì)與偏好向量線性組合,形成加權(quán)的多目標(biāo)獎(jiǎng)勵(lì)函數(shù)。然后,通過(guò)強(qiáng)化學(xué)習(xí)(RL)算法優(yōu)化這個(gè)加權(quán)獎(jiǎng)勵(lì)函數(shù),引導(dǎo)RRG模型與偏好向量對(duì)齊。
在訓(xùn)練階段,模型通過(guò)隨機(jī)采樣多樣化的偏好向量并優(yōu)化加權(quán)多目標(biāo)獎(jiǎng)勵(lì)函數(shù)進(jìn)行對(duì)齊,從而在整體偏好空間上獲得最優(yōu)策略。在推理階段,模型能根據(jù)給定的偏好向量生成符合特定偏好的報(bào)告,無(wú)需進(jìn)一步微調(diào)。這種方法不僅能夠生成符合人類偏好的報(bào)告,而且在單個(gè)模型內(nèi)無(wú)需額外的微調(diào)即可適應(yīng)不同偏好,實(shí)現(xiàn)了在兩個(gè)公共數(shù)據(jù)集上的性能達(dá)到了最先進(jìn)的水平。
人工智能與化學(xué)、醫(yī)療等交叉學(xué)科的結(jié)合,能夠?yàn)楦黝I(lǐng)域的研究工作帶去新方法和新視角,為解決復(fù)雜問(wèn)題提供更全面的思路和方向,為培養(yǎng)復(fù)合型人才提供實(shí)踐土壤。未來(lái),TeleAI將結(jié)合中國(guó)電信在算力、數(shù)據(jù)、應(yīng)用場(chǎng)景等多方面的優(yōu)勢(shì),持續(xù)推進(jìn)這種跨學(xué)科的合作模式,推動(dòng)人工智能研究不斷開創(chuàng)新的局面。