從文本生成模型ChatGPT到文生視頻模型Sora,人工智能大模型的發(fā)展日新月異,行業(yè)門檻也不斷提高。筆者認(rèn)為,在瞬息萬變的產(chǎn)業(yè)發(fā)展進(jìn)程中,為了在全球AI競爭中占據(jù)優(yōu)勢,國內(nèi)大模型的技術(shù)攻克變得迫在眉睫。
第一,保證訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。一直以來,大模型的訓(xùn)練依賴大量數(shù)據(jù),包括文本、語音、圖像、視頻等,也需要從公開數(shù)據(jù)集、合作伙伴和用戶互動中收集信息。高質(zhì)量的訓(xùn)練數(shù)據(jù)是大模型成功的關(guān)鍵之一,中國工程院院士高文指出,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語料的占比僅為1.3%。解決中文數(shù)據(jù)不足和質(zhì)量問題,以及如何獲取和處理多樣化數(shù)據(jù),成為行業(yè)面臨的一大挑戰(zhàn)。在此背景下,國內(nèi)大模型公司可以積極尋求與各大中文內(nèi)容平臺的合作,建立中文數(shù)據(jù)共享機(jī)制,以豐富中文語料庫。同時,應(yīng)注重數(shù)據(jù)的清洗和標(biāo)注工作,確保訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和有效性。
第二,提升算力、顯卡、芯片等核心競爭力。隨著大模型的規(guī)模和復(fù)雜度不斷提升,對算力的需求也急劇攀升。緩解算力需求方面,國家發(fā)改委明確將數(shù)據(jù)中心和智能計算中心納入新型基礎(chǔ)設(shè)施建設(shè)的范圍,以加速算力供給基建化。頭部企業(yè)和研究機(jī)構(gòu)也須在開發(fā)更高效的計算架構(gòu)等方面加大投入。在顯卡和芯片研發(fā)領(lǐng)域,目前更多聚焦在頭部企業(yè)之間,這也是一條需要克服諸多阻礙的艱難道路。對此,企業(yè)之間可以加強(qiáng)合作與交流,共同攻克技術(shù)難題。同時,也需要加大對國產(chǎn)芯片的投資力度,鼓勵全國組建更多的產(chǎn)業(yè)集群,推動相關(guān)產(chǎn)業(yè)高質(zhì)量發(fā)展。
第三,緩解AI大模型人才缺口。據(jù)《2023人工智能人才洞察報告》預(yù)測,到2030年,全國AI人才的需求將達(dá)到600萬人,而人才缺口卻達(dá)到400萬人,AI應(yīng)用型人才培養(yǎng)已經(jīng)迫在眉睫。為了彌補(bǔ)這一缺口,建議高新科技企業(yè)與國內(nèi)高校開展深度合作,共同制定人才培養(yǎng)計劃,為更多高校年輕人提供市場一線學(xué)習(xí)機(jī)會,吸引更多年輕人投身AI領(lǐng)域。此外,政府可以面向社會大眾,增加免費(fèi)的AI基礎(chǔ)技能培訓(xùn)機(jī)會,推動AI相關(guān)知識在各個領(lǐng)域的普及。
第四,尋找合適的商業(yè)化落地場景。目前,Sora等文生視頻模型的技術(shù)革新,正在加速AI同廣告、影視、游戲、短視頻等領(lǐng)域的融合。中國是全球最大的AIGC內(nèi)容消費(fèi)市場之一,還有大量商業(yè)潛力等待挖掘。為充分挖掘商業(yè)潛力,大模型公司可以積極尋求與各行業(yè)的合作機(jī)會,熟悉不同業(yè)態(tài)的AI需求,共同探索技術(shù)優(yōu)化和商業(yè)合作模式,推動AI技術(shù)在各個領(lǐng)域的廣泛應(yīng)用,為行業(yè)發(fā)展創(chuàng)造更多機(jī)遇。
人工智能時代已經(jīng)到來,龐大的市場也意味著更多的機(jī)遇,隨著越來越多的資本入局,以及市場各方積極協(xié)作,我國大模型行業(yè)高質(zhì)量發(fā)展未來可期。