自2022年年底ChatGPT打響大模型熱潮第一槍,至今已有一年半多的時間,大模型持續(xù)受到業(yè)界高度關注。大模型當前發(fā)展情況如何,未來又將如何演進發(fā)展?天翼智庫大模型研究團隊專家就知乎上廣受關注的14個相關熱點問題進行了專業(yè)性回答。本文是上述問答內容的摘編。
大模型入門
1.什么是大模型、超大模型和Foundation Model?
天翼智庫:大模型通常指具有大規(guī)模參數(shù)、能捕捉和學習更復雜數(shù)據(jù)模式的模型,在各種任務上表現(xiàn)更為出色,如自然語言理解、圖像識別等。超大模型是大模型的一個子集,參數(shù)通常達數(shù)千億甚至數(shù)萬億。隨著模型規(guī)模(如參數(shù)數(shù)量、數(shù)據(jù)量、計算量)增大,其性能通常會隨之提高,能處理更廣泛任務,在特定任務上達更高精度,甚至會“涌現(xiàn)”新能力,如常識推理、創(chuàng)作能力等。Foundation Model是一種特定類型的大模型,被設計為能夠處理多種類型的任務,而不專門針對某一特定任務,通常具有高度泛化能力。
2.如何系統(tǒng)地入門大模型?
天翼智庫:第一步是基礎知識學習。通過在網(wǎng)站搜索各類專家的視頻課程來學習,如吳恩達、李宏毅等。核心內容包括機器學習、深度學習、自然語言處理等。第二步是了解大模型技術。通過視頻學習或閱讀書籍如《這就是ChatGPT》。學習知識點包括Transformer架構、預訓練與微調、多模態(tài)大模型等。第三步是實踐操作。通過多種方式在實際操作中檢驗學習成果,包括但不限于,研究開源大模型源碼,理解其內部運作;通過Hugging Face、阿里云ModelScope等平臺,直接調用現(xiàn)有大模型進行應用開發(fā)。
3.想學習大語言模型(LLM),應該從哪個開源模型開始?
天翼智庫:Llama系列模型是一個非常好的起點,原因有三:一是生態(tài)全面。Llama系列模型擁有較完善的開源資源、工具和社區(qū)等生態(tài)支持,遇到問題時更容易找到解決方案、獲得實踐上的幫助。二是上手方便。Llama系列模型提供一個無需GPU的體驗版本llama.cpp,可在不具備高性能硬件的條件下開始學習和實踐。三是擴展性強。Llama系列模型具有普及性,有許多人在其基礎上進行擴展和優(yōu)化,如Flash Attention算法已成為標準組件,為學習者提供現(xiàn)成案例和改進方向。
大模型發(fā)展現(xiàn)狀總結
1.從ChatGPT橫空出世到國內外“百模大戰(zhàn)”,目前大模型發(fā)展情況如何?
天翼智庫:大模型仍處于快速發(fā)展和變革時期,呈現(xiàn)四大發(fā)展特征。一是技術快速迭代,邁進原生多模態(tài)時代。2024年5月,OpenAI和谷歌前后腳放出基于自身原生多模態(tài)大模型打造的最新模型產(chǎn)品GPT-4o和Project Astro,開啟原生多模態(tài)大模型新階段。二是端側大模型加速落地,或成未來交互新入口。AI手機、AI PC、人形機器人、智能座駕等市占率有望快速提升,如IDC預計2024年國內AI手機市場出貨量為3700萬臺、占比13.2%,到2027年將達到1.5億臺、市占率超50%。三是大模型在各行各業(yè)滲透日益加深,展現(xiàn)強大應用潛力。Gartner預計到2027年, 企業(yè)中使用的超過50%的生成式AI模型將是垂直領域模型 (行業(yè)或業(yè)務功能相關), 2023年只有1%。四是大模型倫理與安全問題凸顯,各國法律法規(guī)跟進。隨著大模型廣泛應用,其可能帶來的倫理、偏見及數(shù)據(jù)安全問題引起廣泛關注,各國政府和監(jiān)管機構相繼出臺相關政策法規(guī)。
2.如何看待國產(chǎn)大模型的現(xiàn)狀?
天翼智庫:據(jù)天翼智庫基于公開資料的不完全統(tǒng)計,當前我國通用大模型87個,行業(yè)大模型341個,主要集中在北上廣三地。大模型發(fā)展熱潮背后,我們發(fā)現(xiàn)國內通用大模型同質化問題嚴重,缺乏原創(chuàng)性突破,應用上缺乏獨特性;行業(yè)大模型多而不精,實際落地和商業(yè)化進程緩慢。究其原因,我們認為:一是原創(chuàng)性算法架構創(chuàng)新不足。國內AI企業(yè)側重于對現(xiàn)有Transformer架構及其衍生模型進行優(yōu)化和應用創(chuàng)新,而非追求底層架構根本革新。2019-2023年全球發(fā)布的387個重要機器學習模型中,美國機構主導開發(fā)的達262個,中國僅68個。二是高端算力資源緊缺。一方面,美國對我芯片封鎖政策不斷升級;另一方面,核心算力芯片國產(chǎn)化進展較慢,高端芯片工藝長期被卡,芯片工藝和性能落后國際先進水平2-3代。三是高質量中文數(shù)據(jù)短缺。一方面,公共數(shù)據(jù)開放共享水平不足,數(shù)據(jù)可獲得性有待提高;另一方面,各行業(yè)數(shù)據(jù)體量龐大,但標準不一、產(chǎn)業(yè)化不足,仍存在數(shù)據(jù)使用和數(shù)據(jù)安全之間的平衡問題。
國內曾經(jīng)也出現(xiàn)過“百團大戰(zhàn)”(團購),最終只有2-3家生存下來。我們認為未來國內主導的通用大模型只有3-5家,甚至只有1-2家,現(xiàn)有的大量模型廠商將轉型到大模型垂直領域和應用開發(fā)領域。
3.目前國內大模型處于什么階段,是否有關鍵技術壁壘?
天翼智庫:目前處于追趕國外先進水平的階段。盡管國內在大模型研發(fā)上展現(xiàn)出巨大熱情,但與國際前沿模型相比仍存在一定差距,如號稱整體超越GPT-4 Turbo的訊飛星火大模型V4.0于2024年6月發(fā)布,而GPT-4 Turbo則于2023年11月發(fā)布,時間領先超半年。關鍵的技術挑戰(zhàn)集中在大模型的核心算法和基礎架構設計上。目前,大模型主要基于Transformer架構,并采用預測next token作為主要訓練策略。為實現(xiàn)直道超車,可以通過增加模型參數(shù)、強化多模態(tài)和AI Agent產(chǎn)品能力等策略。同時,探索超越參數(shù)規(guī)模增長的新理論基礎,甚至提出非基于連接學派的新策略,可能為大模型帶來彎道超車的機遇,從根本上解決高能源消耗和大模型難以具備邏輯思維能力等問題。
4.目前國內有哪些開源多模態(tài)大模型?
天翼智庫:據(jù)天翼智庫基于公開資料的不完全統(tǒng)計,當前國內開源多模態(tài)大模型至少有28個,發(fā)布者主要分為科技企業(yè)、科研機構兩類,具體包括阿里的Qwen-VL、Qwen-Audio;智譜AI聯(lián)合清華大學發(fā)布的VisualGLM-6B、CogVLM;零一萬物的Yi-VL;面壁智能聯(lián)合清華大學NLP實驗室發(fā)布的MiniCPM-V 2.0、OmniLMM、VisCPM-Chat、VisCPM-Paint;中國電信的TeleSpeech-ASR;商湯科技的Shikra;字節(jié)跳動的BuboGPT;美團的MobileVLM;小紅書的InstantID;上海AI lab的VideoChat、MM-Interleaved、LLM InternLM-XComposer-2.5;阿里達摩院的mPLUG-Owl;北京智源人工智能研究院的AltCLIP、AltDiffusion、EVA、Painter、SegGPT、Uni3D、Emu2、EVA-CLIP-18B;IDEA研究院的太乙、Ziya-Visual。
大模型發(fā)展深度剖析
1.大模型發(fā)展中有哪些經(jīng)驗和教訓?
天翼智庫:主要總結四點可供企業(yè)、開發(fā)者、用戶借鑒的經(jīng)驗。一是提示工程的自動化可能會減少對人類工程師的依賴,并將以新的形態(tài)存在。當前趨勢表明,自動生成的提示詞(以下簡稱prompt)在很多情況下表現(xiàn)優(yōu)于人類工程師設計的prompt。隨著技術不斷進步,提示工程的自動化或減少對人類工程師的依賴并將以新形態(tài)存在,如集成到基礎模型或作為大語言模型運營(LLMOps)的一部分,仍然需要人類參與。二是混合專家模型(以下簡稱MoE)架構有望超越傳統(tǒng)范式實現(xiàn)低成本萬億參數(shù)大模型。MoE架構通過將任務分解為多個子問題,并由不同的專家模型分別處理,展現(xiàn)了其在提高預測性能方面的潛力。三是隨著數(shù)據(jù)隱私法規(guī)的加強和高質量數(shù)據(jù)的稀缺,數(shù)據(jù)合成技術在大模型研發(fā)流程中的重要性愈發(fā)凸顯。四是基于SFT的企業(yè)大模型微調策略門檻較高,RAG+知識庫的方案有望成為主流。基于SFT(Supervised Fine-Tuning)的企業(yè)大模型微調策略雖能快速帶來效果,但計算密集且資源消耗大。結合RAG(Retrieval-Augmented Generation)和知識庫的方案不僅能提供個性化和領域特定的回答,且相較于SFT可能更易實施和維護,有望成為企業(yè)大模型微調的主流策略。
2.開源大模型是否比閉源大模型取得更多進展和成就?
天翼智庫:從模型性能的角度看,開源大模型進展落后于閉源大模型。據(jù)知名大模型競技場LMSYS Chatbot Arena Leaderboard于2024年7月8日更新的評測結果顯示,Top10均為閉源大模型,Top20中有6個開源大模型;據(jù)2024年7月15日查閱的斯坦福團隊發(fā)布的AlpacaEval Leaderboard顯示,Top10中僅有2個開源大模型。從技術普及發(fā)展的角度看,開源大模型的貢獻大于閉源大模型。開源大模型吸引大量開發(fā)者和研究人員自由地查看、修改和擴展模型,加速大模型技術創(chuàng)新和應用場景探索,同時開源社區(qū)貢獻智慧,又推動開源大模型自身發(fā)現(xiàn)并修復問題、提升模型質量。
3.大模型發(fā)展到現(xiàn)在,為什么還沒出現(xiàn)爆款級應用?
天翼智庫:一是國內C端用戶付費意愿普遍偏低,相較國外更難盈利。二是應用場景并非面向用戶剛需,難以形成穩(wěn)固用戶基礎。傳統(tǒng)爆款級軟件往往能解決用戶某方面剛需(例如社交 App),而對于大模型核心應用場景“內容生成”而言,大部分使用者只有嘗鮮并無硬性需求,影響用戶留存率。三是應用對用戶有使用門檻要求,限制了應用的易用性。模型回復質量取決于用戶個人提問技巧,用戶能力差異化帶來模型使用效果兩極化,導致當前大模型應用尚不具備爆款級應用“人人易用”的特性。四是模型幻覺問題依然存在,對使用體驗有較大影響。
如今AI技術站在“技術革新到應用繁榮的臨界點”上,爆款級應用或許并非難以出現(xiàn),而是正處于中間“應用準備期”階段。
4.大語言模型無法對數(shù)字進行準確運算的底層原因是什么?
天翼智庫:一是大模型的工作原理與數(shù)學運算的邏輯不一致。大語言模型基于上下文中詞與詞之間的關聯(lián)性獲取深層次語義信息,并根據(jù)統(tǒng)計概率預測下一個詞,更適合較為具象的自然語言理解與生成等任務。數(shù)學運算中上下文信息較少,數(shù)字含義更抽象,增加大模型理解難度。且大模型基于一定概率生成輸出內容,與數(shù)學運算需要嚴格根據(jù)運算規(guī)則進行準確計算的推理方式不完全匹配。二是不同的分詞方法對大模型的數(shù)學運算能力存在一定影響。不恰當?shù)姆衷~會增加大模型理解多位數(shù)的難度,難以建立token向量與數(shù)字之間的準確對應關系。此外,隨著多位數(shù)的位數(shù)增加,大模型將相同數(shù)位的數(shù)字進行對齊的難度也會增加,使大模型在分步計算過程中容易出錯。
5.2024年大模型還有哪些可研究的方向?
天翼智庫:總結十個國際主流企業(yè)認可的研究方向。一是模型融合技術。在不增大模型參數(shù)規(guī)模的前提下,通過模型融合來提升模型性能和效率,且新模型還沒有傳統(tǒng)集成方法的典型缺陷,如更高的算力需求。二是混合專家系統(tǒng)。通過將多個小型模塊組合起來創(chuàng)建MoE,可讓所得大模型的效果和效率媲美甚至超越大型模型。三是訓練更小的大模型。研究如何在保持或提升模型性能的同時,減少模型的大小和計算資源需求。四是個性化與定制化。開發(fā)能根據(jù)特定用戶需求進行個性化調整的大模型,以提供更加精準的服務。五是多模態(tài)大模型和多模態(tài)融合技術。繼續(xù)發(fā)展能處理多種類型數(shù)據(jù)的大模型,以應對復雜的現(xiàn)實世界問題。六是跨模態(tài)交互。通過不同的技術或方法促進不同模態(tài)之間有效交互和預測,包括多模態(tài)數(shù)據(jù)處理與轉換技術、跨模態(tài)學習等。七是模型對齊與安全可控。研究如何使大模型更好地對齊人類偏好,并確保其在使用過程中的安全性和可控性。八是時序預測與異常檢測。利用大模型在時序預測和異常檢測方面的應用潛力,進一步提升其在金融、醫(yī)療等領域的實際應用效果。九是智能體評測。通過指令遵從和偏好對齊的能力,評估大模型作為智能中樞解決復雜任務的能力。十是智能體評測交叉學科研究。將大模型與其他學科如語言學、政治學、社會學和心理學等進行交叉研究,以拓展其應用場景和理論深度。
大模型發(fā)展路徑展望
1.大模型再發(fā)展5年,搜索引擎還在嗎?
天翼智庫:大模型技術會與搜索引擎產(chǎn)品結合。從發(fā)展終局的視角看,結合大模型技術的搜索引擎最終會在用戶使用習慣、產(chǎn)品核心定位和企業(yè)市場格局三方面有新變化。一是用戶使用邊界從“檢索”向“問答”拓展。AI搜索讓信息的顆粒度從網(wǎng)頁細化到內容本身,在多數(shù)情況下將幫助用戶省去“逐個鏈接查看”、“對多個網(wǎng)頁源信息進行整合”兩個關鍵步驟,且“提問-回答-追問”的新用戶習慣也在快速建立。二是產(chǎn)品核心定位從“搜索引擎”轉向“大模型+搜索的整體問答系統(tǒng)”。首先,產(chǎn)品底層邏輯更加復雜,AI搜索的智能化水平成為新決定性因素。其次,產(chǎn)品UI界面重點從網(wǎng)頁列表轉移到內容答案。然后,產(chǎn)品商業(yè)模式將變得更加多元,如采用用戶付費訂閱制、后向整合打造內容生態(tài)并開啟知識付費等。最后,產(chǎn)品服務形態(tài)或從云服務向端云協(xié)同轉變。三是未來的搜索市場玩家將是整合大模型技術的傳統(tǒng)搜索龍頭企業(yè)以及AI搜索初創(chuàng)企業(yè)的混合市場格局。全球市場上的前兩名將仍然是谷歌、微軟,市場三四五名或迎來新一輪洗牌,專業(yè)AI搜索初創(chuàng)產(chǎn)品或殺出重圍。
2.大模型的終局是“通用”還是“專用”?
天翼智庫:通用大模型通過在海量數(shù)據(jù)上進行大規(guī)模預訓練學習大量知識,獲得面向任務的通用求解能力,契合C端用戶的多樣化、碎片化需求。專用大模型遵循“大規(guī)模預訓練+微調”的范式,針對特定任務進行微調以更好地適應實際應用場景需要。專用大模型能力發(fā)展源自辦公、制造、醫(yī)療等場景降本增效、提高準確率等訴求,并最終向B端、G端客戶提供適合細分場景的定制化大模型能力。通用大模型和專用大模型各有優(yōu)勢,未來將趨于并行發(fā)展。通用大模型將繼續(xù)作為技術基礎,推動模型架構創(chuàng)新和應用普及;專用大模型將在特定領域和任務中提供更精準和高效的服務。隨著技術不斷進步和融合,未來或出現(xiàn)更加靈活、智能的模型架構和訓練方法,以實現(xiàn)通用與專用的最佳結合。