精品入口,欧美在线观看视频入口国产

文/ Rainbow主流終端廠商合規(guī)負責人

塑造一個智能體作為人類的助手，在AI時代具有光明的前景。

這也是智能手機、智能設備，甚至軟件廠商都在嘗試的布局。

2024年，榮耀發(fā)布首款搭載AI Agent的榮耀Magic7，推出YOYO智能體；小米15搭載澎湃OS 2，并升級“小愛”為“超級小愛”；vivo也發(fā)布了PhoneGPT。

大模型走進端側讓設備具備了“大腦”，智能體則具象化成為鏈接用戶的最佳入口。

但是，智能體作為一個“新興物種”，落地應用有很多問題仍需厘清，什么稱得上智能體？其如何實現(xiàn)人類助手的功能？在處理龐大的數(shù)據(jù)量的情況下，如何保障數(shù)據(jù)合規(guī)？終端AI智能體可能沖擊第三方應用流量乃至App生態(tài)模式，接下來如何促進健康的產(chǎn)業(yè)發(fā)展？

本文將就此展開討論。

一、AI Agents 的崛起與未來趨勢

（一）從自動化到通用智能：AI Agents 的演進脈絡

人工智能（Artificial Intelligence）經(jīng)過數(shù)十年的發(fā)展，已從早期注重邏輯推理、專家系統(tǒng)，逐步演進到基于深度學習、大規(guī)模預訓練模型（LLMs）的時代。隨著模型規(guī)模的指數(shù)級擴張以及多模態(tài)技術的興起，AI Agents（也可稱為智能體）開始具備更強的交互與決策能力，不再局限于單一任務的自動化，而是能夠在更復雜的環(huán)境下自主地進行規(guī)劃、執(zhí)行、糾錯。

近年來，OpenAI、DeepMind、谷歌、微軟、Meta、智譜AI等研究機構和企業(yè)，紛紛在智能體技術上取得顯著突破。多數(shù)智能體都強調(diào)對環(huán)境的感知與操作，既包括文字、語音，也涵蓋了視覺、甚至物理環(huán)境。部分學者將這類增強能力的系統(tǒng)稱為具身智能AI（Embodied AI），而其中的GUI（Graphical User Interface） Agent即專門針對人機圖形交互界面進行理解和操作的智能體。

（二）AI智能體對 AGI 實現(xiàn)的價值

1. 近未來場景：2025 年的預測

●Sam Altman 對 2025 年“AI智能體員工”上崗的預言

OpenAI首席執(zhí)行官山姆·奧特曼（Sam Altman）周日晚發(fā)表題為《反思》的新年博客文章，其中預言，“在2025年，我們可能會看到第一批人工智能智能體“加入勞動力市場”，并實質(zhì)性地改變公司的產(chǎn)出。”【1】

●斯坦福 HAI 專家對于“協(xié)作AI”大范圍發(fā)展的預期

斯坦福大學人類中心 AI（HAI）的一些研究者亦指出，2025 年左右，協(xié)作型 AI 智能體將在醫(yī)療、金融、教育、政務等多個行業(yè)大規(guī)模鋪開。這些智能體不僅能與人類合作，還可以相互協(xié)作以完成更復雜的任務。其根本意義在于：AI 從單一工具上升為“合作者”，人機協(xié)同與多AI智能體協(xié)同將成為常態(tài)�！�2】

2. 終端AI智能體對通用智能（AGI）的啟示

AGI（Artificial General Intelligence）即通用人工智能，旨在讓 AI 擁有類似人類的廣泛認知能力和自適應能力。當前在終端設備上進行跨應用操作的 AI智能體，雖稱不上 AGI，卻為AGI提供了重要試驗場：

1. 多模態(tài)交互：GUI 智能體通過視覺理解屏幕元素，文本識別文字內(nèi)容，甚至可能結合語音來進行命令執(zhí)行，這讓 AI 更加接近人類的多感官信息獲取方式。

2. 自主規(guī)劃與執(zhí)行：能夠“看屏幕”并模擬點擊或調(diào)用官方接口完成任務，意味著 AI 真正具備一定的“動手能力”，而不只是“動口”或“動腦”。

3. 自我糾錯（反思能力）：一些方案引入“反思智能體”，使得系統(tǒng)可以根據(jù)執(zhí)行結果進行評估和修正。這正是走向通用智能必經(jīng)的“自我反饋回路”。

總之，終端AI智能體的快速發(fā)展，為 AGI 帶來了更豐富的場景實踐，也為后續(xù)更高層次智能的落地奠定了基礎。

二、當前終端 AI Agent的主要技術方案

終端 AI智能體的趨勢愈發(fā)顯著，主要體現(xiàn)在手機和電腦上對智能理解和自動化操作能力的渴望。核心思路是讓 AI 像人類一樣，不僅能“理解”屏幕，還能“點擊”或“調(diào)用”各種應用功能，從而完成復雜任務。概括而言，行業(yè)中有兩大主流方案：

（一）屏幕識別 + 模擬點擊

利用光學字符識別（OCR）和圖像檢測，系統(tǒng)可以識別當前屏幕上的文字、圖標和控件，并通過模擬用戶點擊或鍵盤輸入完成操作。例如，智譜AI的CogAgent-Chat支持高分辨率圖像輸入，配合多智能體協(xié)作來執(zhí)行任務【3】；Mobile-Agent-v2也通過“規(guī)劃、決策、反思”三部分智能體，在移動端實現(xiàn)了更高成功率的跨應用執(zhí)行。【4】

（二）屏幕識別+意圖框架執(zhí)行官方接口（或類API）調(diào)用

另一種思路是由平臺（如iOS）提供官方API或意圖框架，讓AI可以直接調(diào)取應用功能而無須模擬點擊。蘋果便是借助Onscreen Awareness功能讓Siri理解屏幕內(nèi)容，再通過開發(fā)者配置的Assistant Schemas查詢數(shù)據(jù)類型以及可執(zhí)行功能，整體由Apple Intelligence來理解任務、規(guī)劃行動并進行執(zhí)行�！�5】

微軟提供的UFO (UI-Focused Agent for Windows OS Interaction) 采用了多種方式來操作Windows應用程序，包括模擬點擊和API調(diào)用：

1. UI控制：UFO可以通過模擬鼠標點擊和鍵盤輸入來操作應用程序的用戶界面。它使用Microsoft提供的UI自動化工具來檢測應用程序界面上可用的UI控件，并為每個控件分配編號。智能體觀察這些編號和控件截圖后，可以選擇特定控件進行點擊或輸入操作。

2. 原生API：UFO能夠利用應用程序提供的原生API來執(zhí)行操作。這種方法可能比模擬UI操作更高效和可靠。

3. AI工具：UFO還可以使用如"Copilot"等AI工具來完成某些任務。

4. 代碼API：對于某些應用程序，UFO可以利用它們提供的代碼API來執(zhí)行操作�！�6】

三、多角度思考與綜合治理的路徑

AI技術發(fā)展帶來的影響復雜而深遠，如何在終端 AI Agent浪潮中實現(xiàn)技術發(fā)展與法律合規(guī)、創(chuàng)新與安全、效率與公平之間的動態(tài)平衡，正是我們當下需要面對和解決的問題。本節(jié)我們將從幾個核心維度切入，并最終提出一個“綜合思考象限”或“多主體、多維度”的分析框架，以便在法律層面給出可行的治理思路。

（一）多角度思考

1. 技術與AI進化

模擬點擊更貼近人類使用方式，覆蓋度更廣；官方接口則更安全高效。二者都在推動AI向多模態(tài)和更高自主性的方向前進。

2. 用戶體驗與隱私安全

用戶可通過跨應用操作獲得便利，同時也要明白在哪些場合下共享了屏幕信息。平臺須建立完善的權限與授權機制，緩解用戶對隱私泄露的顧慮。

3. 法律合規(guī)與監(jiān)管

屏幕識別和API調(diào)用都可能涉及個人信息保護與數(shù)據(jù)安全。各國個人信息保護法等均強調(diào)知情同意與最小化收集原則，要求平臺或AI服務需對潛在風險做好管控。

4. 競爭與生態(tài)

終端AI智能體可能沖擊了第三方應用流量乃至于App生態(tài)模式。需要重新梳理AI介入后的產(chǎn)業(yè)鏈變化，形成新的產(chǎn)業(yè)格局，促進更健康的產(chǎn)業(yè)發(fā)展。

5. 社會與未來影響

隨著更多智能體承擔任務，必然帶來新的就業(yè)模式或職業(yè)配置；倫理規(guī)范、行業(yè)標準也需要同步跟進，避免技術被不當利用。

（二）綜合思考象限：多主體、多維度的平衡

若要將上述維度融為一體，可采用“多主體—多維度交叉”的分析框架。主體包括用戶、開發(fā)者、平臺/系統(tǒng)廠商、監(jiān)管機構、AI 技術提供方；維度則涵蓋技術進化、用戶體驗/隱私、安全/合規(guī)、競爭/生態(tài)以及社會影響。

通過這張矩陣，我們不僅能看到單一維度的沖突與協(xié)同，也能發(fā)現(xiàn)各主體在不同維度的潛在需求或矛盾，從而尋求平衡方案。

（三）從具體方案到綜合治理

從智譜CogAgent-Chat、微軟UFO、Mobile-Agent-v2 到蘋果的 Onscreen Awareness + App Intents，這些技術路線看似各不相同，卻都在解決同一個核心問題：“如何讓AI真正模仿人類在操作系統(tǒng)或應用中的各種復雜點擊、輸入、跨應用切換等動作？”

1. 多智能體、分工協(xié)作：在技術架構上，不少方案都導入規(guī)劃/決策/反思這類思路，提升可控性與成功率。

2. 接口與模擬點擊兩條路徑并存：有的傾向“模擬點擊”，有的強調(diào)“官方意圖框架”；這是對現(xiàn)實生態(tài)和長尾需求的妥協(xié)。

3. 安全合規(guī)與生態(tài)平衡是關鍵：不管是哪種技術實現(xiàn)，都繞不開隱私保護、授權機制、數(shù)據(jù)安全、生態(tài)競爭等現(xiàn)實問題。

4. 對未來AGI的意義：讓AI真正“能看到、能思考、能操作”，把理論研究與真實操作環(huán)境結合起來，這正是 AGI 路上的重要實踐之一。

終端AI智能體既帶來技術與效率上的提升，也在用戶體驗、法律合規(guī)和行業(yè)競爭中提出新課題。要實現(xiàn)更健康的發(fā)展，有必要從多個層面著手。

AI產(chǎn)業(yè)鏈中的主體應繼續(xù)加強系統(tǒng)級權限管理與數(shù)據(jù)最小化收集。無論是屏幕識別還是API調(diào)用，都需盡量為用戶提供可理解的操作界面和授權提示，讓用戶在使用AI執(zhí)行自動化功能時更有安全感。對平臺與開發(fā)者而言，可以考慮建立“官方接口+模擬點擊”兩條路徑并存的方式：一方面為用戶提供通用化體驗，另一方面也讓應用開發(fā)者有機會更好地控制其核心功能或敏感數(shù)據(jù)。

與此同時，也應看到，AI技術進步在帶來便利的同時，也會引發(fā)較為深遠的社會變革。隨著更多AI智能體逐漸走向日常應用，產(chǎn)業(yè)分工可能會因自動化程度的提高而發(fā)生新的調(diào)整，部分行業(yè)和崗位的工作內(nèi)容可能需要重新定位。如何在技術變革的同時，兼顧個人權益和產(chǎn)業(yè)活力，將是長期議程。

AI時代，生態(tài)格局將有哪些變化？軟硬件廠商如何尋求最大公約數(shù)？我們將持續(xù)推出報道，敬請期待......

注：

【1】郝博陽無忌：《奧特曼新年發(fā)文：OpenAI周活破3億，我們已找到通往AGI之路》，載于公眾號騰訊科技。

【2】Stanford HAI：《Predictions for AI in 2025: Collaborative Agents, AI Skepticism, and New Risks》

【3】Wenyi Hong等：《CogAgent: A Visual Language Model for GUI Agents》

【4】Junyang Wang等：《Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration》

【5】Apple：《Bring your app to Siri-WWDC24》

【6】Chaoyun Zhang等：《UFO: A UI-Focused Agent for Windows OS Interaction》

AI手機：光明的前景和布滿荊棘的路途丨端側AI戰(zhàn)事