蘋果公司于 2023 年 10 月與哥倫比亞大學(xué)的研究人員合作發(fā)布了名為 Ferret(雪貂)的開(kāi)源多模態(tài) LLM,但當(dāng)時(shí)并沒(méi)有引起太多關(guān)注。
許多人工智能社區(qū)的人士都錯(cuò)過(guò)了 Ferret 的發(fā)布,他們對(duì)蘋果意想不到地進(jìn)入開(kāi)源 LLM 領(lǐng)域表示歡迎,尤其是因?yàn)樘O果傳統(tǒng)上被認(rèn)為是一個(gè)“封閉花園”。
今天早上,經(jīng)營(yíng)著一個(gè)專注于醫(yī)學(xué)領(lǐng)域開(kāi)源人工智能的歐洲非營(yíng)利組織的 Bart de Witte 在 X 上發(fā)帖:“我不知何故錯(cuò)過(guò)了這一點(diǎn),蘋果于 10 月加入了開(kāi)源人工智能社區(qū)。Ferret 的推出證明了蘋果致力于影響深遠(yuǎn)的人工智能研究,鞏固了其在多模態(tài)人工智能領(lǐng)域領(lǐng)導(dǎo)者的地位……ps:我期待著有一天,本地大型語(yǔ)言模型(LLLMs)作為重新設(shè)計(jì)的 iOS 的集成服務(wù)運(yùn)行在我的 iPhone上!
科技博客作者和 VentureBeat 撰稿人 Ben Dickson 在 LinkedIn 上寫道:“2023 年你最意想不到的人工智能發(fā)展是什么?對(duì)我來(lái)說(shuō),這是蘋果發(fā)布開(kāi)源 LLM(盡管是非商業(yè)許可)!
Ferret 以非商業(yè)許可證開(kāi)源,這意味著它目前的版本不能用于商業(yè)目的。然而,它未來(lái)有可能被用于蘋果未來(lái)的產(chǎn)品或服務(wù)中。蘋果 AI / ML 研究科學(xué)家 Zhe Gan 在今年 10 月的一條推文中解釋了 Ferret 的用途,稱它可以“在一個(gè)圖像中的任何地方、任何粒度上引用和定位任何事物”,它還可以使用圖像中任何形狀的區(qū)域來(lái)實(shí)現(xiàn)這一點(diǎn)。
簡(jiǎn)單來(lái)說(shuō),F(xiàn)erret 可以檢查圖像上繪制的區(qū)域,識(shí)別其中的元素,并將其框選起來(lái)。然后,它可以將識(shí)別出的元素作為查詢的一部分,并以典型的方式進(jìn)行響應(yīng)。例如,用戶可以在圖像中突出顯示一只動(dòng)物,并詢問(wèn)其種類,F(xiàn)erret 可以識(shí)別出該動(dòng)物的物種,并知道用戶指的是圖片中的一只特定動(dòng)物。它還可以利用圖像中其他元素的上下文提供進(jìn)一步的響應(yīng)。
Ferret 的發(fā)布對(duì)研究人員來(lái)說(shuō)意義重大,表明蘋果正在逐步開(kāi)放其 AI 研究,這與其以往神秘封閉的形象形成了鮮明的對(duì)比。此外,蘋果也面臨著基礎(chǔ)設(shè)施方面的挑戰(zhàn)。雖然蘋果正在努力增加其擁有的 AI 服務(wù)器數(shù)量,但與 ChatGPT 等模型相比,其規(guī)?赡苋匀徊蛔。除了與其他公司合作擴(kuò)展其能力之外,開(kāi)源模型也是蘋果正在探索的另一條路徑。
一個(gè)有趣細(xì)節(jié)是,Reddit 的 r / Apple 版塊發(fā)現(xiàn) Ferret“使用了 8 個(gè)帶有 80GB 顯存的 A100 GPU 進(jìn)行訓(xùn)練”。鑒于蘋果過(guò)去與英偉達(dá) GPU 的支持關(guān)系,這被視為蘋果對(duì)英偉達(dá)的罕見(jiàn)認(rèn)可。