首頁(yè)|必讀|視頻|專(zhuān)訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 人工智能 >> 正文

OpenAI官宣推出多模態(tài)ChatGPT 能看、能聽(tīng)、還會(huì)說(shuō)

2023年9月26日 09:28  財(cái)聯(lián)社  

北京時(shí)間周一晚間,人工智能領(lǐng)域的知名創(chuàng)業(yè)公司OpenAI發(fā)布題為《ChatGPT現(xiàn)在能看、能聽(tīng)、能說(shuō)》的公告,宣布將在未來(lái)兩周時(shí)間里向付費(fèi)用戶(hù)推送這項(xiàng)功能。

在今年3月GPT-4的發(fā)布會(huì)上,最令人感到震驚的一幕應(yīng)該是,OpenAI總裁Greg Brockman拿著一張草稿紙畫(huà)了個(gè)草圖,隨手拍了張照就讓GPT-4在10秒鐘時(shí)間里生成了這個(gè)網(wǎng)站的代碼。

(來(lái)源:OpenAI)

ChatGPT此前曾推出過(guò)能上傳圖片的“代碼解釋器“功能,具備了一些初步處理圖像和文本照片的能力。但毫無(wú)疑問(wèn),今天這個(gè)“隨手拍、隨心問(wèn)”才更貼近大多數(shù)用戶(hù)的AI助手使用場(chǎng)景。

拍張冰箱照片 告訴你今晚吃啥

按照標(biāo)題的順序,今天更新的功能主要有兩點(diǎn):基于圖片的對(duì)話,以及實(shí)時(shí)語(yǔ)音對(duì)話。

先說(shuō)關(guān)注度非常高的圖片聊天功能。按照OpenAI的說(shuō)法,用戶(hù)現(xiàn)在可以拍一張冰箱的照片,然后讓ChatGPT來(lái)推薦菜譜;在旅行時(shí)拍攝一張地標(biāo)的照片,讓ChatGPT來(lái)講述這處景點(diǎn)的有趣之處。當(dāng)然,也能拍一張數(shù)學(xué)題的照片,讓ChatGPT來(lái)解答。

在官方給出的例子中,給到ChatGPT一張自行車(chē)的照片,問(wèn)它如何把座椅調(diào)低。然后ChatGPT表示看你車(chē)的型號(hào),有的車(chē)有快拆桿,有的是用螺栓固定,然后給出了詳細(xì)的步驟。

隨后官方裝作不懂,拍了一張螺栓的照片,并用官方畫(huà)圖工具圈出來(lái)以示強(qiáng)調(diào),然后問(wèn)ChatGPT這是不是快拆桿。ChatGPT表示你這個(gè)是螺栓,得去找一個(gè)內(nèi)六角扳手。

隨后官方又拍了一張工具箱的照片,問(wèn)ChatGPT到底是哪一個(gè)扳手。ChatGPT也順利地認(rèn)出了扳手,并準(zhǔn)確提示用戶(hù)到底要拿哪一個(gè)尺寸。

ChatGPT會(huì)說(shuō)話啦!

除此之外,OpenAI也將語(yǔ)音識(shí)別、轉(zhuǎn)錄和音頻生成功能打包,推出了AI語(yǔ)音聊天的功能,這項(xiàng)功能只適用于iOS和安卓客戶(hù)端。官方表示,用戶(hù)可以用這項(xiàng)功能為家里的小孩講睡前故事;蛘呒依锍灾垼蝗粸槟硞(gè)問(wèn)題吵起架來(lái),這個(gè)時(shí)候就可以把ChatGPT拍在桌面上解決爭(zhēng)論。

OpenAI介紹稱(chēng),這項(xiàng)功能使用了Whisper開(kāi)源語(yǔ)音識(shí)別系統(tǒng),將用戶(hù)說(shuō)的話轉(zhuǎn)錄成文本。同時(shí)還用上了一項(xiàng)新的文本轉(zhuǎn)語(yǔ)音模型,并與專(zhuān)業(yè)配音演員合作,提供5種可供用戶(hù)自行選擇的聲音。

更先進(jìn)的AI也有新的風(fēng)險(xiǎn)和局限性

OpenAI表示,新的語(yǔ)音技術(shù)能夠僅通過(guò)幾秒鐘的真實(shí)語(yǔ)音創(chuàng)造出逼真的合成聲音。這種功能打開(kāi)了創(chuàng)造力的大門(mén),也帶來(lái)了新的風(fēng)險(xiǎn)——例如不法分子可能偽造公眾人物進(jìn)行欺詐。所以O(shè)penAI的決策是通過(guò)“語(yǔ)音聊天”這樣的特定用例來(lái)推出這項(xiàng)功能。

同時(shí)OpenAI也在與更多的機(jī)構(gòu)展開(kāi)合作。例如流媒體公司Spotify就在試用這項(xiàng)功能來(lái)進(jìn)行語(yǔ)音翻譯,通過(guò)使用播客主持人的聲音將播客音頻翻譯成其他語(yǔ)言,幫助播客主持人擴(kuò)大他們的全球影響力。

圖像也會(huì)帶來(lái)新的挑戰(zhàn),例如幻覺(jué)問(wèn)題,以及使用者在高風(fēng)險(xiǎn)領(lǐng)域卻依賴(lài)模型對(duì)圖像的解釋。因此在上線前,OpenAI也對(duì)極端主義和科學(xué)能力等領(lǐng)域進(jìn)行了風(fēng)險(xiǎn)測(cè)試。

另外對(duì)看到這篇文章的中文讀者來(lái)說(shuō),圖片對(duì)話的體驗(yàn)大概率值得期待,但語(yǔ)音對(duì)話可能要打一些折扣。OpenAI表示,該模型擅長(zhǎng)轉(zhuǎn)錄英文文本,但在一些其他語(yǔ)言,特別是那些使用非羅馬字母的語(yǔ)言中表現(xiàn)不佳,建議非英語(yǔ)用戶(hù)不要使用ChatGPT來(lái)進(jìn)行此類(lèi)用途。

編 輯:章芳
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
工信部張?jiān)泼鳎捍蟛糠謬?guó)家新劃分了中頻段6G頻譜資源
精彩專(zhuān)題
專(zhuān)題丨“汛”速出動(dòng) 共筑信息保障堤壩
2023MWC上海世界移動(dòng)通信大會(huì)
中國(guó)5G商用四周年
2023年中國(guó)國(guó)際信息通信展覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱(chēng): 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像