首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 監(jiān)管 >> 正文

廣電總局公布《數(shù)字虛擬人技術(shù)要求》報(bào)批稿

2024年11月19日 08:21  DVBCN中廣5G  

11月15日,國家廣播電視總局科技司公布了《數(shù)字虛擬人技術(shù)要求》行業(yè)標(biāo)準(zhǔn)報(bào)批稿。

該文件規(guī)定了廣播電視和網(wǎng)絡(luò)視聽行業(yè)數(shù)字虛擬人的技術(shù)要求,對(duì)于數(shù)字虛擬人分類、應(yīng)用場(chǎng)景、形象、驅(qū)動(dòng)技術(shù)、平臺(tái)能力、安全能力提出規(guī)范要求。適用于廣播電視和網(wǎng)絡(luò)視聽行業(yè)數(shù)字虛擬人的系統(tǒng)建設(shè)、創(chuàng)作和應(yīng)用。

按照文件中定義,數(shù)字虛擬人即基于現(xiàn)實(shí)世界設(shè)計(jì),通過計(jì)算機(jī)生成,再借助真人或計(jì)算驅(qū)動(dòng),在多模態(tài)輸出設(shè)備呈現(xiàn)的虛擬人物。

按照人物形象分類,分為2D數(shù)字虛擬人和3D數(shù)字虛擬人;按照交互模式分類,分為非交互式數(shù)字虛擬人和交互式數(shù)字虛擬人;按照驅(qū)動(dòng)模式分類,分為算法驅(qū)動(dòng)型數(shù)字虛擬人和真人驅(qū)動(dòng)型數(shù)字虛擬人。

數(shù)字虛擬人主要應(yīng)用場(chǎng)景分為內(nèi)容播報(bào)、交互客服、虛擬演播和內(nèi)容創(chuàng)作等。其中內(nèi)容播報(bào)包含新聞資訊播報(bào)/手語播報(bào)、電影/電視/專題片/紀(jì)錄片介紹和直播帶貨等;交互客服包含虛擬客服、智能助手和交互問答等;虛擬演播包含綜藝主持、虛擬演唱會(huì)、文娛活動(dòng)和用戶代理虛擬分身等;內(nèi)容創(chuàng)作包含影視創(chuàng)作、視頻創(chuàng)作、廣告創(chuàng)作和游戲創(chuàng)作等。

總體技術(shù)架構(gòu)包括數(shù)字虛擬人形象、算法驅(qū)動(dòng)能力、真人驅(qū)動(dòng)能力、平臺(tái)能力和安全能力等內(nèi)容。數(shù)字虛擬人形象包括2D真人、2D卡通、3D寫實(shí)、3D卡通和建模技術(shù)。算法驅(qū)動(dòng)包括驅(qū)動(dòng)能力、合成能力和多模態(tài)能力。其中,驅(qū)動(dòng)能力又分為文本驅(qū)動(dòng)能力、語音驅(qū)動(dòng)能力和視頻驅(qū)動(dòng)能力;合成能力包含語音合成能力和視頻合成能力;多模態(tài)能力包含語音識(shí)別能力和自然語言處理能力。

總體要求中,數(shù)字虛擬人形象,應(yīng)滿足如下要求:

a) 符合場(chǎng)景的任務(wù)設(shè)定,在人物形象、表情、服飾等方面得體、美觀;

b) 支持全身、大半身、半身不同景別姿態(tài);

c) 形象完好,不存在扭曲、馬賽克、跳幀、破損、音視頻延時(shí)、口唇不一致等情況;

d) 支持裝扮、服飾的更換;

e) 不存在侵犯第三方權(quán)利及法律法規(guī)禁止的其他情形。

2D真人數(shù)字虛擬人形象方面,支持真人形象復(fù)刻,形象逼真自然,語音自然流暢;支持通過照片、視頻等方式生成形象,保證面部五官、膚色、牙齒、明暗等準(zhǔn)確還原。2D卡通數(shù)字虛擬人形象,應(yīng)支持2D卡通形象繪制,對(duì)特有的卡通形象進(jìn)行建模;支持不同景別、姿態(tài),形象靈動(dòng)活潑,動(dòng)作自然舒展。

3D寫實(shí)數(shù)字虛擬人形象,應(yīng)支持通過3D建模或真人掃描等方式刻畫形象,頭部模型覆蓋面部、口腔、上下牙、舌頭、獨(dú)立左右眼球、眼瞼、淚腺等;頭部、面部、身體紋理有效區(qū)域面積高;毛發(fā)系統(tǒng),如頭發(fā)、睫毛、面部絨毛等紋理清晰。支持對(duì)形象的美型、加工和風(fēng)格化等;支持不同角度、景別、姿態(tài)的靈活轉(zhuǎn)換;支持豐富的動(dòng)作類型;支持光照效果的處理,如光影、折射、反射等效果;支持人形骨骼、蒙皮建模;支持按1:1的比例,對(duì)真人進(jìn)行復(fù)刻。3D卡通數(shù)字虛擬人形象,應(yīng)支持3D卡通形象繪制等方式,對(duì)特有的卡通形象進(jìn)行建模;支持不同景別、角度、姿態(tài),形象靈動(dòng)活潑,動(dòng)作自然舒展;支持豐富的動(dòng)作類型。

數(shù)字虛擬人算法驅(qū)動(dòng)能力方面,應(yīng)支持單一技術(shù)驅(qū)動(dòng)和混合技術(shù)驅(qū)動(dòng)的方式;數(shù)字虛擬人展示應(yīng)支持端側(cè)渲染,宜兼容多操作系統(tǒng)。

數(shù)字虛擬人視頻驅(qū)動(dòng)能力,應(yīng)支持計(jì)算機(jī)視覺算法,基于記錄面部表情和肢體動(dòng)作的視頻,驅(qū)動(dòng)生成數(shù)字虛擬人的語音、動(dòng)作、表情、口型;支持的視頻包括通過攝像頭記錄人體面部表情、肢體動(dòng)作的視頻;支持實(shí)時(shí)或離線的驅(qū)動(dòng)方式。

數(shù)字虛擬人語音合成能力,應(yīng)支持端到端語音合成模型,支持HiFi-GAN、VAE、Diffusion(擴(kuò)散模型)、Glow(流生成模型)、DurIAN等多種語音合成模型;音合成效果自然,音質(zhì)音效貼近真人;實(shí)現(xiàn)字詞級(jí)別的音量、時(shí)長的細(xì)粒度控制,實(shí)現(xiàn)音量、語速的調(diào)節(jié);實(shí)現(xiàn)多情感高表現(xiàn)力的可控語音合成效果,根據(jù)文本內(nèi)容自動(dòng)切換合成不同情感的語音;支持針對(duì)應(yīng)用場(chǎng)景(包括播報(bào)、解說、詩歌、閱讀、客服等),生成多種語音合成風(fēng)格。

數(shù)字虛擬人視頻合成能力,應(yīng)支持多種渲染引擎技術(shù)對(duì)數(shù)字虛擬人形象進(jìn)行渲染,包括UE、Unity等;支持圖像增強(qiáng)技術(shù),改善視頻質(zhì)量和用戶體驗(yàn);支持視頻離線合成或?qū)崟r(shí)渲染合成;支持通過人臉的圖像或視頻內(nèi)容進(jìn)行視頻合成;支持不同分辨率、碼率的視頻合成;在1080P分辨率條件下,視頻合成實(shí)時(shí)率不高于1;合成后的視頻流暢,支持幀率不小于25FPS。

數(shù)字虛擬人多模態(tài)能力,應(yīng)發(fā)音準(zhǔn)確,不存在漏音吞音、多余發(fā)音、音素錯(cuò)誤、音調(diào)錯(cuò)誤等情況;語速、停頓斷句、音高、音長、音量、重音等符合自然語言發(fā)音規(guī)律;語音語調(diào)舒適;常見多音字發(fā)音正確?谛、唇形自然,與發(fā)音同步,符合發(fā)音的規(guī)律,具備飽滿度和表現(xiàn)力。動(dòng)作精準(zhǔn)、自然,與交互語境契合,動(dòng)作包括但不限于頭部、肢體、全身等部位。支持實(shí)時(shí)渲染技術(shù),支持基于物理光照和實(shí)際環(huán)境光源、相機(jī)位置、材質(zhì)參數(shù)等實(shí)時(shí)計(jì)算,完成圖像渲染。在交互客服場(chǎng)景下,支持多輪對(duì)話能力,根據(jù)上下文內(nèi)容或用戶的問詢,進(jìn)行判斷選擇,完成用戶交互;支持通過對(duì)話樹等方式,完成不同業(yè)務(wù)場(chǎng)景下的多輪對(duì)話流程跳轉(zhuǎn)及應(yīng)答。

數(shù)字虛擬人平臺(tái),應(yīng)支持針對(duì)內(nèi)容播報(bào)、交互客服、虛擬演播、內(nèi)容創(chuàng)作等應(yīng)用場(chǎng)景;支持創(chuàng)作不同類型的數(shù)字虛擬人;支持?jǐn)?shù)字虛擬人形象的資產(chǎn)管理、業(yè)務(wù)服務(wù)配置及內(nèi)容生產(chǎn)服務(wù);支持?jǐn)?shù)字虛擬人形象租賃;支持?jǐn)?shù)字虛擬人形象選型、音色配置、背景空間管理、發(fā)音及動(dòng)作配置、會(huì)話管理、流程管理等功能;支持多種AI模型和算法;平臺(tái)生成的數(shù)字虛擬人具備多模態(tài)交互能力;具備豐富的語音及動(dòng)作庫;支持離線、實(shí)時(shí)的數(shù)字虛擬人生成方式;真人驅(qū)動(dòng)型平臺(tái)技術(shù)支持真人驅(qū)動(dòng)的模式,真人驅(qū)動(dòng)可以和算法驅(qū)動(dòng)混合使用,相互接管。

數(shù)字虛擬人平臺(tái)部署,應(yīng)支持公有云部署、私有云部署或本地化部署方式;應(yīng)支持多類型前端接入能力,包括但不限于PC、移動(dòng)終端、大屏設(shè)備等終端接入設(shè)備,以及網(wǎng)頁、APP、小程序、H5等應(yīng)用形式,滿足系統(tǒng)的前端兼容性;宜支持運(yùn)用微服務(wù)、集群的部署方式;宜采用負(fù)載均衡、分布式數(shù)據(jù)庫等技術(shù)。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
愛立信中國區(qū)總裁方迎:新質(zhì)網(wǎng)絡(luò)創(chuàng)造新質(zhì)價(jià)值
精彩專題
2024中國算力大會(huì)
2024年國際信息通信展
中國信科亮相2024年國際信息通信展
第25屆中國國際光電博覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像