冬奧前線 | AI手語解說亮相冰雪賽事:業(yè)務(wù)能力媲美真人
2022北京的冰雪賽場熱鬧非凡,相信即使沒有看比賽這幾天來你也一定被金牌、谷愛凌等熱詞刷屏了。
而和我們一起在屏幕前關(guān)注中國健兒們表現(xiàn)的還有一群處于無聲世界中的特殊人群,盡管他們能夠看到賽場上的精彩畫面,不過對于賽場細(xì)節(jié)的解說卻無法傳入耳中。這些聽障人士了解世界、對外溝通主要借助手語,以往我們經(jīng)常能夠看到央視等電視臺的新聞節(jié)目中伴隨的手語播報(bào)。而為了提升聽障人群的觀賽體驗(yàn),手語解說這次也應(yīng)運(yùn)而生。
在日前央視頻APP的賽事視頻中,一位擔(dān)任手語解說的漂亮小姐姐出現(xiàn)在畫面下方,見證了中國隊(duì)奪金的各場比賽。與過往那些經(jīng)驗(yàn)豐富、身經(jīng)百戰(zhàn)的手語老師們不同,這是她首次進(jìn)行手語解說工作,卻有著完全不遜于前者的準(zhǔn)確度和反應(yīng)速度。
仔細(xì)了解后才知道原來這次為央視頻提供手語解說服務(wù)的并非真人,而是由騰訊打造的3D手語數(shù)智人“聆語”。
1
業(yè)務(wù)水平高超,“聆語”是怎樣煉成的?
如你所見,“聆語”有著高度接近真人的面部形象以及肢體動(dòng)作,這為其塑造了與真人手語翻譯無異的親和力,在手語表達(dá)能力上,“聆語”具備以下四大特性:
一是語言翻譯準(zhǔn)確,能夠?qū)⒔÷犎苏Z言準(zhǔn)確翻譯轉(zhuǎn)化為聾啞人所能理解的手語,可懂度可達(dá)90%
二是結(jié)合了逼真的面部表情唇動(dòng),更有助于觀眾理解語義
三是手語動(dòng)作連貫自然,除了能夠準(zhǔn)確表達(dá)手語詞外,不同的手語詞間也能夠?qū)崿F(xiàn)順暢過渡
四是能夠快速迭代新詞、熱詞,及時(shí)理解和更新比賽相關(guān)詞匯,“小栓子”、“谷愛凌”都能準(zhǔn)確表達(dá)。
為了打造這樣一個(gè)具備擬真形象和高超手語翻譯能力的數(shù)智人,騰訊云小微聯(lián)合了騰訊PCG AI等技術(shù)團(tuán)隊(duì),綜合運(yùn)用了3D數(shù)字人建模、多模態(tài)交互技術(shù)、機(jī)器翻譯、語音識別和自然語言理解等技術(shù)。
比如“聆語”的外觀形象和動(dòng)作便依托了3D光照掃描還原、面部肌肉驅(qū)動(dòng)、表情肢體手勢捕捉等技術(shù),做到了高度還原真人發(fā)膚,動(dòng)作自然不生硬。
在最關(guān)鍵的手語表達(dá)上,“聆語”基于《國家通用手語詞典》的標(biāo)準(zhǔn)手語,和深度的機(jī)器學(xué)習(xí)訓(xùn)練,以及針對體育、藝術(shù)等專業(yè)領(lǐng)域的優(yōu)化補(bǔ)充,目前共掌握約160萬詞匯和語句。
在解說比賽時(shí),會(huì)先通過機(jī)器翻譯將比賽解說的健聽人語言低延遲轉(zhuǎn)化為高準(zhǔn)確率的手語語言表征,再運(yùn)用騰訊多模態(tài)端到端生成模型,進(jìn)行聯(lián)合建模及預(yù)測生成高準(zhǔn)確率的動(dòng)作、表情、唇動(dòng)等序列,實(shí)現(xiàn)自然專業(yè)且易懂度高的手語效果。
并且“聆語”具備快速學(xué)習(xí)補(bǔ)充新詞熱詞、根據(jù)業(yè)務(wù)場景快速學(xué)習(xí)專業(yè)用語的能力,像應(yīng)對本次賽事手語解說就針對體育賽事方面的用語做了定向優(yōu)化,覆蓋了超過15000個(gè)相關(guān)詞匯。
2
賽事解說之外,手語數(shù)智人
前景可期
投入多部門的技術(shù)力量打造服務(wù)于少數(shù)弱勢群體的手語數(shù)智人,除了基于騰訊“科技向善”的理念和愿景外,也有手語翻譯/解說在現(xiàn)實(shí)運(yùn)用層面的需求。
雖然手語是聽障人士溝通和理解事物所依賴的重要方式,但由于精通手語翻譯的人才偏少,在面向大眾的視聽內(nèi)容中手語翻譯覆蓋范圍低,以往國內(nèi)多數(shù)電視新聞、文娛節(jié)目無法保證能配備同步的手語翻譯,更遑論網(wǎng)絡(luò)視聽內(nèi)容;同時(shí)手語存在較大的區(qū)域方言差異,國家在2015年推出的通用手語,仍需要持續(xù)的推廣,傳媒節(jié)目由于需要對大量復(fù)雜語句進(jìn)行肢體動(dòng)作上的實(shí)時(shí)表達(dá),往往準(zhǔn)確度、可懂度并不高,也依賴于全國性的媒體節(jié)目進(jìn)行手語“普通話”的持續(xù)普及。
而像“聆語”這樣以數(shù)智人形象呈現(xiàn)的AI手語翻譯出現(xiàn),正有利于解決上述的兩大困難。作為AI產(chǎn)品的“聆語”能夠幾乎無限制地廣泛部署,解決專業(yè)手語翻譯數(shù)量不足的問題;而其基于機(jī)器學(xué)習(xí)的表達(dá)能力隨著時(shí)間推移相比真人也會(huì)更為精確可懂。
2021年10月廣電總局在《廣播電視和網(wǎng)絡(luò)視聽“十四五”科技發(fā)展規(guī)劃》也提到,要推動(dòng)虛擬主播、動(dòng)畫手語廣泛應(yīng)用于新聞播報(bào)、天氣預(yù)報(bào)、綜藝科教等節(jié)目生產(chǎn),創(chuàng)新節(jié)目形態(tài),提高制播效率和智能化水平。
因此可以預(yù)見的是,在國家及相關(guān)企業(yè)推動(dòng)下,未來“聆語”及類似的AI手語翻譯、手語主播將會(huì)被部署運(yùn)用在體育賽事之外的其它視聽節(jié)目當(dāng)中,給予聽障人群更友好的觀看體驗(yàn),在大型會(huì)議、活動(dòng)直播、影視作品等方面的運(yùn)用也有著可期的前景。
值得一提的是,AI手語主播只是騰訊在數(shù)智人業(yè)務(wù)探索方面的其中一個(gè)方向,據(jù)了解騰訊云小微聯(lián)合PCG AI、AI Lab等團(tuán)隊(duì)打造了多個(gè)數(shù)智人方案,涉及金融、傳媒、政務(wù)、家居、教育、展會(huì)等多個(gè)領(lǐng)域。
比如用于為在線客戶進(jìn)行智能化服務(wù)的銀行數(shù)智員工,用于引導(dǎo)開戶的證券交易客服,協(xié)助旅客查詢信息辦理業(yè)務(wù)的民航數(shù)智地勤,以及展會(huì)導(dǎo)覽助手、景區(qū)導(dǎo)覽助手等,這些數(shù)智人都有著強(qiáng)大的AI能力,未來在各行業(yè)中所發(fā)揮的作用無疑將越來越重要。
? Copyright 2013 南京奧特賽人工智能技術(shù)研發(fā)有限公司 版權(quán)所有 備案號:蘇ICP備19032300號-1 蘇公網(wǎng)安備32011602010459 技術(shù)支持:科威鯨網(wǎng)絡(luò)