冬奧會上虛擬“冰冰”的“出生地”,原來是阿拉長寧!

北京冬奧會上,長寧企業(yè)科大訊飛量身打造了《冰冰帶你說冬奧》專屬H5,推出的“3D虛擬冰冰”,因為酷似央視主播王冰冰的眉眼和神韻,解鎖了多達31種語言技能,迅速捕獲了眾多網(wǎng)友的心。
據(jù)了解,科大訊飛從央視C+MG動漫工作室得到王冰冰的卡通原畫形象,再通過語音合成、語音識別、3D虛擬人肢體動作控制、AI口唇表情合成等多項人工智能技術,打造了一個總臺記者王冰冰的虛擬形象。
原來,科大訊飛2021年率先發(fā)起了虛擬人交互平臺1.0,這個平臺具有“多模感知、情感貫穿、多維表達、自主定制”的特點。其中虛擬人發(fā)聲的語音合成技術是科大訊飛語音合成團隊10多年來一直在多語種合成領域默默耕耘,創(chuàng)造出來的成果。
團隊在語音合成發(fā)展最快的兩年時間里,快速、高效地完成了全球60個主要語種的合成研發(fā),其中37個語種達到了與國際一流廠商并跑或者領跑的水平。
而這技術領跑的背后,是團隊經(jīng)歷國際技術壁壘的壓力。2019年1月科大訊飛進入美國實體清單后,為了打破技術壁壘,公司開始全面布局多語種,當時給他們語音合成團隊定的初步目標是兩年內完成37個語種的覆蓋,并且效果對標國際最好的互聯(lián)網(wǎng)巨頭。“說實話,當時接到這個任務的時候,很有壓力,同時也有信心把這個工作做好!眻F隊負責人高麗說道。
團隊的壓力來自于沒有數(shù)據(jù)積累,同時小語種缺少語言專家的支持。對于合成來說,每個語言都需要找到專業(yè)且有聲音特色的母語者,用專業(yè)的錄音設備錄制20小時以上的高品質音庫。
“但是我們當時沒有任何可以提供高品質發(fā)音人的錄音渠道,團隊規(guī)模也只有10人左右;新冠疫情的爆發(fā),特別是國外疫情的持續(xù),給我們數(shù)據(jù)的跨國采集以及尋找專家資源的支持,都帶來了非常大的難度。同時基于我們當時的技術方案,兩年內完成37個語種的國際并跑,是不可能的事情!备啕惤榻B說。
于是,高麗的團隊分成兩步開展工作,一方面通過各種渠道進行發(fā)音人的拓展,截至目前團隊已經(jīng)累積了全球100多個發(fā)音人渠道;另一方面成立緊急研究攻關小組,研發(fā)了一套通用性強、穩(wěn)健的新一代語音合成系統(tǒng)。“此外,因為很多語種沒有一套比較完善的語言學理論作為基礎,多語種合成難度相比中英文合成要大很多。所以,我們團隊很多時候是在探索和研究語言學和工程學的高效融合。”高麗表示。
團隊經(jīng)過10年的積累,最終擁有屬于自己的一套技術方法,且達到商用級別,目前已經(jīng)應用到了手機、車載、翻譯機、掃描筆等終端設備上。
“我們要始終保持一個開放、自省的心態(tài),不斷地吸收新鮮血液,給團隊帶來更多可能,同時我們要始終堅持‘用正確的方法做有用的研究’,這樣你的需求在不斷拓展,方法也在不斷創(chuàng)新!备啕惤榻B說,未來團隊的創(chuàng)新技術可以服務于機器翻譯、語義理解等方向,給消費者帶來更多、更懂消費者的AI技術和產(chǎn)品。
同時,高麗期待團隊研發(fā)出的AI語音合成技術,開展瀕危語言的復刻,比如錫伯語、彝語等少數(shù)民族語言,上海話、蘇州話、客家話等方言,傳承人類文化瑰寶和保護瀕危語言。(來源:上海長寧)
分享讓更多人看到