音樂類競(jìng)技節(jié)目層出不窮,臺(tái)上你方唱罷我登場(chǎng),臺(tái)下專業(yè)評(píng)審和現(xiàn)場(chǎng)觀眾熱情高漲:這句唱得好,加分!那句跑調(diào)了,減分!歌手唱哭了,滿分!此時(shí),如果有一個(gè)毫無(wú)感情色彩的評(píng)審來(lái)打分,會(huì)不會(huì)更好?
最近的央視歌唱節(jié)目《渴望現(xiàn)場(chǎng)》中,上線了一位機(jī)器人評(píng)審“小渴”。它由中科院自動(dòng)化研究所研制,來(lái)自不同行業(yè)的音樂愛好者先走進(jìn)“歌詠亭”,用歌聲去征服它,得到“小渴”垂青的選手才有機(jī)會(huì)走出“歌詠亭”和觀眾見面。機(jī)器能成為人的“知音”、聽懂人類歌聲嗎?
對(duì)音樂進(jìn)行量化評(píng)價(jià)
唱完歌讓機(jī)器打個(gè)分,聽起來(lái)是玩剩下的東西?。篕TV里一頓嚎,系統(tǒng)都會(huì)多少給出一個(gè)分?jǐn)?shù),有時(shí)還附贈(zèng)歡呼聲。
“我們這個(gè)可不一樣,” 中科院自動(dòng)化研究所研究員王金橋連忙擺手,“傳統(tǒng)的歌曲評(píng)價(jià)軟件一般只是簡(jiǎn)單地把演唱者的歌唱節(jié)奏和伴奏曲節(jié)奏做匹配對(duì)比,來(lái)進(jìn)行評(píng)價(jià),說(shuō)白了就是看你有沒有跑調(diào)。”
相比之下,“小渴”復(fù)雜多了。“它是第一次從音準(zhǔn)、音域、調(diào)性、節(jié)奏、語(yǔ)感、樂感六個(gè)維度對(duì)演唱進(jìn)行客觀評(píng)斷,用科技評(píng)價(jià)文藝。”王金橋說(shuō)。據(jù)他介紹,這六個(gè)指標(biāo)是和音樂學(xué)院教授討論很多次的結(jié)果,兼顧了音樂欣賞的維度和量化的難度。
“在這六個(gè)指標(biāo)中,前四個(gè)偏客觀,訓(xùn)練數(shù)據(jù)足夠多的情況下會(huì)比人的評(píng)價(jià)效果更好。在具體的打分過程中,機(jī)器是聽一句給一句的分?jǐn)?shù),專家可能偶爾走神沒聽見,但機(jī)器不存在這種情況。”王金橋說(shuō)。
理解音樂的本質(zhì)最難
對(duì)于人工智能來(lái)說(shuō),“理解音樂的本質(zhì)”更加困難,這要通過海量數(shù)據(jù)的訓(xùn)練來(lái)實(shí)現(xiàn)。
雖然不同歌手存在演唱者能力、曲風(fēng)等方面的差異,但當(dāng)海量音樂專家的評(píng)分?jǐn)?shù)據(jù)匯總在一起時(shí),就能基本代表當(dāng)前主流的音樂評(píng)審專家對(duì)音樂的評(píng)價(jià)。“基于人工智能技術(shù)的智能音樂評(píng)判系統(tǒng)就是針對(duì)這些海量數(shù)據(jù)進(jìn)行分析,通過大數(shù)據(jù)建模,抽象出音樂藝術(shù)的共性,進(jìn)而建立起客觀的音樂評(píng)價(jià)體系,從而讓‘小渴’對(duì)音樂做出較為客觀的理解和科學(xué)的評(píng)判。”王金橋介紹說(shuō)。
他舉了“小渴”評(píng)價(jià)“音準(zhǔn)”的例子:從聽眾角度來(lái)說(shuō),現(xiàn)階段對(duì)音準(zhǔn)的判斷更多依賴于聽覺的長(zhǎng)期專業(yè)訓(xùn)練,難以精確地量化。而卷積神經(jīng)網(wǎng)絡(luò)所抽取的多維語(yǔ)音特征具有精確量化的特征,能在很高的精度上對(duì)音準(zhǔn)信息進(jìn)行量化。在此基礎(chǔ)上,再配合專家對(duì)歌聲音準(zhǔn)的經(jīng)驗(yàn)打分作為監(jiān)督信息,神經(jīng)網(wǎng)絡(luò)模型就能對(duì)音準(zhǔn)信息建立準(zhǔn)確的數(shù)學(xué)表達(dá)模型,從而進(jìn)行量化的音準(zhǔn)打分。
而聽起來(lái)最縹緲的“樂感”,也有特定的數(shù)學(xué)模型支撐。“音樂作為一種藝術(shù),需要傳達(dá)某種情感,樂感就是人們了解這種感覺的感官能力。表現(xiàn)力是歌手演唱過程中的綜合表現(xiàn),目前的評(píng)判標(biāo)準(zhǔn)更多是依賴于音樂專家的權(quán)威判別。”王金橋介紹說(shuō)。他解釋了“小渴”理解“表現(xiàn)力”的過程:“我們同樣采樣回歸模型來(lái)模擬專家對(duì)該音樂表現(xiàn)力的評(píng)判標(biāo)準(zhǔn)。具體來(lái)說(shuō),專家對(duì)表現(xiàn)力量化為1到10十個(gè)分?jǐn)?shù)進(jìn)行評(píng)判,我們通過卷積網(wǎng)絡(luò)、雙向長(zhǎng)短期記憶模型,提取音樂表現(xiàn)力特征,該特征能對(duì)音樂在時(shí)間維度上的表現(xiàn)力進(jìn)行充分分析,進(jìn)而使得該模型能夠?qū)σ魳方⑻囟ǖ臄?shù)學(xué)模型。”
海量數(shù)據(jù)是客觀評(píng)判的基礎(chǔ)
在學(xué)習(xí)階段,團(tuán)隊(duì)給“小渴”喂了十幾萬(wàn)首歌、擴(kuò)增后也就是幾百萬(wàn)個(gè)數(shù)據(jù),在海量的評(píng)分?jǐn)?shù)據(jù)的基礎(chǔ)上,“小渴”才有更加科學(xué)和客觀的可能。“我們找了很多音樂學(xué)院的教授給歌曲打分,發(fā)現(xiàn)在前四項(xiàng)指標(biāo)上,因?yàn)橹笜?biāo)客觀所以教授的打分也很統(tǒng)一。但在語(yǔ)感和樂感這兩個(gè)主觀性更強(qiáng)的指標(biāo)上,教授們打分的方差也很大。但是‘小渴’能大量聽大量學(xué)習(xí),有‘見多識(shí)廣’的優(yōu)勢(shì)。”王金橋解釋道。
到了實(shí)戰(zhàn)現(xiàn)場(chǎng),“現(xiàn)場(chǎng)評(píng)審聽的是合成出來(lái)的聲音,‘小渴’連接的則是歌手的純?nèi)寺暎魏舞Υ枚寄鼙凰蹲健?rdquo;王金橋說(shuō)。
目前節(jié)目已經(jīng)播出了兩期,“評(píng)委和選手都認(rèn)為結(jié)果很客觀公平,把‘小渴’稱作‘史上最冷靜的評(píng)審’。”對(duì)于“小渴”的表現(xiàn),王金橋很滿意。“我們提出人工智能音樂評(píng)價(jià)系統(tǒng)的目的是讓計(jì)算機(jī)更加有效地理解音樂。通過收集海量音樂專家的評(píng)分?jǐn)?shù)據(jù),嘗試通過人工智能算法建立一種客觀的音樂評(píng)價(jià)體系,建立起一座溝通音樂藝術(shù)與機(jī)器計(jì)算之間的橋梁。”王金橋說(shuō)。
但也有觀眾表示,“小渴”更偏心和它頻率接近的音頻,對(duì)傳統(tǒng)戲劇也“不大靈光”??磥?lái)音樂的大千世界紛繁復(fù)雜,“小渴”還得繼續(xù)摸索。
好消息是,通過節(jié)目錄制,“小渴”能采集到更多的聲音案例,這會(huì)為下一步的研發(fā)儲(chǔ)備資料。假以時(shí)日,沒準(zhǔn)兒它會(huì)從“最冷靜”進(jìn)化成“最厲害”的評(píng)審呢。
(原標(biāo)題:機(jī)器能聽懂人類歌聲嗎)
來(lái)源:http://news.cri.cn/20180108/8d703347-a58a-bdf8-acba-9672a7cad6ae.html
