整理
標(biāo)注每個(gè)音節(jié)發(fā)音 錄入不同口音
有了豐富的“食材”,烹制好這道“菜肴”還需要“配菜”。為此,許彬彬團(tuán)隊(duì)做了大量的整理工作。在許彬彬的電腦里儲(chǔ)存著大量文檔。“我現(xiàn)在有5臺(tái)電腦,10個(gè)硬盤,全都裝滿閩南話文件。”許彬彬說,閩南話的聲母有15-18個(gè)不等,韻母有73-90個(gè)不等,聲調(diào)有5-8個(gè)不等,都要逐一整理,錄入系統(tǒng)。
別以為只是簡(jiǎn)單的標(biāo)注,每個(gè)音節(jié)的發(fā)音以及發(fā)音時(shí)長(zhǎng),都必須詳細(xì)標(biāo)注下來。以“他們坐車去臺(tái)北”為例,許彬彬就標(biāo)注了16個(gè)音素,音素與發(fā)音時(shí)長(zhǎng)還要逐一對(duì)應(yīng)。而這只是一個(gè)句子的其中一種口音。
許彬彬告訴記者,單單是廈門地區(qū),細(xì)微的語(yǔ)音差別就有十幾種。“思明區(qū)鷺江街道是一種口音,廈港街道又是另外一種口音,海滄東孚街道的口音又接近漳州口音,這些都要逐一標(biāo)注。”她說,系統(tǒng)錄入的不僅僅是廈門口音,還有泉州口音、漳州口音、潮汕口音等。
建模
收集十萬(wàn)句日常對(duì)話 邀志愿者測(cè)試
為了讓這一系統(tǒng)的閩南方言數(shù)據(jù)盡可能全面,洪青陽(yáng)團(tuán)隊(duì)又歷時(shí)一年,先后收集近十萬(wàn)句閩南話日常對(duì)話。
除了許彬彬所提供的語(yǔ)音資料外,測(cè)試階段,他們還邀請(qǐng)了幾百名志愿者參與測(cè)試,讓系統(tǒng)“學(xué)習(xí)”不同口音的閩南話。待系統(tǒng)基本“學(xué)會(huì)”不同口音的閩南話后,洪青陽(yáng)又給系統(tǒng)加大了難度——文讀和白讀都要會(huì)。
閩南話中存在大量多音字,有著復(fù)雜的文讀白讀現(xiàn)象,以“大學(xué)”這一詞為例,就有文讀和白讀兩種讀法。該團(tuán)隊(duì)對(duì)閩南話語(yǔ)音識(shí)別采取了特定規(guī)則的發(fā)音詞典標(biāo)注,并用革新后的算法建立了閩南話語(yǔ)音識(shí)別模型。
鏈接
將實(shí)現(xiàn)閩南話與
普通話無障礙溝通
當(dāng)發(fā)音速度不一、吞音等情況出現(xiàn)時(shí),軟件如何準(zhǔn)確識(shí)別?系統(tǒng)的背后還有一位“把關(guān)人”。當(dāng)遇上系統(tǒng)無法識(shí)別的語(yǔ)音時(shí),許彬彬團(tuán)隊(duì)就會(huì)進(jìn)行分析,把新的表達(dá)整理成文檔,擴(kuò)充詞典和句子語(yǔ)料。與此同時(shí),洪青陽(yáng)團(tuán)隊(duì)在系統(tǒng)后臺(tái)不斷完善算法,以學(xué)習(xí)到更多口音和生僻詞匯?,F(xiàn)在,系統(tǒng)依舊在不斷完善升級(jí)。
據(jù)了解,基于深度學(xué)習(xí)方法,他們目前正在研發(fā)閩南話合成系統(tǒng),最終可以實(shí)現(xiàn)閩南話與普通話之間的無障礙溝通。洪青陽(yáng)說,該系統(tǒng)預(yù)計(jì)在今年上半年上線。
閩南話識(shí)別系統(tǒng)界面。
一位女士正對(duì)著手機(jī)用閩南話進(jìn)行語(yǔ)音輸入。
用閩南話對(duì)著手機(jī)語(yǔ)音錄入“愛拼才會(huì)贏”,語(yǔ)音輸入后屏幕上立即顯示“愛拼才會(huì)贏”字樣。近期,一款名叫“閩南話識(shí)別”的軟件在網(wǎng)絡(luò)上走紅。只要是日常對(duì)話的語(yǔ)句,不管你說的閩南話是廈門口音、泉州口音,或是漳州口音,它基本都能識(shí)別出來并翻譯成文字,識(shí)別準(zhǔn)確率高達(dá)85%。
文/圖 本報(bào)記者 陸曉鳳
這款軟件是廈大信息科學(xué)與技術(shù)學(xué)院副教授洪青陽(yáng)、廈大人文學(xué)院中文系助理教授許彬彬帶領(lǐng)的科研團(tuán)隊(duì)合作研發(fā)的。目前,這一軟件已經(jīng)過多階段的內(nèi)部測(cè)試,并開放供廣大市民免費(fèi)試用。
記者與幾位同學(xué)分別用廈門口音、泉州口音、漳州口音的閩南話,對(duì)著軟件語(yǔ)音輸入:“今天天氣很好。”不到2秒,系統(tǒng)翻譯出了相同的對(duì)應(yīng)文字。記者又以略微不同的表達(dá)方式對(duì)著軟件語(yǔ)音輸入“今天天氣很好”,系統(tǒng)依舊能準(zhǔn)確識(shí)別。
近日,記者采訪了軟件背后的科研團(tuán)隊(duì),為您揭秘軟件開發(fā)過程。
調(diào)查
采集多地語(yǔ)音資料 連國(guó)外也不放過
首先,該軟件背后的語(yǔ)音資料庫(kù)就很強(qiáng)大,這是基于許彬彬近10年來的研究成果。許彬彬帶領(lǐng)團(tuán)隊(duì)借鑒、整理了大量語(yǔ)音資料——囊括福建省內(nèi)廈、漳、泉多地的閩南方言、文本,甚至收集了國(guó)外多處講閩南話的地點(diǎn)的語(yǔ)音材料。
除了廈大的語(yǔ)音資料庫(kù)外,每到寒暑假,許彬彬團(tuán)隊(duì)還會(huì)去各地進(jìn)行田野調(diào)查。“省內(nèi)的漳浦、東山等,以及菲律賓北部城市、美國(guó)的東部地區(qū),每一個(gè)地點(diǎn)至少要停留5天,盡可能全面地描寫該地區(qū)語(yǔ)音面貌。”她說。
整理
標(biāo)注每個(gè)音節(jié)發(fā)音 錄入不同口音
有了豐富的“食材”,烹制好這道“菜肴”還需要“配菜”。為此,許彬彬團(tuán)隊(duì)做了大量的整理工作。在許彬彬的電腦里儲(chǔ)存著大量文檔。“我現(xiàn)在有5臺(tái)電腦,10個(gè)硬盤,全都裝滿閩南話文件。”許彬彬說,閩南話的聲母有15-18個(gè)不等,韻母有73-90個(gè)不等,聲調(diào)有5-8個(gè)不等,都要逐一整理,錄入系統(tǒng)。
別以為只是簡(jiǎn)單的標(biāo)注,每個(gè)音節(jié)的發(fā)音以及發(fā)音時(shí)長(zhǎng),都必須詳細(xì)標(biāo)注下來。以“他們坐車去臺(tái)北”為例,許彬彬就標(biāo)注了16個(gè)音素,音素與發(fā)音時(shí)長(zhǎng)還要逐一對(duì)應(yīng)。而這只是一個(gè)句子的其中一種口音。
許彬彬告訴記者,單單是廈門地區(qū),細(xì)微的語(yǔ)音差別就有十幾種。“思明區(qū)鷺江街道是一種口音,廈港街道又是另外一種口音,海滄東孚街道的口音又接近漳州口音,這些都要逐一標(biāo)注。”她說,系統(tǒng)錄入的不僅僅是廈門口音,還有泉州口音、漳州口音、潮汕口音等。
建模
收集十萬(wàn)句日常對(duì)話 邀志愿者測(cè)試
為了讓這一系統(tǒng)的閩南方言數(shù)據(jù)盡可能全面,洪青陽(yáng)團(tuán)隊(duì)又歷時(shí)一年,先后收集近十萬(wàn)句閩南話日常對(duì)話。
除了許彬彬所提供的語(yǔ)音資料外,測(cè)試階段,他們還邀請(qǐng)了幾百名志愿者參與測(cè)試,讓系統(tǒng)“學(xué)習(xí)”不同口音的閩南話。待系統(tǒng)基本“學(xué)會(huì)”不同口音的閩南話后,洪青陽(yáng)又給系統(tǒng)加大了難度——文讀和白讀都要會(huì)。
閩南話中存在大量多音字,有著復(fù)雜的文讀白讀現(xiàn)象,以“大學(xué)”這一詞為例,就有文讀和白讀兩種讀法。該團(tuán)隊(duì)對(duì)閩南話語(yǔ)音識(shí)別采取了特定規(guī)則的發(fā)音詞典標(biāo)注,并用革新后的算法建立了閩南話語(yǔ)音識(shí)別模型。
鏈接
將實(shí)現(xiàn)閩南話與
普通話無障礙溝通
當(dāng)發(fā)音速度不一、吞音等情況出現(xiàn)時(shí),軟件如何準(zhǔn)確識(shí)別?系統(tǒng)的背后還有一位“把關(guān)人”。當(dāng)遇上系統(tǒng)無法識(shí)別的語(yǔ)音時(shí),許彬彬團(tuán)隊(duì)就會(huì)進(jìn)行分析,把新的表達(dá)整理成文檔,擴(kuò)充詞典和句子語(yǔ)料。與此同時(shí),洪青陽(yáng)團(tuán)隊(duì)在系統(tǒng)后臺(tái)不斷完善算法,以學(xué)習(xí)到更多口音和生僻詞匯?,F(xiàn)在,系統(tǒng)依舊在不斷完善升級(jí)。
據(jù)了解,基于深度學(xué)習(xí)方法,他們目前正在研發(fā)閩南話合成系統(tǒng),最終可以實(shí)現(xiàn)閩南話與普通話之間的無障礙溝通。洪青陽(yáng)說,該系統(tǒng)預(yù)計(jì)在今年上半年上線。
展開閱讀全文
