探境科技發(fā)布首個(gè)離在線(xiàn)一體語(yǔ)音識(shí)別解決方案,即Voitist音旋風(fēng)612
2月底,探境科技發(fā)布了由低功耗系列、主打系列、旗艦系列組成的三大系列、6顆AI芯片組成的產(chǎn)品矩陣。其中,探境發(fā)布了具備AI雙麥降噪功能的語(yǔ)音識(shí)別方案,即Voitist音旋風(fēng)612,這也是首個(gè)離在線(xiàn)一體的語(yǔ)音識(shí)別解決方案。
AI降噪+HONN 無(wú)懼家居噪音
信噪比,是衡量需要識(shí)別的目標(biāo)聲源與其它干擾聲源強(qiáng)度比值的對(duì)數(shù)。一般將信噪比低于15dB的稱(chēng)為噪聲環(huán)境。信噪比越低,識(shí)別難度越大。
在語(yǔ)音識(shí)別的研發(fā)過(guò)程中,一個(gè)完整的識(shí)別鏈路可以簡(jiǎn)化為麥克風(fēng)輸入、降噪處理、語(yǔ)音識(shí)別、識(shí)別結(jié)果輸入四個(gè)環(huán)節(jié)。想做好識(shí)別,首先要在降噪處理上下功夫。
據(jù)探境科技副總裁李同治介紹,為了驗(yàn)證探境AI降噪算法的有效性,他曾將一批信噪比在3dB左右的語(yǔ)音數(shù)據(jù)送到一個(gè)知名的云端公開(kāi)語(yǔ)音識(shí)別引擎做了測(cè)試,降噪后比降噪前提高30%識(shí)別準(zhǔn)確率。
在傳統(tǒng)的語(yǔ)音識(shí)別算法里,用的最多的是全連接的操作,叫DNN/DTNN。相比較于全連接操作,卷積操作能夠提供更高的計(jì)算強(qiáng)度,且卷積運(yùn)算與人類(lèi)大腦負(fù)責(zé)感知模塊的處理方法類(lèi)似,能夠提取滿(mǎn)足大腦認(rèn)知的本質(zhì)特征。
探境將其計(jì)算機(jī)視覺(jué)中的一些經(jīng)驗(yàn)遷移到語(yǔ)音識(shí)別中,在語(yǔ)音識(shí)別算法上加入了更多的卷積操作,重新設(shè)計(jì)了一個(gè)高計(jì)算強(qiáng)度的神經(jīng)網(wǎng)絡(luò),即HONN(High Operation Neural Network)。
正是依托于A(yíng)I降噪技術(shù)+HONN神經(jīng)網(wǎng)絡(luò),探境的Voitist音旋風(fēng)611,可以覆蓋絕大部分的生活場(chǎng)景,無(wú)懼各種噪音干擾。
端到端雙麥加持 攻克0dB環(huán)境
為了提升低這些場(chǎng)景下的識(shí)別率,還需要使用麥克風(fēng)陣列來(lái)增強(qiáng)語(yǔ)音信號(hào)。探境在雙麥算法上有自己的獨(dú)門(mén)絕技—FCSP雙麥識(shí)別算法。”
“為了克服傳統(tǒng)分模塊語(yǔ)音增強(qiáng)算法的這些缺點(diǎn),我們?cè)O(shè)計(jì)出了基于FCSP的端到端AI雙麥算法。”李同治對(duì)記者表示。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復(fù)數(shù)子空間投影算法的簡(jiǎn)稱(chēng)。
這個(gè)算法直接輸入陣列信號(hào),輸出的是最終的識(shí)別結(jié)果,中間部分全部交給基于深度學(xué)習(xí)的AI算法來(lái)處理,不再使用傳統(tǒng)的數(shù)字信號(hào)處理方法。信號(hào)增強(qiáng)與識(shí)別模塊整體以降低識(shí)別錯(cuò)誤率為目標(biāo)進(jìn)行優(yōu)化,避免了語(yǔ)音增強(qiáng)與語(yǔ)音識(shí)別模塊錯(cuò)配的問(wèn)題。
“端到端”是目前國(guó)際上最前沿的處理算法。通過(guò)AI語(yǔ)音算法+HONN神經(jīng)網(wǎng)絡(luò)模型來(lái)提升識(shí)別率,再通過(guò)FCSP“端到端”的雙麥處理算法簡(jiǎn)化識(shí)別流程,降低最終識(shí)別錯(cuò)誤率,探境的語(yǔ)音算法實(shí)現(xiàn)了跨越式的升級(jí)。
探境自研的SFA架構(gòu),以存儲(chǔ)驅(qū)動(dòng)計(jì)算,具有能效比高、資源利用率高、通用性強(qiáng)等特點(diǎn)。在SFA架構(gòu)上實(shí)現(xiàn)深度學(xué)習(xí)時(shí),只需要一個(gè)較高層次的神經(jīng)網(wǎng)絡(luò)描述。SFA的編譯器首先將這個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行全部融合,然后根據(jù)具體架構(gòu)實(shí)現(xiàn)的規(guī)模產(chǎn)生一個(gè)統(tǒng)一的存儲(chǔ)流圖,再進(jìn)行存儲(chǔ)節(jié)點(diǎn)的時(shí)空映射,最后根據(jù)各個(gè)節(jié)點(diǎn)之間的計(jì)算類(lèi)型配置計(jì)算單元,組合起來(lái)形成一個(gè)統(tǒng)一的固件供SFA控制器使用。
在28nm常規(guī)工藝芯片的對(duì)比測(cè)試中,SFA架構(gòu)在乘法器數(shù)目相同情況下,結(jié)果如下表。(DRAM為L(zhǎng)PDDR4)。
這意味著SFA架構(gòu)所采用的各種微觀(guān)和宏觀(guān)調(diào)度算法,比較“類(lèi)CPU架構(gòu)”采用的基于總線(xiàn)和指令集的映射方法,在近似存儲(chǔ)量、近似算力、近似外部存儲(chǔ)帶寬、近似功耗約束的前提下,可以獲得8~12倍的利用率收益。
“SFA(存儲(chǔ)優(yōu)先)架構(gòu)是探境的產(chǎn)品基石,正是借助SFA的優(yōu)勢(shì),我們的AI芯片產(chǎn)品才能‘裂變式’的推出,大大加快了探境的商業(yè)化落地速度。”探境CEO魯勇這樣評(píng)價(jià)SFA架構(gòu)的意義。
“探境不僅僅是一個(gè)語(yǔ)音芯片公司,而是一家語(yǔ)音、圖像整體結(jié)合的AI芯片公司。AI芯片這一領(lǐng)域不像手機(jī)APP那樣,瞬間可以憑一款應(yīng)用獲得數(shù)百萬(wàn)的用戶(hù),AI芯片更像馬拉松長(zhǎng)跑,比的是耐力,而不是沖刺速度,在這場(chǎng)比賽中,不是要看誰(shuí)跑得快,而是要看誰(shuí)有潛力到達(dá)終點(diǎn),誰(shuí)在中途不走岔路。”魯勇向記者表示。