售前電話
135-3656-7657
售前電話 : 135-3656-7657
釋放雙眼,帶上耳機(jī),聽(tīng)聽(tīng)看~!
00:00
00:00
語(yǔ)音壓縮
數(shù)字語(yǔ)音總是源自具有64kbit/s速率的PCM語(yǔ)音流,這將引起一些問(wèn)題。解決它最簡(jiǎn)單的方法是對(duì)PCM語(yǔ)音流進(jìn)行某種形式的壓縮。盡管通常用“語(yǔ)音壓縮”表示這一處理,但是它并不是指壓縮語(yǔ)音本身,而是指壓縮64kbit/s的PCM語(yǔ)音流。今天可將語(yǔ)音壓縮到13khit/s,甚至于8kbit/s??梢酝ㄟ^(guò)以下兩種方法實(shí)現(xiàn)語(yǔ)音壓縮:第一種,開(kāi)發(fā)新的芯片組將模擬語(yǔ)音直接轉(zhuǎn)化成上述速率。第二種方法,把64kbit/s的PCM語(yǔ)音流作為第二階段語(yǔ)音數(shù)字化的輸入處理對(duì)象,這次數(shù)字化的輸出就是較低速率的語(yǔ)音了。第二種方法不要求全新的模數(shù)轉(zhuǎn)化芯片,僅僅是增加一些對(duì)64kbit/s速率的PCM語(yǔ)音流進(jìn)行壓縮的芯片。
注意,語(yǔ)音壓縮本身不能自動(dòng)產(chǎn)生突發(fā)式語(yǔ)音。8kbit/s的語(yǔ)音仍然是固定比特速率的。要想把語(yǔ)音變?yōu)橥话l(fā)式的,就必須將談話中不說(shuō)話的部分去除。
無(wú)話部分抑制
無(wú)話部分抑制是指將談話中不說(shuō)話的部分去除。引起沒(méi)有語(yǔ)音的主要原因是談話中,總有·方處于玲聽(tīng)狀態(tài),也有小部分無(wú)語(yǔ)音是由句與句、短語(yǔ)與短語(yǔ)之間的停頓引起的。總之,在一個(gè)雙向的64kbit/s速率的PCM語(yǔ)音流交談中,有60%并沒(méi)有實(shí)際語(yǔ)音。
抑制無(wú)話部分面對(duì)的最大問(wèn)題是:說(shuō)話的人在一段沉默之后,如何識(shí)別他將于何時(shí)再開(kāi)始說(shuō)話。為什么這會(huì)成為一個(gè)困難呢?這是因?yàn)檎勗挿娇傆行┍尘霸肼暤挠绊懀鶕?jù)無(wú)話部分抑制的概念,周?chē)谋尘霸肼暡粦?yīng)被分組化,也不應(yīng)被發(fā)送,系統(tǒng)應(yīng)該只對(duì)真正的語(yǔ)音進(jìn)行處理,所以必需把背景噪聲和真正的語(yǔ)音區(qū)分開(kāi)來(lái)。其中的技巧在于可靠地識(shí)別出說(shuō)話人的音量級(jí)別遠(yuǎn)遠(yuǎn)高于背景噪聲的,從而判斷出他又開(kāi)始說(shuō)話了。比背景噪聲高的聲音也可能是噪聲的突然爆發(fā)(比如敲擊聲)。這就是“語(yǔ)音激活識(shí)別”(簡(jiǎn)稱(chēng)VAD)問(wèn)題。
如果語(yǔ)音激活識(shí)別的級(jí)別設(shè)置得太低,那么玲聽(tīng)的一方會(huì)突然聽(tīng)到敲擊聲、車(chē)?guó)Q聲等等外界與談話無(wú)關(guān)的聲音。如果語(yǔ)音激活識(shí)別的級(jí)別設(shè)置得太高了,那么談話人再次開(kāi)始的談話將被剪輯掉一部分,剛開(kāi)始的聲音因?yàn)檩^低而不被分組化和發(fā)送。因?yàn)檎Z(yǔ)音分組化的處理是實(shí)時(shí)的,所以當(dāng)設(shè)置級(jí)別過(guò)高的VAD進(jìn)程意識(shí)到交談的人已經(jīng)開(kāi)始說(shuō)話時(shí),已經(jīng)來(lái)不及獲取最初的語(yǔ)音了。
當(dāng)對(duì)VoIP分組進(jìn)行了語(yǔ)音壓縮和對(duì)抑制無(wú)話部分進(jìn)行處理之后,就可以使它與其他分組一起在64kbit/s的鏈路上傳輸了。但這樣做,我們將很難將鏈路上的VoIP分組傳輸和文件傳輸、電子郵件傳輸區(qū)別開(kāi)來(lái)。