偉克多微電腦工作室不特定語者國語聲控技術介紹

聲控或是語音辨認技術是用來設計一台會聽話的電腦，只要對著麥克風說話，便可以指揮電腦動作，也就是要實現"芝麻開門"聲控電腦的夢想，科學家及工程師們經過 30 年的努力，現在這已不再是夢想了。語音辨識系統應用的範圍相當廣範，現在隨著許多關鍵技術的突破及VLSI 技術的進步，市面上已出現許多方便使用的聲控應用產品，如中文語音輸入系統，聲控大哥大語音撥號，聲控汽車音響，您只需動口，不必動手便可以享受科技帶來的方便，相信未來還會有更多有趣的聲控電子產品上市。

聲控電腦依系統所能辨認單字多寡可以分類為以下三種:

□特定字彙---幾個單字、詞或是片語。

□少量字彙---數十個單字、詞或是片語。

□大量字彙---含蓋所有的單字、詞或是片語發音。中文語音辨認而言所有中文字。

聲控電腦的分類，依使用者是否需要事先做訓練分為三種:

□特定語者

辨認系統只能辨認某一特定使用者的聲音，使用者在第一次使用此系統時需將所有要辨認的字彙唸過一到二次，當做語音參考樣本。此過程稱為語音訓練，手機聲控撥號便是特定語者語音辨認的應用，使用手機的主人原先所輸入的人名，下回辨認時，只需說出人名，便可以辨認人名及出現對應的電話號碼並撥出電話。

目前特定語者技術的應用已經相當成熟，誰來訓練說出語音，辨認時會很準確，當然如果訓練時是男生的語音，若其他的男生來辨認，只要腔調及音頻不要差異太大，仍然可以辨認出來。若換成女生來辨認，則辨認率便不理想了，因此只能應用在個人使用的場合，或各自載入屬於自己的聲音資料庫來作辨認。

□語者調適

使用者只要曾經對辨認系統訓練過，此系統便可以辨認出他的聲音，是一種比較有彈性的做法，使用者不需要唸完所有的音，只需要唸過一部份的單音後，系統會自動將語音參考樣本做調整。或在辨認率不佳的情況下，再適當的唸過一些特定語音後，來加強辨認的效果。

□不特定語者

任何使用者不需要事先對辨認系統訓練，皆可以使用聲控系統，此時系統中已經包含不同種性別、年齡的口音，這種聲控系統是一種最完美實用的系統。

聲控電腦依語者說話的方式分類可以分為二種:

□ 單音辨認 : 系統只能辨認單音，因此使用者所說出的每一個字或是詞必需分開來。

□連續音辨認 : 系統可以接受語者連續發音。

一套最理想的聲控電腦系統應該是大量字彙，不特定語者連續音語音辨認系統，一般人不需要經過學習，便可以讓電腦聽懂他發出的語音，也就是說只要對著電腦說話便可以直接來控制電腦動作了，但是要完成這樣的一套高辨認率的系統實在不是一件容易的工作。

□一般聲控電腦基本規格

1.辨認率高

2.特定語者----使用前需要先對辨認系統錄音訓練---較不方便

3.特定字彙

4.單句辨認

□不特定語者國語聲控技術相關規格

1.辨認率高---全世界已經有上萬位華人使用過此系統開發出來的產品

理想正常使用情況下，可以達到 95% 以上，混淆音可以自行由介面修改聲控命令。

2.不特定語者---使用前不需要先對辨認系統錄音訓練

家中所有人或是訪客只要講國語，都可以聲控，所有華人說國語的地區都可以使用。

3.特定字彙---系統一次可以辨認 50—200 組中文單音

若分段辨認，可以辨認更多字彙。

4.單句辨認---中文單句音長度至多 6 個中文單字。

技術諮詢