語音辨認 - 教育百科 | 教育雲線上字典

:::

::: 語音辨認 - 教育百科

語
音
辨
認

國家教育研究院辭書

關閉

國家教育研究院辭書

基本資料

英文：	Speech Recognition
作者：	何榮桂
日期：	2000年12月
出處：	教育大辭書

辭書內容

名詞解釋：　　人類的語言系統是經幾千年來的演化而成的，其變化至少有數十萬種之多，再加上各地口音與慣用語的差異，要使用自然語言直接與電腦溝通，幾乎是不可能的事。與人類相比較，電腦在計算方面有著明顯的優勢，數百、數千的運算，也不超過千分之一秒的時間，但是在語音辨識方面，電腦則遜色許多，因此，現有所採用的方式是採用固定的詞庫，電腦在收到一語音訊號後，將之分析並與其詞庫中的資料比對，找出一個最接近的「認定詞」，當做輸入的結果，這便是語音辨識的基本觀念。目前各方面所做的研究，大多將辨認的條件加以限制，如特定語詞、少量字彙等，才能有較為人們滿意的成果。以下為一般研究之分類：(1)特定語詞與非特定語詞：特定語詞(speaker dependent)是指該辨識系統只能辨識某些人的聲音，而對於其他人的語音輸入，辨識的結果將會大打折扣；相對的，非特定語詞(speaker independent)的辨識系統，則能對任何不特定之對象產生正確的回應結果；(2)少量字彙與大量字彙：一個系統所能辨識字彙的多寡，除了所應用演算法的好壞之外，硬體速度及記憶體空間的大小，都是影響的關鍵。但是隨著辨識字數的增加，字彙間的混淆程度也跟著大幅提升，因此，字彙量增加後，在搜尋上的複雜度亦相對地提升，使得回應時間加長；(3)連續音與獨立音：人類自然說話是連續的語音，相信沒有人會斷斷續續說一句話；但是在語音辨認的技術上，如何由連續的語音資料中，分辨出各字彙，卻是非常困難的；(4)語言層次：多數的語音辨識運用，在於取代按鍵、開關的輸入裝置，如聲控電話、電視、音響、自動販賣機等等，而這些裝置的控制，可以簡化成一連串的命令，就像軍隊中的口令：「立正」、「敬禮」、「稍息」。　　雖然語音辨認的技術有許多不同的作法，應用原理或許有些差異，但其主要架構皆如下圖所示：　　1. 使用者說話：語音辨識的主要目的，就是分辨出使用者所說的話內容為何，因此，說話是首先的必要條件，通常使用者透過麥克風對系統下達命令，但進一步應用亦可為電話、無線電、行動電話等之輸入音源。　　2. 語音訊號接收介面：語音資料由外部進入辨識主機中，所接觸的介面就是語音接收單元，由於電腦所能處理的資料是數位形式，而聲音是類比的訊號。因此，必須做類比和數位間的轉換，而轉換的精細度則與聲音的品質有關。　　3. 語音訊號處理：此部分的工作是語音辨認過程中最重要的一環，一般而言，包含端點偵測與特徵擷取。基本語音資料在處理時，是以一小段時間為單位，構成所謂的音框(frame)，而在處理時則不再以音框為基本單位。　　4. 樣本比對與訓練：語音的資料經過上述步驟處理完畢後，接著便是樣本比對的工作。如何能正確地分辨出結果，是此部分的目的。一般皆藉著各種不同的演算法和技巧，讓相似者更相似，而不同者的差距更加擴大。　　語音辨認可應用的範圍甚廣，從日常生活以至於軍事應用，許多原本需要用手來操作的事情，皆可用語音來代勞。以語音代替鍵盤輸入中文，使得人人皆能輕輕鬆鬆輸入中文。除此之外，較為成功的應用，應屬於家電用品，如音響、電話方面的口令控制指令，以語音調整開關，或是按鈕、自動撥號等。相信在不久將來，人們一定會想出更多的應用，使得語音辨認的技術，充分的融合在我們的生活之中。
資料來源：	國家教育研究院_語音辨認
授權資訊：	資料採「創用CC-姓名標示- 禁止改作臺灣3.0版授權條款」釋出

詞條功能

推薦關聯詞