Spoken-Digit Recognizer

Wen-Ya Lin

Jan 27, 2019

View on GitHub

語音數字辨識專案 (Spoken-Digit Recognizer)

本project運用Keras建立Model，辨識使用者說的中/英數字，並使用GUI呈現。

先看段Demo吧！

Spoken-Digit Recognizer – Demo (YouTube)

Demo詳細介紹請點連結

(Detailed) Demo

Dataset

所有使用data皆置於dataset.rar

英文

pannous on github
- 連結內spokennumberspcm.tar含2400筆.wav檔，為15位不同人唸英文數字(0~9)的單數字音檔(160/人)
3位contributer每人自錄160筆，與上述相加共2880筆

中文

3位contributer每人自錄500筆，共1500筆
- 每筆data為中文數字數字0~9單數字音檔，每人一個數字錄50筆

目標

使用者對麥克風説一串中/英文數字(0~9)，程式能辨識使用者說了哪些數字
使用生成對抗網路GAN來生成音檔，即讓程式產出數字0~9的音檔

Implementation

對目標1，先將包含多數字的音檔分割，再使用不同種model來辨識，詳細介紹請點連結

對目標2，使用inverse-STFT方式，詳細介紹請點連結

(Detailed) GAN

問題討論

1. 聲紋影響

- 一個沒有經過我們model訓練過的人聲，若進行辨識測驗時的平均正確率會較低
- 我們認為這和聲紋息息相關，也就是同樣的字由不同人發聲的訊號頻譜存在差異

2. 中/英文

- 我們初期是以英文數字為輸入音訊，後期則發現英文其實在發音上相較中文有更多的變化性，如某些子音的發音屬於清音，會較容易被誤判為靜音
- 英文對於發音並沒有制式的音調規則，例如有些字會因語氣不同而音調不同，這導致我們model的辨識正確率並不理想
- 後來我們選擇嘗試中文，由於中文絕大多數發音是濁音，且抑揚頓挫已有明確定義，因此訓練出的model辨識正確率果然如我們預期，有明顯的提升

Contributors

WenYa Lin、ChungYuan Hsu、JauhHsiang Lan

Wen-Ya Lin

M.S. Student in Mechanical Engineering

My research interests include Image Processing, Artificial Intelligence and Internet of Things.

Spoken-Digit Recognizer

語音數字辨識專案 (Spoken-Digit Recognizer)

先看段Demo吧！

Spoken-Digit Recognizer – Demo (YouTube)

Dataset

英文

中文

目標

Implementation

問題討論

1. 聲紋影響

2. 中/英文

Contributors

Wen-Ya Lin

M.S. Student in Mechanical Engineering

Related