＜?xml version=”1.0″ encoding=”UTF-8″?＞＜urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″＞＜url＞＜loc＞http://myonseininsiki.syogyoumujou.com/index.html＜/loc＞＜lastmod＞2019-06-22＜/lastmod＞＜changefreq＞monthly＜/changefreq＞＜priority＞1.0＜/priority＞＜/url＞＜/urlset＞

音声認識～周波数スペクトルで音素を判別

人はなぜ初対面の人の言葉を認識できるのでしょうか？

人はなぜ初対面の人の言葉が分かるのでしょうか？そして、１歳前後の幼児でも、言葉の持つ意味は別として、人の言葉をちゃんと聞き分けます。なぜなのでしょうか？　人間のこの不思議ですばらしい能力に驚嘆させられると同時に、音声による情報伝達のしくみに強い興味が湧いてまいります。

仮説：音素は特定の周波数で表現される

そこで、この疑問に挑戦すべく、独自の仮説を打ち立ててみました。それは「音声を構成する全ての音素が特定の周波数スペクトルで表現される」というものです。この仮説が正しければ、周波数スペクトルを用いて１音節毎に音素を求め、それらをつなぎ合わせることで、音声認識が行えることになります。音声認識環境に影響を受けにくい、しかもロバスト性の高い音声認識法を目指して、母音と子音それぞれについて検証してみました。

結論としては、音声データを分析して得られた周波数スペクトルを元に、分析区間内での各周波数成分の含有比率（以後、振幅比率と呼びます）を求めて検討した結果、仮説通り特定の周波数スペクトルが、一定の強度割合以上に存在するかどうかを調べることにより、母音や子音を表現できることが分かりました。

このホームページは、以下の内容で構成されています。

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

☆　音声をパソコンに取り込む際のイメージ図

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

本ホームページの情報は、出典を明記の上ご利用ください。

このWebサイトについてのご意見、ご感想は、下記メールアドレスまでお送りください。