トップページへ

   <子  音  目  次>

1. カ行[k]子音の音声認識
2. サ行[s]子音の音声認識
3. タ行[t]子音の音声認識
4.パ行[p]子音の音声認識
5. ナ行[n]子音の音声認識
6. ハ行[h]子音の音声認識
7.マ行[m]子音の音声認識
8. ラ行[r]子音の音声認識
9. ガ行[g]子音の音声認識
10.ダ行[d]子音の音声認識
11.バ行[b]子音の音声認識
12.ザ行[z]子音の音声認識
13. 撥音ン[N]の音声認識
14. 子音の音声特徴を振幅比率で表現
15. 音声認識のための子音まとめ

1. カ行子音[k]の音声認識

「か」「く」「こ」の子音「k」の音声波形と振幅スペクトル

ここからは子音の音声特徴について考えてみたいと思います。子音の種類は多い上に、子音によっては、その音声特徴パターンが後続の母音によって変化するものもありますが、順次取り上げて行きたいと思います。最初に、カ行を発声したときに現れる子音「k」について紹介したいと思います。カ行は、大きく2種類の認識パターンにグループ分けができそうなので、先ずは、「か」、「く」、「こ」を取り上げ、後程、残りの「き」、「け」に触れたいと思います。 それでは、図ka-1、図ku-1及び図ko-1に音声波形全体を示します。いずれの図でもグラフ左側部分が子音領域で、右側が母音領域になっています。音声波形の先頭で振幅ゼロの状態がしばらく続いた後、ある時刻から振幅が急に増加しています。

Fig.ka-1 Fig.ku-1 Fig.ko-1

図ka-2、図ku-2及び図ko-2に、「か」「く」「こ」の子音部をそれぞれ拡大して示します。比較的ピッチの粗い繰り返し音声波形が現れ、その後ピッチの密な小さな音声波形が続くこともあります。ピッチの粗い波形部分の周波数を計測すると、おおよそ960Hzから1300Hzが得られます。

Fig.ka-2 Fig.ku-2 Fig.ko-2

図ka-3、図ku-3及び図ko-3は、フーリエ解析の結果を振幅スペクトルで表したものです。

Fig.ka-3 Fig.ku-3 Fig.ko-3

図ka-3では、1400Hz付近に振幅4.5の周波数成分があります。また、図ku-3では、1100と1200Hzに振幅6近くのピークが見られます。更に、図ko-3では、振幅7程度の大きなピークが1000Hzに認められます。余談ですが、筆者が以前、「か」の周波数分析を行っていた時に、振幅が急激に変化する現象に気づいたことがこの研究の発端となっています。

子音目次へ

トップページへ

 

「き」及び「け」の子音「k」の音声波形と振幅スペクトル

「き」及び「け」の音声波形を図ki-1及び図ke-1に示します。グラフ左側部分が子音領域で右側が母音領域になります。

Fig.ki-1 Fig.ke-1

図ki-2及び図ke-2に、「き」及び「け」の子音部のみをそれぞれ示します。先程の「か」「く」「こ」に比べて繰り返し波形が少し密になっている印象を受けます。

Fig.ki-2 Fig.ke-2

「き」及び「け」の子音領域について、それぞれ振幅スペクトルを求め、図ki-3及び図ke-3に表示します。「き」では、3700Hz付近に振幅7の大きなピークが見られます。また、「け」では、2300Hz付近に振幅2.5のピークが認められます。

Fig.ki-3 Fig.ke-3

子音目次へ

トップページへ

2. サ行子音[s]の音声認識

サ行の子音「s」の音声波形と振幅スペクトル

次に、サ行の子音「s」について紹介したいと思います。それでは、音節「さ」から音節「そ」までの音声波形を順に示します。

Fig.sa-1 Fig.si-1 Fig.su-1 Fig.se-1 Fig.so-1

図sa-2から図so-2までに、子音部「s」を抜き出して表示してみました。振幅の違いはありますが、どの図も線が密集し同じような音声波形をしています。

Fig.sa-2 Fig.si-2 Fig.su-2 Fig.se-2 Fig.so-2

上記の図からは、音声波形の細部が観察できないので、この中の図si-2を更に拡大して図si-3に表示してみました。 周波数の高いサイン波で作られた綺麗な波形をしています。思わず見とれてしまいそうです。 他の図についても同じような音声波形が観察できます。音声波形から周波数を計測すると、おおよそ4KHz前後の値が求まります。余談ですが、小鳥の鳴き声の波形も周波数の高低の違いはありますが、美しいサイン波が多いですね。特にうぐいすなどは。

Fig.si-3

図sa-2、図si-3、図su-2、図se-2及び図so-2で図示した領域をフーリエ解析して得られた振幅スペクトルを、図sa-3、図si-4、図su-3、図se-3及び図so-3に示します。横軸が音声波形を構成している周波数成分で、縦軸がそれぞれの周波数成分の大きさ(振幅)になります。

Fig.sa-3 Fig.si-4 Fig.su-3 Fig.se-3 Fig.so-3

子音「s」の音声周波数は、図sa-3では4800から5000Hz、図si-4では4100Hz、図su-3では5000Hz、図se-3では4900Hz、図so-3では4300Hzが中心周波数になっています。いずれにしても4000Hzを越えるような高い周波数の繰り返しが「s」の特徴であることが推定されます。

 

子音目次へ

トップページへ

3. タ行子音[t]の音声認識

「た」「と」「て」の子音「t」の音声波形と振幅スペクトル

次は、タ行を発声したときに現れる子音「t」について紹介したいと思います。その前に、タ行は「た」、「と」及び「て」のグループと、「ち」及び「つ」のグループで波形が大きく異なりますので、グループ毎にまとめたいと思います。 それでは、最初に図ta-1、図to-1及び図te-1に波形全体を示します。いずれの図でもグラフ左側部分が子音領域で右側が母音領域になっています。

Fig.ta-1 Fig.to-1 Fig.te-1

図ta-2、図to-2及び図te-2に、「た」「と」「て」の子音部をそれぞれ拡大して示します。図中の子音「t」を表していると思われる鋭く変化するバースト状の音声波形の周波数は、おおよそ4KHzと求められます。振幅がゼロレベルから急に立ち上がる様子は、いかにも破裂音らしい鋭さを感じます。

Fig.ta-2 Fig.to-2 Fig.te-2

図ta-3、図to-3及び図te-3は、フーリエ解析の結果を振幅スペクトルで表したものです。

Fig.ta-3 Fig.to-3 Fig.te-3

図ta-3では、周波数スペクトルが400から1300Hzと、1700から2100Hzと、3900から5000Hzの3つの部分に集中しています。 図to-3では、周波数スペクトルの中心が400及び1600Hzと、3800から4700Hzの3つの部分に分かれました。更に図te-3では、400から800Hzと、2700から3100Hzと、4100から4900Hzの3つの領域に分散しています。 これらの区間は、非常に荒っぽい表現をすると、それぞれが母音「お」「あ」「え」「い」の音声特徴を表す区間に対応しているのではないかと思えます。それはさておき、肝心の子音「t」を表すスペクトルはどの部分なのでしょうか。

子音目次へ

トップページへ

「ち」及び「つ」の子音「t」の音声波形と振幅スペクトル

もう一つのグループである「ち」及び「つ」の音声波形を図ti-1及び図tu-1に示します。グラフ左側部分が子音領域で右側が母音領域になります。

Fig.ti-1 Fig.tu-1

図ti-2及び図tu-2に、「ち」及び「つ」の子音部のみをそれぞれ示します。先程の「た」「と」「て」の場合と違って、先頭付近の破裂音に続いて、サ行の子音「s」の音声特徴によく似た音声波形が同時に出現しています。

Fig.ti-2 Fig.tu-2

上の図で、破裂音の部分を子音1とし、また密に連続した波形部分を子音2と定めて、それぞれについて図ti-3、図ti-4、図tu-3及び図tu-4に拡大して表示してみます。やはり、子音1、子音2それぞれが、タ行の「t」とサ行の「s」に非常に似ている感じがします。

Fig.ti-3 Fig.ti-4 Fig.tu-3 Fig.tu-4

「ち」及び「つ」の子音1と子音2の領域について、それぞれ振幅スペクトルを求め、図ti-5、図ti-6、図tu-5及び図tu-6に表示してみましょう。

Fig.ti-5 Fig.ti-6 Fig.tu-5 Fig.tu-6

子音目次へ

トップページへ

4. パ行子音[p]の音声認識

パ行の子音「p」の音声波形と振幅スペクトル

これからはパ行の子音「p」を取り上げます。音節「ぱ」は、「ま」と並んで幼児が最初に話し始める言葉の一つだと言われています。それはなぜでしょうか? 唇を軽く閉じた状態で口の中の空気をそっと外に押し出して見てください。すると、一瞬「ぷっ」といった感じの音が発生すると思います。この音がパ行の元になっているものと推察します。

図p-1が、この時の「ぷっ」の音声波形になります。空気を押し出す直前に口の中に圧力がかかっていますので、息を吐き出した時にプラスの振幅が観察され、その後、マイナスの大きな振幅、プラスの大きな振幅、マイナスの大きな振幅を伴った、大きな周期の音声波形が現れます。プラスの振幅区間が一定時間以上あって、その直後に振幅が、所定のマイナス値以下まで低下する音声波形を大雑把に音素「p」と考えることもできるかと思います。この「ぷっ」の音は、口から息を単純に押し出すだけの音なので、幼児でも容易に発声できるものでしょう。

Fig.p-1

それでは、図pa-1、図pi-1、図pu-1、図pe-1及び図po-1に、「ぱ」、「ぴ」、「ぷ」、「ぺ」及「ぽ」の音声波形全体を示します。いずれの図も子音部は図p-1の音声波形が基本になっているという印象を受けます。波形の音声特徴は、音素「k」や「t」などの破裂音と同じく、振幅がほぼゼロに近い状態が音声の先頭に存在します。その後に前述の「p」の特徴的な音声波形が現れ、更に母音が続きます。口などの発声器官は、パ(p)行を発声する前から後続の母音に備えた形になっているので、音素「p」の部分もその影響を受けて変化しているようです。

Fig.pa-1 Fig.pi-1 Fig.pu-1 Fig.pe-1 Fig.po-1

図pa-2、図pi-2、図pu-2、図pe-2及び図po-2に、それぞれの子音部を拡大して表示します。

Fig.pa-2 Fig.pi-2 Fig.pu-2 Fig.pe-2 Fig.po-2

図pa-2、図pi-2、図pu-2、図pe-2及び図po-2の図中で示した領域をフーリエ解析して得られる振幅スペクトルを、図pa-3、図pi-3、図pu-3、図pe-3及び図po-3に示します。パ行音素のいずれも、700Hz位までの多種類の周波数で構成されていることがうかがえます。

Fig.pa-3 Fig.pi-3 Fig.pu-3 Fig.pe-3 Fig.po-3

子音目次へ

トップページへ

5. ナ行子音[n]の音声認識

ナ行の子音「n」の音声波形と振幅スペクトル

ナ行を発声したときに現れる子音「n」について紹介したいと思います。それでは、それぞれの全体波形を図na-1、図ni-1、図nu-1、図ne-1及び図no-1に示します。いずれの図でも、グラフ中央付近から左半分が子音領域で右半分が振幅の大きな母音領域になっています。

Fig.na-1 Fig.ni-1 Fig.nu-1 Fig.ne-1 Fig.no-1

図na-2、図ni-2、図nu-2、図ne-2及び図no-2に、それぞれの子音部を拡大してみました。これらの図に於いて、微細に変化する小さなピークが子音の音声特徴を表す信号であると思われます。この信号は、子音と母音の境界付近と母音領域で強く現れています。

Fig.na-2 Fig.ni-2 Fig.nu-2 Fig.ne-2 Fig.no-2

図na-3、図ni-3、図nu-3、図ne-3及び図no-3にフーリエ解析の結果得られた振幅スペクトルを示します。

Fig.na-3 Fig.ni-3 Fig.nu-3 Fig.ne-3 Fig.no-3

これらの図では、3900Hzから4900Hz付近に振幅強度が約0.4から2.2程度の特徴的なピークが見られます。

 

子音目次へ

トップページへ

6. ハ行子音[h]の音声認識

ハ行の子音「h」の音声波形と振幅スペクトル

次は、ハ行を発声したときに現れる子音「h」について紹介したいと思います。 それぞれの全体波形を図ha-1、図ho-1、図he-1、図hi-1及び図hu-1に示します。いずれの図でもグラフ中央付近から左半分が子音領域で右半分が振幅の大きな母音領域になっています。

そもそも「ふ」の音は外国人にとって発音し難い音だと言われていますが、この子音部の音声波形を見ると、不規則に変化する、つかみ所のない不安定な音のようです。筆者が、「ふ」の音を発音しながら、もしかしたらこの音に似ているのではないかと考えたのが図fu-1です。この音は、まきや炭で火をおこす時に「ふぅー」と息を吹きかけますが、その時に出る空気の摩擦音です。 図hu-1の子音部と図fu-1を比べると、何となく感じが似ています。図fu-1の音声波形に母音「う」をくっつけると図hu-1になるのではないかと思います。

Fig.ha-1 Fig.ho-1 Fig.he-1 Fig.hi-1 Fig.hu-1 Fig.fu-1

図ha-2、図ho-2、図he-2、図hi-2及び図hu-2に「は」「ほ」「へ」「ひ」「ふ」の子音部をそれぞれ拡大して示します。

Fig.ha-2 Fig.ho-2 Fig.he-2 Fig.hi-2 Fig.hu-2

図ha-3、図ho-3、図he-3、図hi-3及び図hu-3は、フーリエ解析の結果を振幅スペクトルで表したものです。

Fig.ha-3 Fig.ho-3 Fig.he-3 Fig.hi-3 Fig.hu-3

図ha-3では、1300Hzの振幅強度が1.6で、1400Hzが0.6となっていて、1500Hzから振幅強度が急激に小さくなっています。また図ho-3では、900Hzまたは1000Hzを越えた付近から振幅強度が減少しています。図he-3では2600Hzに大きなピークが見られ、図hi-3では4700Hzに振幅強度が2近くのピークが認められます。また、図hu-3では、400Hzに大きなピークがあります。

 

子音目次へ

トップページへ

7. マ行子音[m]の音声認識

マ行の子音「m」の音声波形と振幅スペクトル

図ma-1、図mi-1、図mu-1、図me-1及び図mo-1に、マ行の波形全体を示します。子音部を見ると母音部とほぼ同じ様なピッチを持った5〜9周期分の音声波形が観察されます。いずれの図でも子音部同志の波形はよく似ています。

Fig.ma-1 Fig.mi-1 Fig.mu-1 Fig.me-1 Fig.mo-1

図ma-2、図mi-2、図mu-2、図me-2及び図mo-2に、それぞれの子音部を拡大して表示します。

Fig.ma-2 Fig.mi-2 Fig.mu-2 Fig.me-2 Fig.mo-2

図ma-2、図mi-2、図mu-2、図me-2及び図mo-2の図中で示した領域を、フーリエ解析して得られる振幅スペクトルを、 図ma-3、図mi-3、図mu-3、図me-3及び図mo-3に示します。

Fig.ma-3 Fig.mi-3 Fig.mu-3 Fig.me-3 Fig.mo-3

ところで、音節「マ」は、「パ」と共に幼児が最初に話し始める言葉の一つです。音声認識とは直接関係がないかも知れませんが、このことを少し考えてみたいと思います。昔々、音楽の時間にハミングで曲を覚えさせられた記憶が皆さんあると思います。ハミングは、唇を軽く閉じた状態で声を鼻から抜くことでメロディーを奏でるものです。もちろん音の高さ(周波数)を調節することができます。1歳位の幼児でも自発的にハミングを行うことができると言われています。さて、このハミング、どういう波形で出来ていると思いますか? 図m-1に筆者がハミングをしたときの音声波形を示します。

Fig.m-1

図m-2は、図m-1の最初の部分を拡大したものです。この例の場合は、1周期の中に大きなピークと小さなピークがあり、その周期が何回も連続して現れていますが、周波数が変わると波形は多少変化するようです。それにしてもマ行の子音によく似た波形ではないでしょうか。

Fig.m-2

図m-2の図中で示した分析区間を、フーリエ解析して得られる振幅スペクトルを、 図m-3に示します。400Hzを越える振幅の大きな周波数は殆ど観測されません。

Fig.m-3

子音目次へ

トップページへ

8. ラ行子音[r]の音声認識

ラ行の子音「r」の音声波形と振幅スペクトル

次は、ラ行を発声したときに現れる子音「r」について紹介したいと思います。日本語のラ行は、「r」または「l」で表記されますが、今回あらためてラ行を発音してみました。「ra」、「ri」、「ru」、[re」、「ro」と表記する際は、確かに舌を喉の奥に押し込んで無理矢理「r」を発音しています。これに対し、舌を前歯の後ろあたりにつけて「la」、「li」、「lu」、「le」、「lo」と軽く発音してみるとどうでしょう。なれない発声のためかどうも口の開きが通常より小さくなってしまい、後続の母音がすっきりと発音できていない感じがします。発声し終わった口の形そのままで、同じ母音を単独で発音してみると、その違いが分かるかと思います。

それでは実際に音声波形を採取して検討してみましょう。 図ra-1、図ri-1、図ru-1、図re-1及び図ro-1は、「r」を強調した音声波形です。これに対して、図li-1は、「l」を意識して発声しています。 「l」を使ったラ行は、音声波形の形状から子音と母音の境界を特定し難い場合がありますが、「li」は子音と母音が区別し易いので、ここでは簡単のため「li」のみを取り上げることにします。 これらの図では、グラフの左側が子音領域で右側が振幅の大きな母音領域になります。時間的に長短の差はありますが、どの場合も波形の先頭部分に、比較的振幅の小さな繰り返し音声波形が出現しています。

Fig.ra-1 Fig.ri-1 Fig.ru-1 Fig.re-1 Fig.ro-1 Fig.li-1

図ra-2、図ri-2、図ru-2、図re-2、図ro-2及び図li-2に、「ら」「り」「る」「れ」「ろ」及び「り」の子音部をそれぞれ拡大して示します。 「r」グループは、小さなサイン波状の波形の後方に、周期の小さな一塊りの鋭いピークが現れています。また、「l」グループは、サイン波状の音声波形に周期の小さな波形が重畳された形になっていますが、発声方法が変わると、「r」グループと同じような音声波形になることもあります。図に示すように、それぞれの区間の代表的な部分を分析区間とします。以後、これらの区間についてフーリエ解析を施します。

Fig.ra-2 Fig.ri-2 Fig.ru-2 Fig.re-2 Fig.ro-2 Fig.li-2

図ra-2、図ri-2、図ru-2、図re-2及び図ro-2の図中に表記した分析区間1及び分析区間2について、フーリエ解析による振幅スペクトルを図ra-3及び図ra-4、図ri-3及び図ri-4、図ru-3及び図ru-4、図re-3及び図re-4、図ro-3及び図ro-4に示します。また、図li-2の分析区間についてのフーリエ解析結果を図li-4に示します。

Fig.ra-3 Fig.ra-4 Fig.ri-3 Fig.ri-4 Fig.ru-3 Fig.ru-4 Fig.re-3 Fig.re-4 Fig.ro-3 Fig.ro-4 Fig.li-4

「li」については、母音領域の音声波形とフーリエ解析の結果を、それぞれ図li-3及び図li-5に示します。母音「i」の音声特徴を母音領域が終了する間際にかろうじて検出しています。

Fig.li-3 Fig.li-5

***** 以下は、2010年6月15日までのラ行の説明 *****

ラ行の子音「r」の音声波形と振幅スペクトル

次は、ラ行を発声したときに現れる子音「r」について紹介したいと思います。それぞれの全体波形を図ra-1、図ri-1、図ru-1、図re-1及び図ro-1に示します。いずれの図でも、グラフの左側が子音領域で右側が振幅の大きな母音領域になります。長短の差はありますが、どの場合も音声波形の先頭部分に、振幅の小さな繰り返し波形が出現するのが特徴のようです。

図ra-2、図ri-2、図ru-2、図re-2及び図ro-2に「ら」「り」「る」「れ」「ろ」の子音部をそれぞれ拡大して示します。 小さなサイン波様の音声波形の後方に、周期の小さな一塊りの鋭いピークが現れています。そしてしばらくしてから振幅の大きな母音と思われるピークが続いています。図に示すように、それぞれの区間の代表的な部分を分析区間1及び分析区間2とします。以後、これらの区間についてフーリエ解析を施します。

図ra-2、図ri-2、図ru-2、図re-2及び図ro-2の図中に表記した分析区間1及び分析区間2について、フーリエ解析の結果を図ra-3及び図ra-4、図ri-3及び図ri-4、図ru-3及び図ru-4、図re-3及び図re-4、図ro-3及び図ro-4に振幅スペクトルで表します。

===== 2010年6月15日までのラ行の説明はここまでです =====

子音目次へ

トップページへ

9. ガ行子音[g]の音声認識

ガ行の子音「g」の音声波形と振幅スペクトル

ここからは、濁音について考えたいと思います。濁音はガ行、ザ行、ダ行、それにバ行がありますが、はじめにガ行の子音「g」を取り上げます。人は濁音をどのように作りだしているのでしょうか? さて、図ga-1、図gi-1、図gu-1、図ge-1及び図go-1に、「が」、「ぎ」、「ぐ」、「げ」及「ご」の波形全体を示します。

Fig.ga-1 Fig.gi-1 Fig.gu-1 Fig.ge-1 Fig.go-1

図ga-2、図gi-2、図gu-2、図ge-2及び図go-2に、それぞれの子音部を拡大して表示します。いずれの図においても、音素「k」によく似た特徴的な音声波形があります。この区間の一部を分析区間1とします。そして先頭部分には、振幅のあまり大きくない繰り返し波形が必ず存在しています。この区間を分析区間2とします。もしかしたら、この繰り返し波形が濁音を決定する音声波形でしょうか? 

Fig.ga-2 Fig.gi-2 Fig.gu-2 Fig.ge-2 Fig.go-2

図ga-2、図gi-2、図gu-2、図ge-2及び図go-2の図中で示した分析区間1及び分析区間2について、フーリエ解析して得られる振幅スペクトルを、それぞれ図ga-3及び図ga-4、図gi-3及び図gi-4、図gu-3及び図gu-4、図ge-3及び図ge-4、図go-3及び図go-4に示します。分析区間1と2では、明らかに周波数スペクトルに違いがあります。

Fig.ga-3 Fig.ga-4 Fig.gi-3 Fig.gi-4 Fig.gu-3 Fig.gu-4 Fig.ge-3 Fig.ge-4 Fig.go-3 Fig.go-4

子音目次へ

トップページへ

10. ダ行子音[d]の音声認識

ダ行の子音「d」の音声波形と振幅スペクトル

ここでは、子音「d」を取り上げます。「di」と「du」は、元々日本語にはないので、ここでは除きます。図da-1、図de-1及び図do-1に、「だ」、「で」及「ど」の波形全体を示します。

Fig.da-1 Fig.de-1 Fig.do-1

次に、図da-2、図de-2及び図do-2に、それぞれの子音部を拡大して表示します。これらの図では少々分かりづらいですが、どの図においても、分析区間2には子音「t」によく似た特徴的な音声波形があります。そして分析区間1を含む先頭部分には、振幅のあまり大きくない繰り返し音声波形が存在しています。「ガ行」と同じく、この波形が濁音を決定しているのではないかと思われます。

Fig.da-2 Fig.de-2 Fig.do-2

図da-2、図de-2及び図do-2の図中に示した分析区間1及び分析区間2についてフーリエ解析して得られる振幅スペクトルを、それぞれ図da-3及び図da-4、図de-3及び図de-4、図do-3及び図do-4に示します。

Fig.da-3 Fig.da-4 Fig.de-3 Fig.de-4 Fig.do-3 Fig.do-4

子音目次へ

トップページへ

11. バ行子音[b]の音声認識

バ行の子音「b」の音声波形と振幅スペクトル

ここでは、子音「b」を取り上げます。図ba-1、図bi-1、図bu-1、図be-1及び図bo-1に、「ば」、「び」、「ぶ」、「べ」及「ぼ」の波形全体を示します。ガ行やダ行の場合と同じく子音の先頭部分に振幅の小さな繰り返し音声波形が見られます。

Fig.ba-1 Fig.bi-1 Fig.bu-1 Fig.be-1 Fig.bo-1

図ba-2、図bi-2、図bu-2、図be-2及び図bo-2に、それぞれの子音部を拡大して表示します。どの場合でも分析区間2には、音素「p」によく似た振幅の大きな特徴的な音声波形があります。そして分析区間1を含む先頭部分には、振幅のあまり大きくない繰り返し波形が存在しています。荒っぽい言い方ですが、波形から推定すると、バ(b)行は、濁音を表す繰り返し音声波形と、音素「p」を表す音声波形から構成されているのではないかと思えます。

Fig.ba-2 Fig.bi-2 Fig.bu-2 Fig.be-2 Fig.bo-2

図ba-2、図bi-2、図bu-2、図be-2及び図bo-2の図中で示した分析区間1及び分析区間2について、フーリエ解析して得られる振幅スペクトルを、図ba-3及び図ba-4、図bi-3及び図bi-4、図bu-3及び図bu-4、図be-3及び図be-4、図bo-3及び図bo-4にそれぞれ示します。

Fig.ba-3 Fig.ba-4 Fig.bi-3 Fig.bi-4 Fig.bu-3 Fig.bu-4 Fig.be-3 Fig.be-4 Fig.bo-3 Fig.bo-4

子音目次へ

トップページへ

12. ザ行子音[z]の音声認識

ザ行の子音「z」の音声波形と振幅スペクトル

子音「z」を取り上げます。「ざ」、「じ」、「ず」、「ぜ」及「ぞ」の波形全体を、図za-1、図zi-1、図zu-1、図ze-1及び図zo-1に示します。濁音のガ行、ダ行及びバ行の場合と同じく、子音の先頭部分に振幅の小さな繰り返し音声波形が見られます。その後ろには、サ行の特徴によく似た波長の短い波形が連続しています。図の中程から右側が母音になります。

Fig.za-1 Fig.zi-1 Fig.zu-1 Fig.ze-1 Fig.zo-1

図za-2、図zi-2、図zu-2、図ze-2及び図zo-2に、それぞれの子音部を拡大して表示します。濁音波形の一部と思われる区間を分析区間1とし、サ行の音声特徴と思われる区間の一部を分析区間2と表示しております。

Fig.za-2 Fig.zi-2 Fig.zu-2 Fig.ze-2 Fig.zo-2

図za-2、図zi-2、図zu-2、図ze-2及び図zo-2の図中で示した分析区間1及び分析区間2について、フーリエ解析して得られる振幅スペクトルを、図za-3及び図za-4、図zi-3及び図zi-4、図zu-3及び図zu-4、図ze-3及び図ze-4、図zo-3及び図zo-4にそれぞれ示します。

Fig.za-3 Fig.za-4 Fig.zi-3 Fig.zi-4 Fig.zu-3 Fig.zu-4 Fig.ze-3 Fig.ze-4 Fig.zo-3 Fig.zo-4

子音目次へ

トップページへ

13. 撥音ン[N]の音声認識

撥音「ん」の音声波形と振幅スペクトル

撥音「ん」は、後続の音の種類によって発音が変化すると言われています。ここでは一例として、ローマ字表記で「ん」が「n」で表わされる「サンタ(santa)」と、同じく「ん」が「m」で表記される「散歩(sampo)」を取り上げます。「サンタ」を発音した時の波形全体を図N-1に、また「散歩」を発音したときの波形全体を図M-1にそれぞれ示します。

Fig.N-1 Fig.M-1

図N-2及び図M-2に、撥音「ん」に相当すると思われる音声波形をそれぞれ抽出して表示します。

Fig.N-2 Fig.M-2

図N-2及び図M-2で示した分析区間をフーリエ解析し、得られる振幅スペクトルを、図N-3及び図M-3にそれぞれ示します。

Fig.N-3 Fig.M-3

子音目次へ

トップページへ

 

14. 子音の特徴を振幅比率で表現

「カ行」

図ka-4、図ku-4及び図ko-4は、「か」、「く」及び「こ」の子音「k」について、縦軸を振幅比率で表示したものです。

Fig.ka-4 Fig.ku-4 Fig.ko-4

「か」については、1400Hzに振幅比率11以上のピークがあります。また、「く」と「こ」では、それぞれ1100Hzと1000Hzに振幅比率15の周波数成分が見られます。このように大きな振幅比率のピークが1000から2000Hzに存在することで、「か」「く」「こ」の子音音素を認識することができます。なお、誤認識を避けるために周波数分析区間は、図ka-2などに示すように信号の立ち上がり部を包含することが必要のようです。

図ki-4及び図ke-4は、「き」及び「け」の子音について、縦軸を振幅比率で表示したものです。

Fig.ki-4 Fig.ke-4

「か」「く」「こ」の場合と様子が大分異なり、3900Hz以上の高域にも特徴的なスペクトルが見られます。「き」の場合には3100から3800Hz付近の周波数帯に振幅比率3以上のスペクトルが存在し、また、「け」の場合には、2000から3000Hzの周波数帯に特徴スペクトルが認められます。これらの周波数帯は、くしくも母音の「い」や「え」の特徴領域と重なるようです。

子音目次へ

トップページへ

「サ行」

図sa-4、図si-5、図su-4、図se-4及び図so-4は、サ行の子音「s」について、縦軸を振幅比率で表示したものです。

Fig.sa-4 Fig.si-5 Fig.su-4 Fig.se-4 Fig.so-4

音素「s」の認識基準は、「さ」から「そ」までについての周波数スペクトルの分布範囲とその振幅比率、及び母音「い」の領域を勘案すると、概ね3800Hz以上の周波数帯に振幅比率12程度以上のスペクトルが存在することと言えそうです。

子音目次へ

トップページへ

「タ行」

図ta-4、図to-4及び図te-4は、「た」、「と」及び「て」の子音「t」について、縦軸を振幅比率で表示したものです。

Fig.ta-4 Fig.to-4 Fig.te-4

「た」、「と」及び「て」の振幅比率を見比べてみましょう。 振幅比率が3以上で周波数帯が重なる領域は、先ず4000から5000Hzにあります。次に400から1000Hz付近と 1500から3500Hz付近にスペクトルの一群があります。 図ta-2、図to-2及び図te-2に於いて、音声波形から計測した子音部の周波数が4000Hz付近であったことと、今回の分析区間内に無音領域やノイズが混入している可能性があることを考慮すると、今の時点では4000から5000Hz付近の領域が「t」の特徴を表す周波数であると推定できます。なお、この周波数帯は「s」及び子音「ひ」の「h」の特徴でも使われますが、 「t」が破裂音である性質を加味することで、「t」と「s」、「t」と「h」の区別が可能です。また、振幅比率の大きさの違いを考慮することにより更に判別が容易になります。

図ti-7、図ti-8、図tu-7及び図tu-8は、「ち」及び「つ」の子音について、縦軸を振幅比率で表示したものです。

Fig.ti-7 Fig.ti-8 Fig.tu-7 Fig.tu-8

「ち」及び「つ」の振幅比率を見比べてみましょう。図ti-7は前述の「t」のスペクトルパターンを示しており、また図ti-8は「s」の 特徴パターンそのものです。更に、図tu-7及び図tu-8は、いずれも「t」及び「s」のパターンを表しています。以上のことから、「ち」及び「つ」の子音部は共に、音素「t」と音素「s」で構成されるものと思われます。ちなみにヘボン式ローマ字では、「つ」のことを「tsu」と表記しました。ただ、音声認識のためだけであれば、後続の「s」の有無を確認する必要はなさそうです。

子音目次へ

トップページへ

「パ(p)行」

図pa-4、図pi-4、図pu-4、図pe-4及び図po-4は、「ぱ」、「ぴ」、「ぷ」、「ぺ」及び「ぽ」の子音「p」について、縦軸を振幅比率で表示したものです。

音節「ま」の場合と同じく、幼児にとって喃語で獲得した母音「あ」を音素「p」にくっつけることで、容易に「ぱ(pa)」を発声することができるものと考えます。

Fig.pa-4 Fig.pi-4 Fig.pu-4 Fig.pe-4 Fig.po-4

子音目次へ

トップページへ

「ナ行」

図na-4、図ni-4、図nu-4、図ne-4及び図no-4は、ナ行の子音「n」について、縦軸を振幅比率で表示したものです。

Fig.na-4 Fig.ni-4 Fig.nu-4 Fig.ne-4 Fig.no-4

「n」を認識するためには、振幅比率2以上かつ4未満程度の周波数成分が、3900Hzから5000Hzの間に存在することが必要であることが分かりました。それとナ行の認識に大きく関わっているのが、400Hz以下の大きなピークです。これがないとナ行に聞こえないかも知れません。

子音目次へ

トップページへ

「ハ行」

図ha-4、図ho-4、図he-4、図hi-4及び図hu-4は、「は」、「ほ」、「へ」、「ひ」及び「ふ」の子音「h」について、縦軸を振幅比率で表示したものです。

Fig.ha-4 Fig.ho-4 Fig.he-4 Fig.hi-4 Fig.hu-4

これらの図を見ると、どこかで見たことのある特徴パターンですよね。思い出して頂けたでしょうか。いずれも母音の特徴そのものではないでしょうか。つまり、「は」の子音「h」は「あ」と同じスペクトルパターンであり、「ほ」の子音「h」は「お」と同じスペクトルパターンで、「へ」は「え」と同じで、「ひ」は「い」と同じで、「ふ」は「う」と同じスペクトルパターンの様です。同じスペクトルパターンであっても子音領域に現れると、どうやら「h」を意味するようです。筆者にも予想外の現象でした。

子音先頭へ

トップページへ

「マ行」

図ma-4、図mi-4、図mu-4、図me-4及び図mo-4は、「ま」、「み」、「む」、「め」、「も」の子音「m」及びハミング「m」について、縦軸を振幅比率で表示したものです。これらの図を見ると、波形を構成する主要な成分はどの図でも400Hz程度までの周波数であり、シンプルな波形であることがうかがえます。そういえば、これらの振幅比率の図は、母音「う」の周波数スペクトルともよく似ています。つまり、マ行の子音m」とハミング「m」は親戚みたいなものだと言えそうです。ハミングの状態から口を開くと、簡単に母音「あ」を追加することができるので、幼児が音節「ま」を成長過程の早い段階で発音できるのは自然なことでしょう。

それでは、ハミング「m」は子音に属するのでしょうか、それとも母音に分類されるのでしょうか? 通常、子音の振幅は母音に比べて小さくて、意識的に子音の振幅を大きくしようとしてもなかなか難しいと思われます。これに対してハミングは、振幅の大きさと周波数をある程度コントロールできます。そういう点では、母音に近いのでしょうか。

Fig.ma-4 Fig.mi-4 Fig.mu-4 Fig.me-4 Fig.mo-4 Fig.m-4

子音目次へ

トップページへ

「ラ行」

図ra-5及び図ra-6、図ri-5及び図ri-6、図ru-5及び図ru-6、図re-5及び図re-6、図ro-5及び図ro-6は、ら行の子音「r」を分析区間1と分析区間2に分けて、それぞれの区間をフーリエ解析したものです。また、図li-6は、「li」の子音「l」のフーリエ解析結果です。 縦軸を振幅比率で表示しています。 子音「r」の特徴周波数は、後続の母音や話者によっても変動しますが、概ね1300Hzから3000Hzに出現しています。一方、筆者の「l」を意識したつたないラ行の発音では、特徴的な周波数成分が1300〜3000Hzの間に殆ど認められず、4000Hz以上の高域に偏っています。

ここで少し整理をしたいと思います。4000Hz付近に特徴周波数成分を有する音素には、タ行の「t」があります。当然後述のダ行にも 音素「t」が関係してきます。音素「l」と音素「t」のフーリエ解析結果から推定すると、上顎と舌が関与する場合には、4000Hz付近の周波数が出現するということでしょうか。この場合の「l」と「t」の判定は、促音かそうでないかで区別ができそうです。ところで、「r」を強調したラ行を発音した際にも、4000Hz付近の周波数成分が検出されることがあります。前に触れたように後続の母音を明瞭に発音するために 、我々日本人は一番安定した舌の位置を自然に決めているのではないでしょうか? 従って、「r」でもない「l」でもない中間の発音をしていることがあるのかも知れません。

特徴周波数が音声の中で出現するタイミングは微妙に変わるようで、時には子音領域から母音領域に変わる直前に特徴周波数が現れることもあり、時には母音領域の中に最初から紛れ込んでいることもあります。

Fig.ra-5 Fig.ra-6 Fig.ri-5 Fig.ri-6 Fig.ru-5 Fig.ru-6 Fig.re-5 Fig.re-6 Fig.ro-5 Fig.ro-6 Fig.li-6

以上のことから、ラ行の「r」または「l」の発声法の難しさは、単純に1300〜3000Hz付近の周波数を作り出すことではなく、転がすような音(サイン波)の中に同時に特徴周波数を重ね合わせる独特の発声法にあると想像します。舌の移動がうまくできない幼児にとって、この作業は簡単ではないと思います。だから「ラジオ」よりも「ダジオ」が近道なのかも知れません。

現代人は安直に言葉を縮める傾向があると感じていますので、人にとって、舌の移動を伴うラ行は、大げさに言えば面倒なことかも知れません。だから「ら」抜きが起きやすいのでしょうか。

***** 以下は、2010年6月15日までのラ行の説明 *****

「ラ行」

図ra-5及び図ra-6、図ri-5及び図ri-6、図ru-5及び図ru-6、図re-5及び図re-6、図ro-5及び図ro-6は、ら行の子音「r」を分析区間1と分析区間2に分けて、それぞれの区間をフーリエ解析したものです。縦軸を振幅比率で表示しています。子音「r」の特徴周波数は、1300Hzから3000Hzに出現しています。後続の母音や話者が異なると、子音「r」の特徴周波数そのものが変動したり、特徴周波数が音声の中で出現するタイミングが微妙に変わるようです。時には子音から母音に変わる直前に特徴周波数が現れることもあります。ところで、「り」や「る」を発音し終わった時の舌の位置は、母音「い」や「う」を発音した時と同じになっているでしょうか? 大抵の人は、舌が上顎にくっついているのではないでしょうか。こういう場合には、母音領域であっても子音「r」の特徴周波数が継続して出現しています。

さて、「ら」の特徴周波数である1000〜3000Hz間の周波数は、ナ行やダ行などでも出現し易いピークです。特に、ラ行と後述のダ行を区別するためには、子音「t」の特徴周波数である4000Hz付近のピークを消す必要があります。「ら」を発声する際の独特の舌の動きは、この「t」の特徴周波数を抑制するために生まれた発声法ではないかと推察します。幼児では舌の移動がうまくできずに4000Hz付近の周波数を消すことができないため、「ら」にならないのではないでしょうか。だから「ラジオ」が「ダジオ」になるのかも知れません。こう考えることで筆者の長年の疑問が氷解した気がします。

現代人は安直に言葉を縮める傾向があると感じていますので、人にとって、舌の移動を伴うラ行は、大げさに言えば面倒なことかも知れません。だから「ら」抜きが起きやすいのではないかと想像します。

===== 2010年6月15日までのラ行の説明 ここまで =====

子音目次へ

トップページへ

--------------------------------------------------------------------------------------------------------------------------

「ガ行」

図ga-5及び図ga-6、図gi-5及び図gi-6、図gu-5及び図gu-6、図ge-5及び図ge-6、図go-5及び図go-6に、「が」、「ぎ」、「ぐ」、「げ」及び「ご」の子音「g」を振幅比率で表示します。分析区間1については、音節「が」から音節「ご」までいずれの場合も、400Hzを越える大きなピークは見られません。このパターンは、母音の「う」や、マ行で触れた様に子音「m」やハミング「m」によく似ています。子音領域内では他の子音の特徴を表す周波数スペクトルは認められません。

一方、分析区間2については、音節「が」、「ぐ」、「ご」の場合は、音節「か」、「く」、「こ」のスペクトルパターンに対応しています。また、音節「ぎ」、「げ」の場合は、音節「き」、「け」にそれぞれ対応しています。つまり、清音であるカ行の先頭部に、子音「m」に似た濁音を表す「濁音波形」を付加することにより、ガ行が成り立っていると推察されます。

Fig.ga-5 Fig.ga-6 Fig.gi-5 Fig.gi-6 Fig.gu-5 Fig.gu-6 Fig.ge-5 Fig.ge-6 Fig.go-5 Fig.go-6

子音目次へ

トップページへ

「ダ行」

図da-3及び図da-4、図de-3及び図de-4、図do-3及び図do-4を、図da-5及び図da-6、図de-5及び図de-6、図do-5及び図do-6に振幅比率で示します。分析区間1についてはガ行の場合と同じく、いずれの場合も、400Hz以下の周波数で構成されています。

一方、分析区間2については、タ行の項で検討したように、清音の子音「t」と概ね同一の周波数スペクトルパターンを示しています。つまり、清音であるタ行の先頭部に、子音「m」によく似た濁音を表す「濁音波形」を付加することにより、ダ行が成り立っているものと推察します。ダ行の場合は、子音部の領域が狭いので、周波数分析時に濁音波形が一部混入することがあります。

Fig.da-5 Fig.da-6 Fig.de-5 Fig.de-6 Fig.do-5 Fig.do-6

子音目次へ

トップページへ

「バ(b)行」

図ba-3及び図ba-4、図bi-3及び図bi-4、図bu-3及び図bu-4、図be-3及び図be-4、図bo-3及び図bo-4の結果を、図ba-5及び図ba-6、図bi-5及び図bi-6、図bu-5及び図bu-6、図be-5及び図be-6、図bo-5及び図bo-6に振幅比率で示します。分析区間1についてはガ行やダ行の場合と同じく、いずれの場合も、400Hz以下の周波数で構成されていて、子音「m」よりも単純な周波数スペクトルの印象を受けます。

このパターンも、子音「m」やハミング「m」によく似ているので、例えば音節「ば」を発声する際に、ハミングの「m」に続いて「ば」を発声すると、音声波形の濁音部がやや強調されます。現段階では、子音「m」と「濁音波形」が全く同じ物かどうか未定ですが、音声認識を行う上では「濁音波形」と子音「m」を同じものとして取り扱っても問題はないように感じます。

一方、分析区間2については、600Hz位までの周波数が含まれていて、前述のパ行(p)のスペクトルパターンに良く似ています。またバ行を続けて発声する際に、まれに濁音波形が弱くなってバ行(b)ではなくパ行(p)になることがあります。更に音声波形がパ行(p)とよく似ていること等から、これまで云われているようにパ行(p)の濁音がバ行(b)に近いという印象を受けます。因みにパ行(p)には濁音波形が全く含まれないので、半濁音と呼ぶことには違和感があります。

Fig.ba-5 Fig.ba-6 Fig.bi-5 Fig.bi-6 Fig.bu-5 Fig.bu-6 Fig.be-5 Fig.be-6 Fig.bo-5 Fig.bo-6

子音目次へ

トップページへ

「ザ行」

図za-5及び図za-6、図zi-5及び図zi-6、図zu-5及び図zu-6、図ze-5及び図ze-6、図zo-5及び図zo-6に、「ざ」、「じ」、「ず」、「ぜ」及び「ぞ」の子音「z」を振幅比率で表示します。 音節「ざ」から音節「ぞ」までの分析区間1については、いずれの場合も500Hzを越える大きなピークは見られません。

一方、分析区間2については、清音「s」の特徴パターンが見られます。このことは、他の濁音と同じように、清音「s」の先頭部に、「濁音波形」が付加されていると考えることができると思います。なお、濁音のザ行では、「s」の特徴を表す4000Hz付近のスペクトルの振幅比率が清音時に比べてやや小さくなる傾向があります。

Fig.za-5 Fig.za-6 Fig.zi-5 Fig.zi-6 Fig.zu-5 Fig.zu-6 Fig.ze-5 Fig.ze-6 Fig.zo-5 Fig.zo-6

濁音についてもう少し考えてみたいと思います。当然の事ですが、ナ行、マ行、ラ行等には濁音がありません。これはどうしてなのでしょうか? 実は、これらの音素には、元々濁音波形によく似た100Hzから500Hz位までの周波数が主として含まれています。従って、例えば、マ行の濁音を作ろうとすると、濁音を表す100〜500Hz程度の周波数を、本来のマ行の音声波形の先頭に付加する必要があります。そうすると、本来の子音「m」を表す周波数と、追加された濁音周波数を区別することができるでしょうか?周波数分析を行うとどちらも同じ周波数スペクトルが得られてしまい、区別が困難だと思われます。ナ行、ラ行の子音についても同じ様な混乱が起こります。こういう理由で、破裂音だけに濁音が作られたものと理解をしています。但し、サ行は破裂音ではなく摩擦音なのにザ行の濁音が存在します。この場合は、「s」の特徴周波数が4000Hz以上と高い周波数であり、しかも長時間連続して現れるため、濁音周波数との区別が容易であるためと考えます。

子音目次へ

トップページへ

撥音「ン」

図N-4に、「サンタ」と発声したときに現れる「ん」の分析区間に於ける振幅比率を示します。また、図M-4に「散歩」と発音したときの「ん」の分析区間に於ける振幅比率を示します。これらのスペクトルパターンは、ナ行の子音「n」に非常に似ています。図は割愛しましたが、「ん」の領域は、子音「m」と子音「n」で構成されています。 所で、「散歩」の場合の「ん」は、ローマ字表記で「m」ですが、実際に音声波形を採取してみると、「m」と「n」が混在する場合が多いように感じます。「サンマ」、「サンバ」など唇を閉じる音の「ん」も「m」の筈ですが、やはり同じ様な結果になりました。ここでは厳密な議論をしている訳ではありませんので、単に音声認識を行う上では、子音の後ろに母音がない場合を「ん」と約束しておけば、支障はないと思われます。

Fig.N-4 Fig.M-4

15. 子音のまとめ

ここまで、カ行、サ行、タ行、パ行、ナ行、ハ行、マ行、ラ行、ガ行、ダ行、バ行、ザ行及び撥音「ん」に伴って現われる子音、「k」、「s」、「t」、「p」、「n」、「h」、「m」、「r」、「g」、「d」、「b」、「z」及び「N」の音声特徴について検証してきました。その結果、表6から表25までの音声認識条件が得られ、殆ど全ての子音が仮説通り、周波数スペクトルパターンで表現されることが確認できました。当初の予想どおり子音を認識するための周波数スペクトルは、必ずしも1音素につき1種類の認識パターンとは限らず、ハ行のように後続の母音毎に異なる場合もあります。なお、本表の見方は、母音の項で紹介した要領と同じですが、表14については、AまたはBのどちらかの基準を選択するという意味です。表18から表23に於いては、上から3段目までの条件で濁音波形の有りなしを確認しています。

ところで、子供の言葉の発達過程を思いだしてみると、人は最初に、主として600Hz以下の周波数からなる「m」の音、「p」の音、「b」の音などを比較的早い時期に習得し、最後にラ行を修得したのではないでしょうか。

こうして音声波形と周波数分析の結果を見てくると、子音の音素は大雑把に、「m」、「r」、「N」及び濁音のいわゆる濁音グル ープとそれ以外の2グループに分かれるのではないかと思われます。

母音同様、これらの基準を使用して認識プログラムを作成し、未知音声に適用することにより、子音の認識を行うことが出来そうです。

Table 6/7/8 Table 9/10/11 Table 12/13/14 Table 15/16/17 Table 18/19 Table 20/21 Table 22/23 Table 24/25  

今回の方法は、子音領域と母音領域を正確に把握した上で、それぞれの音素を判断するものですから、子音領域と母音領域の分離が非常に重要になります。今の場合、実際に波形を目で見ながら子音と母音の分離を行う、有利な環境下で波形解析を行っていますので問題はありませんが、現実的な認識操作では自動的に子音部と母音部をかなり正確に分離した上でフーリエ解析を行う必要がありますので、この課題を解決することが不可欠です。

子音目次へ

トップページへ