2011年[ 技術開発研究助成 (奨励研究) ] 成果報告 : 年報第25号

加速度センサを用いた騒音に頑健な骨伝導-音声マイクロフォンの開発

研究責任者

中山 仁史

所属:高松工業高等専門学校 電気情報工学科 助教

共同研究者

石光 俊介

所属:広島市立大学大学院 システム工学専攻 教授

共同研究者

中川 誠司

所属:(独)産業技術総合研究所 健康工学研究部門 主任研究員

概要

1.はじめに
近年、音声認識を利用したアプリケーションが発達してきている。それに伴い、音声認識の研究分野も音声ディクテーション処理から音声ドキュメント処理へと広がりがみられる[1]。しかし、音声認識技術の高精度化をおこなったとしても、騒音の影響で信号の歪みが生じ、認識率が低下することから騒音環境下で十分な認識性能を得ることができない。このような理由から、騒音に対して頑健な音声認識が求められる。
そこで著者らは、騒音環境下でも円滑な音声認識・音声コミュニケーションを実現するために、骨伝導一音声マイクロフォンの開発を行った。これは、骨伝導音として採取した信号から周波数特性を改善し、明瞭度の高い信号を得ることを目的とする。これまでの検討により、著者らは体内伝導音をはじめとする骨伝導音を利用した騒音に頑健な認識システムの構築を行った[2]。骨伝導音は固体伝播音のため、騒音の影響を直接受けずに信号を抽出ができる。このような性質を利用し、98dBSPL(-20dBSNR)の騒音環境下でも95%以上の単語認識率を得ることを確認した[2]。しかしながら、骨伝導音は2kHz以上の高周波成分を得ることができないため、音声と比較して明瞭度の低い信号となる。よって、高い認識率を得るためには骨伝導音用の認識システムの構築を行うか、骨伝導音を明瞭化する必要がある。そのため、適応フィルタ法[3][4]、MTFやLPC[5]などを用いた明瞭度改善に関する研究が多く行われている。ところが、従来法では目標となる音声やフィルタの設計が必要であるため、実騒音環境下で用いることは難しい。なぜなら、騒音環境下では音声が抽出できないからこそ骨伝導音を用いているからである。
このような研究背景から、これまで骨伝導音は高周波成分には有効な成分が含まれていないという考えが一般的であった。その中で、著者らは極めて微弱であるが、骨伝導音にも2kHz以上の有益な信号成分が含まれていることを発見した[6][7]。本研究ではこの成分を効果的に用いることで、骨伝導音のみで明瞭度の高い音質変換手法を提案し、静寂環境下及び騒音環境下で採取した信号に対する有効性を確認した。
2.音声と骨伝導音
ここでは音声と骨伝導音の違いについて説明する。まず、本研究で用いた信号収録装置を表1に示す。これらの装置を用いて、静寂環境下において20歳男声が電子協・地名百選の単語"旭"を発声し、音声及び骨伝導音を同時収録した。図1はマイクロフォンで採取した音声、図2は加速度ピックアップで採取した骨伝導音を示す。各信号は上図に波形、下図にスペクトログラムを示している。図1の音声では採取すべき帯域の信号を採取できていることが確認できる。また同時に、母音の共振特徴であるフォルマント周波数や音素問の調音結合などが確認できる。一方、図2の骨伝導音では2kHz以上の高周波成分を得ることができないため、音声と比較して不明瞭な信号となる。各信号を比較して分かるように、骨伝導音は音声と比較して周波数特性が低いという問題点が確認できる。しかしながら、98dBSPL環境下でも頑健な信号採取が可能であることから、騒音環境下におけるインタフェースとして有効である[2]。ここで示したように、骨伝導音と音声では周波数特性が異なるため、骨伝導音を用いた音声認識では十分な認識率を得ることができない。よって、認識システムが用いる音声用の音響モデルから骨伝導音用の音響モデルへと再推定する必要がある。認識のみを対象とするので有れば、音響モデルの再推定のみで十分であるが、骨伝導音を音声として代用するためには音声に近い明瞭度へと改善する必要がある。このような手法が実現できれば、音声が騒音に埋没する環境下でも頑健な信号抽出が可能となり、雑音の影響を受けにくい音声インタフェースが実現できる。
3.プリエンファシスと雑音抑圧による信号推定
骨伝導音を必要とする騒音環境下では音声を採取することができないため、骨伝導のみで明瞭な信号を推定する必要がある。この中で、著者らは骨伝導音内の2kHz以上の成分において極めて微弱であるが有効な周波数成分が含まれていることを発見し、この信号を効果的に用いる手法を手案することにした。しかしながら、対象となる周波数特性が極めて微弱であるため、可能な限り該当周波数を強調する必要がある。
そこで、この高周波成分を強調するためにプリエンファシスを用いることにした。プリエンファシスは信号問の差分を計算することで、ハイパスフィルタの特性を得ることが可能である。フィルタを用いず差分のみを求めるため、極めて少ない計算コストで所望の信号を得ることができる。また、フィルタの設計が不要であるなどの利点も有する。図3は骨伝導音に対して信号問の差分を計算して求めた加速度差分信号を示す。加速度差分信号は微弱な信号のため、振幅レベルの補正が必要となる。ここで示す信号は、加速度差分信号を求め、信号内の最大振幅レベルを最大値として正規化したものである。この信号から確認できるように、加速度差分信号は定常雑音に音声が埋没したような信号であるとみなせる。このことから、加速度差分信号から雑音抑圧手法を用いることで所望の信号を得ることにした。
4.加速度差分信号における雑音抑圧
先に説明したように、加速度差分信号は定常雑音に音声が埋没した信号とみなすことができる。この信号から所望の信号を得るために、音声信号処理分野で一般的に用いられている雑音除去手法を用いることにした。本研究では音声信号処理において広く用いられているスペクトルサブトラクション法と音声のスペクトル包絡情報を考慮したウイナー法を用いることにした。
4.1.スペクトルサブトラクションによる雑音抑圧
スペクトルサブトラクション法は入力信号のスペクトルから雑音区間のスペクトルを減算する雑音抑圧手法である。以下の式(1)及び(2)にスペクトルサブトラクション法を示す。
加速度差分信号x(i)は式(1)で示されるように、音声s(i)及び雑音n(i)によって構成されていると仮定できる。よって、式(2)のように加速度差分信号のスペクトルX(ω)から雑音区間のスペクトルW(ω)を減算することで、雑音抑圧後のスペクトルs(ω)を得ることができる。その後、s(ω)を逆フーリエ変換し、雑音抑圧後の波形信号を得る。図4は反復回数7回、フレーム幅128として処理したときに得られる信号を示す。反復係数とはスペクトルサブトラクション法による処理の繰返し数である。ここで得られた信号は高周波数成分の回復が得られたものの、ミュージカルノイズを含む結果となった。ミュージカルノイズはより高精度なスペクトルサブトラクション法を用いることで抑圧することが期待できるが、一般的なスペクトルサブトラクション法では難しいという結論に至った。
4.2.ウイナー法による雑音抑圧
スペクトルサブトラクション法では、雑音スペクトルを減算するだけで有益な高周波成分を得ることができなかった。そこで、ウイナー法を用いることにした。これは雑音混入音声から線形予測係数で推定した音声スペクトルと自己相関関数を用いて推定した雑音スペクトルを用いた信号推定法である。以下の式(3)にウイナー法を示す。
音声スペクトルHSpeach(ω)は自己相関関数を計算し、レビンソン・ダービンアルゴリズム[8]で線形予測係数を求め、音声のスペクトル包絡を推定する。雑音スペクトルHNoise(ω)は自己相関関数から推定する。このとき、線形予測係数及び自己相関関数は同じ次元数を用いた。
図5に線形予測係数及び自己相関関数の各係数をともに1、フレーム幅764、反復回数3としたときの結果を示す。このとき、線形予測係数及び自己相関関数は1から32、フレーム幅を128から4,096、反復回数を1から5まで変化させてみたところ図5の条件においてもっともよい結果を得ることができた。得られた信号では骨伝導音で減衰していた2kHz以上の高周波成分の回復がみられるとともに、スペクトルサブトラクション法で混入されたミュージカルノイズも含まれていないことが確認できる。
5.騒音環境下における有効性確認
これまでの検討において、静寂環境下で採取した信号に対する有効性を確認した。ここでは、騒音環境下で採取した骨伝導音に対する有効性を評価することにした。騒音環境下のデータとして、先に収録した大島丸の信号データベースを用いることにした。そのため、信号収録環境及び認識対象となる語彙は大島丸で収録した信号データベースのものと同一の環境となる。
図6に騒音環境下における音声、図7に同環境下における骨伝導音を示す。各信号は大島丸航行時の機関室内において、男声20歳が電子協・地名百選の単語"上尾"を発声したものである。図6から分かるように騒音環境下では音声が騒音に埋没してしまうが、骨伝導音では頑健に信号採取できていることが確認できる。騒音環境下及び静寂環境下で採取した骨伝導音を比較して、2kHz以上の高い周波数成分において同程度の信号が得られることを確認した。よって、騒音環境下におけるロンバート効果の影響はあるものの、採取する信号に対する騒音の影響はほとんどないといえる。この信号に対して、加速度差分を求めることで図8に示すような加速度差分信号を得ることができる。図8から確認できるように、加速度差分信号も静寂環境下と同様の信号が得られることが確認できる。このことから、静寂環境下で用いたパラメータと同様のセッティングでウイナー法による雑音抑圧を試みることにした。なぜなら、雑音環境下では音声の採取ができないため、目標となる信号が得られないからである。
図9に加速度差分信号に対してウイナー法を用いたときの結果を示す。図9は雑音抑圧の処理回数3としたときの結果を示す。処理回数の比較を行ったところ、回数を増やす毎に高周波数における雑音抑圧が進み、3回程度行ったところで所望の信号が得られることを確認した。この結果から、雑音環境下でも静寂環境下と同様のパラメータ設定で同程度の性能を得ることを確認した。
6.おわりに
本研究では加速度差分を用いた骨伝導音の明瞭化に関する研究をおこなった。著者らは骨伝導音において2kHz以上の高い周波数成分を発見し、加速度差分と雑音抑圧による明瞭度改善手法を提案した。スペクトルサブトラクション法とウイナー法における検討を行い、ウイナー法で有益な信号が得られることを確認した。提案法における有効性を静寂下で確認するとともに、騒音環境下における信号に対する有効性も確認した。
今後はより明瞭度の高い信号を推定するためのアルゴリズムの検討を行うとともに、高磁場・高騒音下でも信号採取可能な骨伝導光マイクロフォンで採取した骨伝導光音に対する有効性を確認する。