人間由来の発声音の音源識別技術

2023/10/26 13:55 - By Tech Manage

対話ロボット等の音声識別モジュールおよび当該識別のためのソフトウェア

Advantages

  • 環境音中から人間の生の発話音声のみを判別できる。
  • スマートスピーカーに採用した場合は、ウェイクワードが不要になる。

Background and Technology

スマートスピーカー用、あるいは対話型ロボット用の音声識別手段であって、環境音中の人の発話(例えばテレビからの人の発話)由来の音声と、人の直接発話による音声とを区別することができる方法の発明。
本発明者らは、高齢者や軽度認知障害(MCI)の患者の自宅で活躍する対話型ロボットの開発研究を行っている。高齢者宅などでは一日中テレビをつけたままにしている家庭が多く、そのため対話型ロボットがテレビ等に由来する音声にも反応してしまうことが問題となっている。環境音との区別方法の一つに、スマートスピーカーなどに代表される指示語と環境音を区別するためのウェイクワードがあるが、自然な対話を目的とする対話型ロボットには不向きである。そのため本発明者らは、人の生の声による発話と、テレビやラジオなどに由来する人の発話音声とを、ロボットが容易に区別できるようにするため、本発明の手法を考案した。
具体的な機構としては、①まずロボットが音声を録音し、②その音声が人の声(環境音に由来するものも含む)なのかどうかをVoice Activity Detector (VAD) により識別し、③人の声だと識別されたものに対し訓練された畳み込みニューラルネットワーク (CNN) を適用して直接発話による音声かどうかを識別し、これら3段階のプロセスを経た上で、人の直接発話に対してのみロボットが応答する。なお、音声データは時系列データであるため、情報処理量の関係でそのまま扱うには不向きである。そのため、本発明では音声データを一旦スペクトログラム画像データに変換し、上記のプロセスに適用することを提案する。この処理により、通常は画像の学習に用いることの多いCNNを活用でき、それにより全体の処理量を減らして判別させることが可能となる。
技術および処理方法に関しては、以下記載の論文に詳述されているので、併せてご確認いただきたい。

Expectations

テックマネッジ株式会社では、大阪大学からの委託により、本発明のライセンス導入による製品化・実用化をご検討いただける企業様を探しています。本発明に関し、発明者との面談も可能です。ご希望等ございましたら何なりとお尋ねください。

Publications

Figueroa D., Nishio S., Yamazaki R., Ishiguro H., “Improving voice detection in real life scenarios: differentiating television and human speech at older adults’ houses.” 
Int Rob Auto J. 2023;9(1):8‒13. 

Patents

国内出願済み

Researcher

西尾 修一 特任教授 (大阪大学 先導的学際研究機構附属 共生知能システム研究センター)


Please click here to see English summary.

以下のフォームからお問い合わせください

Tech Manage