seminar-personal/kuroiwa2020
機械学習による日本語話者の自動読唇 †
- 概要:現在、機械学習による自動読唇技術がアメリカで発達している。LipNetと呼ばれるシステムを利用した自動読唇の精度は9割近くまで向上している。一方日本語では自動読唇の研究が進められておらず、LipNetを日本語版のデータセットを使って認識することが出来ないかという研究である。
- 方法:データセットAとデータセットBを作り、LipNetのシステムを使い学習させ認識率を調べていた。データセットAでは簡単な日本語の単語(おはよう、ありがとう、はい、など)360発話分使用していた。一方データセットBでは、子音に"p,b,m"の含む単語(あそびば、ばしょ、めざまし、など)を360発話分使用していた。
- 考察:WER(Word Error Rate)でCER(Character Error Rate)であった。このことからデータセットAを利用した認識精度は2割程度で、データセットBを利用した認識精度は4割程度であることが分かった。この原因としては、トレーニングデータが約300程度と少ないことが挙げられた。
- 課題点:トレーニングデータが不足していたこと。そして、日本語のすべての音素を取り入れることが出来なかったこと。