seminar-personal/kuroiwa2020

機械学習による日本語話者の自動読唇 

  • 日付,著者:2018年度 浅見莉絵子さんの論文
  • 概要:現在、機械学習による自動読唇技術がアメリカで発達している。LipNetと呼ばれるシステムを利用した自動読唇の精度は9割近くまで向上している。一方日本語では自動読唇の研究が進められておらず、LipNetを日本語版のデータセットを使って認識することが出来ないかという研究である。
  • 方法:データセットAとデータセットBを作り、LipNetのシステムを使い学習させ認識率を調べていた。データセットAでは簡単な日本語の単語(おはよう、ありがとう、はい、など)360発話分使用していた。一方データセットBでは、子音に"p,b,m"の含む単語(あそびば、ばしょ、めざまし、など)を360発話分使用していた。
  • 実験結果:

sample.PNG

  • 考察:WER(Word Error Rate)でCER(Character Error Rate)であった。このことからデータセットAを利用した認識精度は2割程度で、データセットBを利用した認識精度は4割程度であることが分かった。この原因としては、トレーニングデータが約300程度と少ないことが挙げられた。
  • 課題点:トレーニングデータが不足していたこと。そして、日本語のすべての音素を取り入れることが出来なかったこと。

添付ファイル: filesample.PNG 276件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-10-12 (月) 04:46:11