kuroiwa2020-20200929 のバックアップの現在との差分(No.2)

バックアップ一覧
差分を表示
ソースを表示
バックアップを表示
kuroiwa2020-20200929 へ行く。
- 1 (2020-09-29 (火) 20:13:23)
- 2 (2020-09-29 (火) 20:51:33)

追加された行はこの色です。
削除された行はこの色です。

#author("2020-09-29T02:51:33+00:00","default:f-lab","f-lab")
#author("2020-10-11T19:46:11+00:00","default:f-lab","f-lab")
[[seminar-personal/kuroiwa2020]]
-現状進捗
--"あ、か、さ、た、な、は、ま、ら"の動画撮影を行った。ヤ行とワ行に関してはどのように撮影すればいいのか分からなかった。
--また撮影した一つ分の動画をを30フレームに分けるプログラムを実行してみたら実行できた。
--しかしもう一つの切り出したプログラムを正規化するほうは、Dlibがうまくダウンロードできなかったので実行できなかった。
-中間発表まとめ
--中間発表では主に2つのことを指摘された。一つ目は、明確な目標がしっかりしていないという指摘でした。これに対してはまだ読唇チームでの役割も決まっていなかったので、先輩たちと話し合いながら自分が具体的に何をするかを明確にしていきたいと思いました。二つ目は日本でもLipNetの精度が8割まで進んでいるという指摘でした。これに対しては今研究を行っている読唇精度を9割近くまで上げなければならないと思いました。そのためにもチームで話し合って研究を進めていきたいと思いました。
*機械学習による日本語話者の自動読唇　 [#h2b34c85]

-日付,著者:2018年度 浅見莉絵子さんの論文

-概要:現在、機械学習による自動読唇技術がアメリカで発達している。LipNetと呼ばれるシステムを利用した自動読唇の精度は9割近くまで向上している。一方日本語では自動読唇の研究が進められておらず、LipNetを日本語版のデータセットを使って認識することが出来ないかという研究である。

-方法:データセットAとデータセットBを作り、LipNetのシステムを使い学習させ認識率を調べていた。データセットAでは簡単な日本語の単語(おはよう、ありがとう、はい、など)360発話分使用していた。一方データセットBでは、子音に"p,b,m"の含む単語(あそびば、ばしょ、めざまし、など)を360発話分使用していた。

-実験結果:

&ref(sample.PNG);&br;


-考察:WER(Word Error Rate)でCER(Character Error Rate)であった。このことからデータセットAを利用した認識精度は2割程度で、データセットBを利用した認識精度は4割程度であることが分かった。この原因としては、トレーニングデータが約300程度と少ないことが挙げられた。

-課題点:トレーニングデータが不足していたこと。そして、日本語のすべての音素を取り入れることが出来なかったこと。