動画を見て,映っている人が何の行動をしているか分類する問題は行動認識と呼ばれます.行動認識は機械学習における基本的な問題であり,動画検索技術などへの応用が期待できます.近年,深層学習の著しい発展に伴って行動認識の性能は大きく向上しましたが,深層学習は学習に大量の教師付きデータ(正解)を要するという課題があります.教師付きデータとは動画とその動画に映っている人が何の行動をしているかというラベルのペアのことですが,当然ラベルは人間が付けていく必要があるため教師付きデータを作るには高いコストがかかります.私たちは,この課題を解決するために,教師付きデータと教師なしデータの両方を利用することで,ほとんど教えない深層学習を行う手法をについて研究しています.専門的には,半教師あり学習と呼びます.ここては,私たちが提案した手法[1]について紹介します.
私たちが提案した手法は,Pseudo Label(擬似ラベル)と呼ばれる手法をベースとしています(図1).ここでは詳しく説明することはしませんが,簡単に言えば教師なしデータのラベルを一度予測して,もしその時の予測ラベルの確信度が十分高ければそのラベルが合っていると仮定し,教師なしデータと予測ラベルのペアを教師付きデータとして使いましょう,という手法です.
そこで,私たちは動画を圧縮して得られる情報を入力としてPseudo Labelの学習をおこなう手法を提案しました.実際に,行動認識のベンチマークのひとつであるUCF101というデータセットで半教師あり学習をした場合,ほかの手法と比較して提案手法は高い精度を達成できることを示しました.(表1)
1.Hayato Terao, Wataru Noguchi, Hiroyuki Iizuka, and Masahito Yamamoto. “Semi-supervised learning combining 2DCNNs and video compression for action recognition.” ICVISP 2020