機械学習を用いた手話認識

 
 
手話はろう者(耳の聞こえない人々)の間でコミュニケーションツールとして一般的に使われている言語です.現状,聴者(耳の聞こえる人々)の間で手話はよく普及しているとは言えず,買い物など聴者とコミュニケーションを取ることが必要になる場面においてコミュニケーションが円滑に進まないなどの不都合が生じています.本研究では,手話を聴者の普段使っている言語へと変換する自動翻訳機の開発への第一歩として,手話単語分類を行なっています.
手話は手の動きだけではなく,顔の表情や,うなずきなどの情報(非手指動作)も文法的意味を持っていて,翻訳のためにはそれらを認識する必要もあると考えられます.そこで,画像認識に優れたCNNと,時系列データを扱うことが可能なLSTMを組み合わせた下の図で示したようなモデルを使い,手の動きだけでなく非手指動作まで考慮した手話単語分類を行っています.
 

 
下の動画で示したLSA64というアルゼンチン手話のデータセットを使った64クラス分類では,94%程度の精度が出せることがわかりました.また,現在は日本語手話のデータセットについて実験を行なっています.