よりよいクルマの自動運転技術のためには「眼の動き」を足すのがカギ

2022年7月13日

視野内の物体を検知し同定する自動運転のクルマ Copyright: Adobe Stock

理化学研究所脳神経科学研究センター視覚意思決定研究チームのアンドレア・ベヌッチチームリーダーらは、より早く正確に物体認識を学習できるニューラルネットワーク*1を開発しました。今回PLOS Computational Biologyに発表した研究では、普段私たちが無意識に行なっている眼球運動*2に着目し、この眼球運動が安定的に物体を認識するために重要な役割を担っていることを示しました。この研究成果によって、自動運転中のクルマが道路上の重要な特徴を学習しやすくなるなど、機械が視覚情報を識別する技術への応用が期待できます。

私たちは日中何度も頭や眼球を動かしています。その結果、網膜に届く物理的情報は刻一刻と変化しますが、視界の中の物体がぼやけたり、認識できなくなったりすることはありません。神経細胞が身体の運動を指令するために送る情報のコピー（複製）を利用することで、こうした安定的な視覚認知が可能になっているのです。私たちが身体を動かすたびに運動情報のコピーが脳全体に送られ、自身の運動を認識し、認知を一定に保つことができると考えられています。

眼球運動とその情報のコピーは視覚認知を一定に保つだけでなく、動物が物体を安定的に識別するのを助けていることが近年の研究から分かってきましたが、その仕組みは謎でした。ベヌッチチームリーダーらはこの問題を解決するような畳み込みニューラルネットワーク（Convolutional neural network: CNN）*3を開発しました。CNNは眼球が動いている最中に視野に入ってくる物体の分類を最適化するようにデザインされています。

まず6万枚の白黒画像を10のカテゴリーに分類するようこのCNNを訓練すると、これらの白黒画像についてはうまく分類できました。次に眼球運動によって生じる自然な視覚インプットの変化を模した「ずれた画像」でテストしたところ、このCNNの分類パフォーマンスは著しく下がり、正しく分類できませんでした。ところが眼球運動の大きさや方向の情報をCNNに組み込んだ上で、ずれた画像で訓練すると、CNNによる分類は有意に改善されました。

A self-driving car making human-like eye movements recognizes a stop sign in time to stop.

ヒトのような眼球運動を行う自動運転のクルマは停止の標識を認識してきちんと停止できる。

このように眼球運動とその運動情報のコピーをネットワークモデルに加えることで、画像内の視覚ノイズをより良く処理することが可能になりました。「我々の研究成果は、機械の視覚認識システムによる危険なミスの回避につながるはずです」とベヌッチチームリーダーは言います。「この従来よりも効率が良く頑健な視覚認識システムを機械に使用すれば、adversarial attack*4と呼ばれるピクセル変化によるシステムの脆弱性が改善され、自動運転のクルマが停止標識を街頭と誤認するようなことが起こらなくなるでしょう」

今回得られた成果を、私たちが実生活で使う機械の視覚認識システムに反映させることは、実はそれほど難しいことではありません。「眼球運動とその情報のコピーを利用する仕組みを実装するためには、機械の視覚センサーの運動も制御しなければならないという課題はありますが、メリットも大きいのです。画像処理を行う視覚ネットワーク自体に運動情報を伝えることで、機械の視覚認識システムはより頑健になり、ヒトの視覚システムにより近づきます」とベヌッチチームリーダーは説明します。

ベヌッチチームリーダーが目指す次のステップは、ニューロモーフィック・テクノロジー*5の研究者と共同研究を行うことです。今回の研究成果で得られた法則を実際にシリコン基盤回路に実装し、実生活に応用できる視覚認識システムの性能を改善できるか検証したいと考えています。

Reference

Benucci A (2022) Motor-related signals support localization invariance for stable visual perception. PLoS Comput Biol. doi: 10.1371/journal.pcbi.1009928

*1 ニューラルネットワーク：ヒトの脳の仕組みから着想を得た学習アルゴリズムで、ヒトが行うような認知的情報処理をコンピューターに行わせることが可能になる。

*2 眼球運動：見たいものの方向に眼球を向ける運動のほか、物体を見るために視点を固定しているときに生じる素早い微小な眼球運動もある。

*3 畳み込みニューラルネットワーク：AIが画像分析を行うための学習手法の一つ。脳の視覚野に関する脳科学的知見にヒントを得た仕組みが組み込まれている。画像認識システムなどによく利用される。

*4 分類器に対する脆弱性攻撃：分類器が正しく分類できる画像にヒトの眼では判別できない程度のノイズをのせて分類器の判断を誤らせる行為。

*5 ニューロモーフィック・テクノロジー：脳の構造や仕組みを模倣した技術開発のこと。ヒトや動物の脳の優れた性能をエンジニアリングやコンピューターに生かすことを目的としている。

Contact

Dr. Andrea Benucci
Laboratory for Neural Circuits and Behavior
RIKEN Center for Brain Science
Email: andrea.benucci@riken.jp

本プレスリリースはAdam Philipsの英語原文に基づいてCBSが一部改変し翻訳しました

原文（英語）：Extra “eye” movements are the key to better self-driving cars