ニューラルネットワークは目の錯覚が何であるかを理解していません

黒と白の目の錯覚の画像

黒と白の目の錯覚の画像 細工Pixabay





人間の視覚は並外れた施設です。何百万年にもわたって特定の環境で進化しましたが、初期の視覚システムでは経験したことのないタスクを実行できます。車、飛行機、道路標識などの人工物を識別するのと同様に、読書は良い例です。

しかし、視覚系には、目の錯覚として私たちが経験するよく知られた一連の欠点もあります。確かに、研究者は、これらの幻想が人間に色、サイズ、整列、および動きを誤って判断させる多くの方法を特定しました。

錯覚自体は、視覚系と知覚の性質への洞察を提供するため、興味深いものです。したがって、これらの限界を探求する新しい幻想を見つける方法は非常に役立ちます。



同心円錯視の画像

同心円?

そこでディープラーニングが登場します。近年、機械は画像内のオブジェクトや顔を認識し、それ自体で同様の画像を作成することを学びました。したがって、マシンビジョンシステムは、錯覚を認識して独自の錯覚を作成することを学習できる必要があることは容易に想像できます。

ケンタッキー州のルイビル大学でロバートウィリアムズとローマンヤンポルスキーを入力してください。これらの人たちはこの偉業を試みましたが、物事はそれほど単純ではないことに気づきました。現在の機械学習システムは、少なくともまだ、独自の目の錯覚を生成することはできません。なぜだめですか?



最初にいくつかの背景。ディープラーニングの最近の進歩は、2つの進歩に基づいています。 1つ目は、強力なニューラルネットワークと、学習を上手に行うための1つまたは2つのプログラミングトリックの可用性です。

2つ目は、マシンが学習できる巨大な注釈付きデータベースの作成です。たとえば、顔を認識するように機械を教えるには、明確にラベル付けされた顔を含む何万もの画像が必要です。その情報を使用して、ニューラルネットは、特徴的な顔のパターン(たとえば、2つの目、鼻、口)を見つけることを学習できます。さらに印象的なのは、生成的敵対的ネットワークと呼ばれるそれらのペアが、現実的であるが完全に合成された顔の画像を作成することを互いに教え合うことができることです。

ウィリアムズとヤンポルスキーは、同じ方法で目の錯覚を識別するためのニューラルネットワークを教えることに着手しました。計算能力は簡単に利用できますが、必要なデータベースは利用できません。したがって、研究者の最初のタスクは、トレーニング用の目の錯覚のデータベースを作成することでした。



それは難しいことがわかりました。静的な錯視画像の数は数千に満たず、独特の種類の錯覚の数は確かに非常に少なく、おそらく数十にすぎないと彼らは言います。

これは、現在の機械学習システムにとっての課題です。そのような小さくて限られたデータセットから学習できるモデルを作成することは、生成モデルと人間の視覚の理解における大きな飛躍を表すだろうと彼らは言います。

そこで、ウィリアムズとヤンポルスキーは、目の錯覚の6,000を超える画像のデータベースを編集し、それらを認識するようにニューラルネットワークをトレーニングしました。次に、彼らは生成的な敵対的ネットワークを構築して、それ自体に目の錯覚を作り出しました。



結果は期待外れでした。 Nvidia Tesla K80で7時間トレーニングした後、価値のあるものは何も作成されなかったと、他の人がデータベースを利用できるようにした研究者たちは言います。

それにもかかわらず、これは興味深い結果です。人間に知られている唯一の目の錯覚は、進化(たとえば、蝶の羽のアイパターン)または人間の芸術家によって作成されたと彼らは指摘しています。

どちらの場合も、人間は貴重なフィードバックを提供することで重要な役割を果たします。 見る 幻想。

しかし、マシンビジョンシステムはできません。ウィリアムズとヤンポルスキーは、[生成的敵対的ネットワーク]がこれらの幻想の背後にある原理を理解できずに人間の視覚をだますことを学ぶことができる可能性は低いようです。

マシンビジョンシステムと人間の視覚システムの間には決定的な違いがあるため、それらは簡単ではないかもしれません。さまざまな研究者が、人間の視覚系にこれまで以上に似た神経ネットワークを開発しています。おそらく興味深いテストは、彼らが幻想を見ることができるかどうかです。

その間、ウィリアムズとヤンポルスキーは楽観的ではありません。錯覚画像のデータセットは、新しい錯覚を作成するのに十分ではないようです、と彼らは言います。したがって、今のところ、目の錯覚は、機械が征服できない人間の経験の要塞です。

参照: arxiv.org/abs/1810.00415 :目の錯覚画像データセット

隠れる