DeepMindのメモリトリックがAIの学習を高速化するのにどのように役立つか

インテリジェントマシンには人間が見えます。ディープラーニングマシンは、顔認識、ビデオゲームのプレイ、さらには古代中国の囲碁などのタスクに関して、すでに超人的なスキルを備えています。ですから、人間はすでに打ち負かされていると考えるのは簡単です。





しかし、それほど速くはありません。インテリジェントマシンは、パフォーマンスの1つの重要な領域、つまり学習速度において、依然として人間に遅れをとっています。たとえば、古典的なビデオゲームを習得する場合、最高の深層学習マシンは、人間がわずか2時間で達成するのと同じスキルレベルに到達するために約200時間のプレイを必要とします。

したがって、コンピューターサイエンティストは、機械が学習する速度を速める方法が欲しいと切に願っています。

今日、ロンドンにあるGoogleのDeepMind子会社のAlexander Pritzelとその仲間たちは、まさにそれを行ったと主張しています。これらの人々は、新しい経験を迅速に吸収し、それに基づいて行動することができる深層学習マシンを構築しました。その結果、他のマシンよりも大幅に速く学習し、それほど遠くない将来に人間と一致する可能性のあるマシンができあがります。



まず、いくつかの背景。ディープラーニングは、ニューラルネットワークのレイヤーを使用してデータのパターンを探します。単一のレイヤーが認識したパターンを見つけると、この情報を次のレイヤーに送信し、次のレイヤーがこの信号のパターンを探します。

したがって、顔認識では、1つのレイヤーが画像内のエッジを検索し、次のレイヤーがエッジの円形パターン(目と口が作成する種類)を検索し、次のレイヤーが2つの目と口が作成するような三角形のパターンを検索する場合があります。これがすべて行われると、最終的な出力は顔が発見されたことを示します。

もちろん、悪魔は細部に宿っています。層間の接続の強さなどのさまざまな内部パラメータを調整することによってシステムが学習できるようにするためのフィードバックのさまざまなシステムがあります。 1つのレイヤーで大きな変更を行うと、後続のレイヤーでの学習に壊滅的な影響を与える可能性があるため、これらのパラメーターはゆっくりと変更する必要があります。そのため、ディープニューラルネットワークには多くのトレーニングが必要であり、時間がかかるのです。



Pritzelと共同研究者は、神経エピソード制御と呼ばれる手法でこの問題に取り組んできました。神経エピソード制御は、幅広い環境での学習速度の劇的な改善を示していると彼らは言います。重要なことに、私たちのエージェントは、最適化の多くのステップを待つのではなく、経験を積むとすぐに、非常に成功した戦略を迅速に把握することができます。

DeepMindのアプローチの背後にある基本的な考え方は、人間と動物がすばやく学習する方法をコピーすることです。一般的なコンセンサスは、人間は2つの異なる方法で状況に取り組むことができるということです。状況がよく知られている場合、私たちの脳はすでにそのモデルを形成しており、それを使用して最善の行動をとっています。これは、前頭前野と呼ばれる脳の一部を使用します。

しかし、状況がよくわからない場合、私たちの脳は別の戦略に頼らなければなりません。これには、海馬を含むはるかに単純なテストと記憶のアプローチが含まれると考えられています。だから私たちは何かを試みて、このエピソードの結果を覚えています。成功した場合は、再試行します。しかし、それが成功したエピソードでない場合、私たちは将来それを避けようとします。



このエピソード的なアプローチは、私たちの前頭前野の脳が学習している間、短期的には十分です。しかし、それはすぐに前頭前野とそのモデルベースのアプローチによってアウトパフォームされます。

Pritzelと共同研究者は、このアプローチをインスピレーションとして使用しました。彼らの新しいシステムには2つのアプローチがあります。 1つ目は、前頭前野の行動を模倣する従来の深層学習システムです。 2つ目は、海馬に似ています。システムが何か新しいことを試みるとき、それは結果を記憶します。

しかし重要なのは、何を覚えておくべきかを学ぼうとしないことです。代わりに、すべてを記憶しています。 Pritzelと共同で、私たちのアーキテクチャは、いつメモリに書き込むかを学習しようとはしません。これは、学習に時間がかかり、かなりの時間がかかる可能性があるためです。代わりに、すべてのエクスペリエンスをメモリに書き込むことを選択し、既存のメモリアーキテクチャと比較して非常に大きくなるようにします。



次に、一連の戦略を使用して、この大きなメモリからすばやく読み取ります。その結果、システムは、従来の深層学習システムよりもはるかに迅速に成功した戦略を把握できます。

彼らはさらに、ブレイクアウト、ポン、スペースインベーダーなどの古典的なアタリのビデオゲームをプレイするようにマシンをトレーニングすることで、これらすべてがどれほどうまく機能するかを示します。 (これは、DeepMindが多くの深層学習マシンをトレーニングするために使用した遊び場です。)

DeepMindの共同創設者であるDemisHassibisを含むチームは、神経エピソード制御が、学習速度において他の深層学習アプローチを大幅に上回っていることを示しています。私たちの実験は、神経の一時的な制御が環境との相互作用を一桁少なくする必要があることを示しています、と彼らは言います。

それは大きな可能性を秘めた印象的な作品です。研究者たちは、この作業の明らかな拡張は、より複雑な3D環境で新しいアプローチをテストすることであると述べています。

チームが選択する環境と、それが現実の世界に与える影響を確認するのは興味深いことです。それがどのように機能するかを楽しみにしています。

参照:神経エピソード制御: arxiv.org/abs/1703.01988

隠れる