211service.com
Googleが人工知能を解決する方法

パッド入りの壁、暗い照明、花柄の壁紙の天井。社会の軌道を変える画期的な発見をする場所のようには見えません。しかし、これらのシミュレートされた閉所恐怖症の回廊で、デミスハサビスは、人類の最大の問題を解決するのに十分スマートなソフトウェアの基礎を築くことができると考えています。
私たちの目標は非常に大きいとハサビスは言います。ハサビスの率直な態度は彼のアイデアの大胆さを覆い隠すことができます。彼は、今月初めに5ゲームシリーズでGoの世界チャンピオンを破ったAlphaGoソフトウェアの背後にあるロンドンを拠点とするグループであるGoogleのDeepMindで約200人のコンピューター科学者と神経科学者のチームを率い、コンピューティングのマイルストーンを設定しました。
これは、ハサビスが人工知能のアポロ計画として説明している取り組みの初期のチェックポイントであり、知能を解決し、それを使用して他のすべてを解決することを目的としています。今日のスマートソフトウェアに合格するのは、特定のタスク、たとえば顔の認識に特化したものです。ハサビスは、彼が一般的な人工知能と呼んでいるもの、つまり人間のように、ほぼすべてのタスクを引き受けることを学ぶことができるものを作成したいと考えています。彼は、科学理論を定式化してテストし、アジャイルロボット本体の周りを飛び回ることによって、医学を進歩させるのと同じくらい多様なことを行うことを想定しています。
そのためには、Goの注文された黒と白の石の世界を超えて探索するためにDeepMindのソフトウェアが必要になります。乱雑な現実の世界を把握する必要があります。または、暗いピクセル化された近似から始める必要があります。 DeepMindのシミュレートされた世界はLabyrinthと呼ばれ、同社はこれを使用して、迷路のナビゲートなど、ますます複雑になるタスクにソフトウェアを直面させています。これにより、DeepMindの研究者は、さらにスマートなソフトウェアを構築する方法を学び、ソフトウェアを押して、より困難な決定や問題に取り組む方法を学ぶことができます。彼らは、AlphaGoや、スペースインベーダーなどの1980年代のビンテージAtariゲームを人間よりも上手にプレイすることを学んだ以前のDeepMindソフトウェアで披露された技術を使用してこれを行っています。しかし、成功するためには、ハサビスはまた、人工知能におけるいくつかの長年の課題を回避する方法を発明する必要があります。
自己改善
ハサビス(39歳)は、彼の人生の多くでインテリジェンスを作成する方法の問題に取り組んできました。ビデオゲーム業界で成功するキャリアを確立するために高校を早く卒業したチェスの天才であり、後に神経科学の博士号を取得し、記憶と想像力に関する注目を集める研究を発表しました。
ハサビスは2010年にDeepMindを共同設立し、生物学的知性について学んだことの一部を機械に移しました。同社は2013年12月にAtariゲームをマスターすることを学んだソフトウェアを明らかにし、2014年の初めにGoogleが4億ポンド、当時6億ドル以上と報告されている金額で購入しました(Googleのインテリジェンスデザイナーを参照)。 DeepMindは急速に拡大し、数十人の研究者を採用し、主要な機械学習および人工知能の会議で多数の論文を発表しました。今年1月、AlphaGoの存在が明らかになり、2015年10月にヨーロッパの最高の囲碁プレーヤーを打ち負かしました。AlphaGoは今月初めに18回の世界チャンピオンであるLee Sedolを破りました(AlphaGoの歴史的勝利からの5つの教訓を参照)。

デミスハサビスは、「インテリジェンスの解決」を目指してGoogle内のグループを率いています。
AtariゲームとGoは大きく異なりますが、DeepMindは同じアプローチを使用して両方に取り組み、トレーナーからの報酬と罰を使用して動物に新しいトリックを教える方法に大まかに触発されました。強化学習では、いわゆるソフトウェアは、新しい環境を探索し、その動作を調整して、ある種の仮想報酬を増やすようにプログラムされています。
たとえば、DeepMindのAtariソフトウェアは、ゲーム画面を制御および表示する機能と、スコアを上げたいという衝動だけでプログラムされていました。数十のタイトルの場合、ソフトウェアが独自のブートストラップによってそれ自体を引き上げ、人間の専門家を打ち負かすには、数時間の練習で十分です。
AlphaGoは、強化学習を他のコンポーネントと組み合わせます。たとえば、囲碁のエキスパートによるゲームから数千万のボード位置を分析することで可能な動きを評価することを学習したシステムや、最も有望な動きを選択する検索メカニズムなどです。しかし、AlphaGoが何百万回も対戦することで、世界チャンピオンを打ち負かす形に身を投じることができたのは、強化学習でした。
Hassabisは、強化学習アプローチが、機械学習ソフトウェアに、単語の書き起こしや写真の内容の理解など、今日のトリックよりもはるかに複雑なことを実行させるための鍵であると考えています。観察するだけでは知性が十分ではないと思います。行動する必要もあります、と彼は言います。最終的には、それが世界を本当に理解できる唯一の方法です。
DeepMindの3D環境Labyrinthは、 ファーストパーソンシューティングゲームQuakeのオープンソースクローン は、そのアイデアを証明するための次のステップを提供するように設計されています。同社はすでに、ランダムに生成された迷路を60秒間探索し、リンゴを集めたり出口を見つけたりするためのポイントを獲得するゲームでエージェントに挑戦するためにそれを使用しています(これは別のランダムに生成された迷路につながります)。将来の課題では、より複雑な計画が必要になる可能性があります。たとえば、鍵を使用してドアを開けることができることを学びます。同社は他の方法でもソフトウェアをテストし、ビデオゲームのスタークラフトやポーカーの採用を検討しています。しかし、ラビリンス内でますます困難な課題を提起することは、しばらくの間、研究の主要な糸になるでしょう、とハサビスは言います。今後数年間は良いはずだと彼は言う。
人工知能に取り組んでいる他の企業や研究者は注意深く見守っています。 DeepMindの強化学習の成功は、多くの機械学習研究者を驚かせました。この手法は1980年代に確立されたものであり、ソフトウェアをトレーニングする他の方法ほど広く有用または非常に強力であることが証明されていません。 ピーターサンデーズ 、ワシントン大学で機械学習に取り組んでいる教授。 DeepMindは、ディープラーニングと呼ばれる方法と組み合わせることで、由緒ある技術を強化しました。これは、コンピューターが画像などの情報をデコードする方法に大きな進歩をもたらし、機械学習テクノロジーの最近のブームを引き起こしました(10 Breakthrough Technologies 2013:Deep Learningを参照)。 )。
DeepMindが行ったことは印象的です、とDomingosは言います。しかし、ハサビスが今日の結果をはるかに超えて飛ぶことができるロケットエンジンであると考えるのは、実際には裏庭の花火ではないかどうかを言うのは時期尚早だとも言います。最近の一連の印象的な結果は長続きしないかもしれません。強化学習に関するデミスの楽観主義は、これまでの実績によって正当化されていないとドミンゴスは言います。機械学習と人工知能の進歩は直線的ではありません。進歩が急増し、その後、長期にわたってゆっくりと進歩します。
ハサビスは、彼の分野の多くの人々が強化学習の可能性を疑っていることを認めていますが、彼らは勝利するだろうと言います。これを進めれば進めるほど、論文が正しいと感じ、分野全体を変えていると思います、と彼は言います。私たちの見解では、強化学習は、今後2、3年でディープラーニングと同じくらい大きくなるでしょう。
安全第一
これまでのDeepMindの結果は、強化学習がすぐに多くの有用なアプリケーションを見つけるというハサビスの主張を正当化する可能性があります。 AlphaGoの勝利は、プロの囲碁プレーヤーやコンピューターサイエンティストを驚かせました。ゲームが複雑すぎて、さまざまな動きの可能な結果の計算に主に依存するソフトウェアで取り組むことができないためです。これは、IBMのDeepBlueが1997年に世界チェスチャンピオンのGarryKasparovを倒すために使用した方法です。チェスプレイヤーは毎ターン35の可能な動きを持っています。 Goには250があります。宇宙にある原子よりも多くの可能なGo位置があります。チェスは計算ゲームです、とハサビスは言います。 Goは複雑すぎるため、プレイヤーは直感を使用しています。クラスは全然違います。 AlphaGoは、超人的な計算ではなく、超人的な直感と考えることができます。

囲碁の世界チャンピオンである李世ドルは、DeepMindのAlphaGoソフトウェアに対する4-1シリーズの敗北中にゲームをレビューします。
AlphaGoが直感を示すことに同意するかどうかにかかわらず、ソフトウェアがより複雑なタスクをマスターできるようにすることは明らかに役立つ可能性があります。 DeepMindは 英国の国民保健サービスとの協力 医療スタッフが一般的に見落とされ、回避可能な多数の死亡を引き起こす腎臓の問題の兆候を見つけるのを助けるためのソフトウェアを訓練することを目的としたプロジェクトで。このグループはGoogleの事業部門とも協力しており、Hassabis氏によると、彼の技術は仮想アシスタントに登場したり、YouTubeなどの製品に不可欠なレコメンデーションシステムを改善したりする可能性があります(同様のシステムがGoogleの広告製品の一部にも使用されています)。
さらに先を見据えて、DeepMindは、ラビリンス内での今後数年間の実験においても、インテリジェンスを解決するというハサビスの目標に向かって前進し続けるために、多くのブレークスルーを必要とします。最も重要な欠落部分の1つは、人間と動物の脳が世界の複雑さを処理するために使用するチャンキングと呼ばれるトリックです。ハサビスは、空港に行く必要があるという例を使ってそれを説明します。ドアに向かって歩くときに足をどこに置くか、ハンドルを回す方法、または筋線維のすべてのけいれんを制御する方法を正確に考慮する必要なしに、そこに到達してその計画を実行する方法を考えることができます。多くの詳細を隠す高レベルの概念を使用して計画およびアクションを実行し、すでに知っているチャンクまたは概念を再結合することで新しい状況に適応できます。これはおそらくAIに残された最も重要な問題の1つだとハサビスは言います。
これは、Google内の他の研究者を含む多くの研究グループが取り組んでいる問題です。しかし、DeepMindがそれを解決することを望んでいる1つの珍しい方法は、実際の脳を研究することです。同社には、昨年末までプリンストン大学の教授を務めていた著名な研究者、マシュー・ボトヴィニックが率いる神経科学者のチームがいます。ほとんどの神経科学研究とは異なり、その実験は、DeepMindがソフトウェアを設計する方法を知らせることと、脳がどのように機能するかを明らかにすることを目的としています。
最近のある実験では、標準的な手順を使用して、人間の脳が概念を整理する方法についてのハサビスの理論をテストしました 虚偽の記憶を生み出す 。これには、被験者に、寒さ、雪、氷などの関連する単語のリストを提示することが含まれます。冬など、他の関連する単語を聞いたことを誤って覚えている人もよくいます。

今月初めにソウルで行われたセドルとの試合中のDeepMindの従業員。
機械学習の帽子をかぶった状態で、それはその種の概念情報が脳内でどのように組織化されているかについての大きな手がかりにならなければならないと思いました、とハサビスは言います。 DeepMindチームは、脳の前側頭葉が概念とどのように連携するかについての理論を考案し、スキャナー内で記憶タスクを実行している人々の脳を観察することで、その予測を確認しました。この結果は、DeepMindが情報を表現するための人工ニューラルネットワークを設計する方法を変えるのに役立つ可能性があります。
DeepMindの発見リストには、テキストの意味を把握するためにソフトウェアで行った調査と、Labyrinth内を歩き回るエージェントの調査を組み合わせる方法があります。1つの可能性は、仮想空間内に看板を設置し始めることです。ハサビスは、エージェントがラビリンスよりも現実的な世界に備える準備ができたら、エージェントをテストする野心的な方法も計画していると言います。ある時点で、彼はDeepMindソフトウェアがロボットを制御するのを見たいと思っています。これは、ソフトウェアが世界を理解できないために抑制されていると彼は言います。アルゴリズムがないために完全な機能を使用できない驚くべきロボットが周りにあります、と彼は言います。
成功は、人間であることが何を意味するのか、そして人工知能の許容可能なユースケースについて、いくつかの難しい哲学的および倫理的問題を提起する可能性があります。ハサビス氏は、テクノロジーの潜在的なリスクについて話し合うことを奨励していると述べています。 (彼はまた、物理学者のスティーブン・ホーキングがハサビスとの会談以来、人工知能が人間を一掃する可能性があるという警告をやめたことに満足しているが、人工知能の研究を悪魔の召喚に例えたテスラの創設者イーロン・マスクも反ペップトークを受けた。)DeepMindには、哲学者、弁護士、ビジネスマンからなる内部倫理委員会があります。ハサビス氏は、彼らの名前はまもなく公開される可能性があり、複数のコンピューティング企業間で共有される同様の外部の取締役会を召集するためにも取り組んでいると述べています。
ただし、DeepMindのエンジニアは、新しい実験を計画する際に倫理的なアドバイスを必要としません、とHassabisは言います。私たちが心配することはどこにもありません、と彼は言います。それは、全員をスピードアップすることです。ハサビスが望むようにすべてがうまくいけば、彼の倫理委員会は最終的には実際にやるべきことがあるでしょう。