ポーカーが人工知能にとって大きな問題である理由





偉大なケニー・ロジャースがかつて言ったように、優れたギャンブラーは、いつそれらを保持し、いつそれらを折りたたむかを知る必要があります。今週ピッツバーグのリバーズカジノで、Libratusと呼ばれるコンピュータープログラムは、コンピューターがどの人間のカードプレーヤーよりもこれをうまく行うことができることを最終的に証明するかもしれません。

Libratusは、何千ものヘッズアップ、または2人のプレーヤー、無制限のテキサスホールデムを、数人のエキスパートプロポーカープレーヤーと対戦しています。 20日間のコンテストの半分を少し超えた今、Libratusは人間の対戦相手に対してほぼ$ 800,000上昇しています。したがって、勝利は保証されているとは言えませんが、カードに含まれている可能性があります。

Libratusの勝利は、人工知能の大きな成果となるでしょう。ポーカーには、マシンが模倣するのが難しいことが証明されている推論とインテリジェンスが必要です。対戦相手の手がプレイ中に見えないようになっているため、チェッカー、チェス、ゴーとは根本的に異なります。不完全情報ゲームでは、対戦相手がとる可能性のあるすべての可能なアプローチを考えると、理想的な戦略を理解することは非常に複雑です。そして、ノーリミットテキサスホールデムは、対戦相手が基本的に任意の金額を賭ける可能性があるため、特に挑戦的です。



ポーカーは、AIがクラックするのが最も難しいゲームの1つだと言います アンドリュー・ン 、Baiduのチーフサイエンティスト。最適な動きは1つではありませんが、代わりにAIプレーヤーは、ブラフしているときに対戦相手が不確実になるように、アクションをランダム化する必要があります。

Libratusはによって作成されました ツォーマスサンドホルム 、CMUのコンピュータサイエンス学部の教授と彼の大学院生 ノアム・ブラウン 。フィンランドから博士号を取得するために移住したゲーム理論とAIの専門家であるサンドホルム氏は、人間が長い間コンピューターを凌駕することができたのは驚くべきことだと述べています。これらのトッププロがどれほど優れているか、それは私の心を吹き飛ばします」と彼は言います。 「AIが取り組んだこれらすべてのゲームの中で、[ポーカー]はAIが超人的なパフォーマンスに達していない唯一のゲームです。

AIの研究者は、ゲーム理論、つまり戦略的意思決定の数学を使用して、平衡と呼ばれるさまざまな不確実性を考慮した最良の戦略を見つけます。可能性は非常に大きいため、これには通常、何らかの形の近似が含まれます。

動きが良いかどうかは、観察できないものに依存します、と言います ヴィンセント・コニツァー 、AIとゲーム理論を教えるデューク大学の教授。これはまた、予測不可能である必要性をもたらします。あなたが決してブラフしないなら、あなたは良いプレーヤーではありません。あなたがいつもブラフしているなら、あなたは良いプレーヤーではありません。ゲーム理論は、ある意味で最適な方法でプレイをランダム化する方法を示しています。

昨年、サンドホルムは、クラウディコと呼ばれる以前のポーカープレイプログラムの開発を主導しました。このプログラムは、数人のプロのポーカープレイヤーとの試合でしっかりと打ち負かされました。彼は、Libratusがそのような高レベルの遊びを達成するためにいくつかの新しい進歩を使用していると説明します。これには、新しい平衡近似手法と、ゲームの後の段階でカードが明らかになるときに起こりうる結果を分析するためのいくつかの新しい方法が含まれるとサンドホルム氏は言います。このゲーム終了時の分析は計算上非常に困難であり、CMUとピッツバーグ大学が運営する施設であるピッツバーグスーパーコンピューティングセンターで各ゲーム中に実行されます。

機械学習とAIの進歩により、最近、多くの超人的なゲームプレイプログラムが登場しています。昨年、Alphabetの子会社であるDeepMindの研究者は、世界最高の囲碁プレーヤーの1人を打ち負かすことができるプログラムを開発しました。 Goは非常に複雑であり、ゲーム内の進行状況を測定するのが難しいため、この成果は非常に素晴らしいものでした(GoogleのAIマスターが予想よりも10年早く進むを参照)。

いくつかの異なる研究グループがポーカーへの取り組みに焦点を合わせています。カナダのアルバータ大学、チェコ共和国のカレル大学とチェコ工科大学の別の学術チームが最近、次のようなプログラムを開発しました。 DeepStack 、それはすでにヘッズアップノーリミットテキサスホールデムで数人のプロプレイヤーを打ち負かしています(ポーカーはAIに対してフォールドする最新のゲームですを参照)。ただし、サンドホルム氏によると、Libratusとの試合に参加したプレーヤーははるかに強力であり、マシンに対してより多くのハンドをプレーしているため、結果の統計的有意性が高くなるはずです。

よりスマートなポーカーボットを構築するために使用される技術には、多くの実際のアプリケーションが含まれる可能性があります。ゲーム理論は、妨害攻撃やサイバーセキュリティ、タクシーサービスの自動ガイダンス、ロボット計画の研究にすでに適用されていると言います。 サム・ガンズフリート 、クラウディコの開発に携わり、現在はマイアミのフロリダ国際大学の助教授です。

ただし、今週Libratusが勝利したとしても、それは人間がもはやカードテーブルに座るに値しないという意味ではありません。ノーリミットテキサスホールデムのマルチプレイヤーバージョンは、Libratusが採用しているテクニックを使用して習得することはできません。

隠れる