シリーズの第5回では、人間の直感と推論を模倣して人間を上回ったAlphaGo(AlphaGo)について学びます。シリーズの過去のコンテンツをまだ見ていない場合は、まずチェックすることをおすすめします。
[AIストーリー] 人間に挑戦する人工知能 (1) ディープブルー (ディープブルー)
[AI ストーリー] 人間対人工知能 (2) ワトソン (ワトソン)
[AIストーリー] AlexNet (アレックスネット) は人間対人工知能の時代を切り開いた (3) ディープラーニング
[AIストーリー] 人間対人工知能 (4) 感情を読み取るロボット Pepper (ペッパー)
「私は勝った。私たちは月に着陸しました。」
これらは、Google DeepMindの最高経営責任者であるデミス・ハサビス(AlphaGo)が9位でイ・セドルとの試合でAlphaGo(AlphaGo)が勝利した後に明らかにした印象*です。2016年に起こった世紀の対決を通して、私たちは1969年に人類が月面に着陸したときと同じような決定的な瞬間を目の当たりにしました。その結果、私たちは皆、すでに途方もない技術革新の真っ只中にいて、それがどれほどの影響を与えるのかを実感することができました。
しかし、これまで、囲碁で機械が人間を倒すのはチェスよりもはるかに難しいと考えられていました。チェスよりもはるかに多くのケースが発生する複雑なゲームです。つまり、コンピューターが実行できるケースの数を計算して結果を出す従来の方法を、これまでのように期待するのは難しいということです。
では、AlphaGoはどのようにしてこの一見不可能と思われる課題に成功したのでしょうか。このコンテンツを通して、AlphaGoの誕生過程や成功の秘訣を知り、当時の衝撃的な姿が今後の社会や技術発展の方向性にどのような影響を与えたかを考えていきます。
アルファゴーが出るまで
21世紀に入っても、AI技術はしばらくの間停滞しているように見えました。しかし、まだ一般には知られていませんでした。実際、AI技術は新たな全盛期に向けて着実に進歩していました。試行錯誤の末、研究者たちは機械学習やディープラーニングなどのブレークスルーを見出し、より人間の思考に近いAIに近づきつつありました。
そして、AlphaGoの台頭は、新しい時代の到来を形作った決定的な勢いです。
AlphaGoはどうやって勝ったの?
<네이처>Google に掲載された論文 「ディープニューラルネットワークとツリーサーチで囲碁を制覇しよう(ディープニューラルネットワークとツリーサーチで囲碁をマスターしよう)'** は 「完璧な情報を備えたゲームにはすべて、最適な価値のある特徴があります。 ...(完全情報のゲームにはすべて最適値関数があります...)」**という単語で始まります。
これを見ると、AlphaGoが開発された方向性が推測できます。やはり囲碁はチェッカーボードという限られたスペースの中でベストスポットを見つけるゲームです。しかし、横線と縦線が19本ある世界では展開できます。 「囲碁のケースの数は、宇宙の原子の数よりも多い。」しかし問題は、それがとても大きかったということでした。***
ザ・キー 囲碁ケースの数をほぼ無限に減らす方法調整されます
この目的のために、AlphaGoはポリシーネットワーク(ポリシーネットワーク)とバリューネットワーク(バリューネットワーク)を組み合わせたディープニューラルネットワーク(DNN、ディープニューラルネットワーク)を構築し、モンテカルロツリーサーチ(MCTS)と組み合わせました。当選確率が高い次の数字を予測して絞り込む政策ネットワークと、勝率を計算して勝者を推定し、MCTSを通じて最も有利な選択を行うバリューネットワークを組み合わせて設計されています。また、そのためには、政策ネットワークガイダンス学習、政策ネットワーク強化学習、バリューチェーン強化学習の各段階を経ます。****
政策ネットワークの教師付き学習(政策ネットワークの教師付き学習)
大量の囲碁ビッグデータを用いた教師あり学習法を用いて、最適な数を見つけた。畳み込みニューラルネットワーク (CNN、畳み込みニューラルネットワーク) を使って時間をかけて蓄積された膨大な量のレポートを研究することで、プロの人間の作家の真似をするように彼らを訓練しました。このおかげで、以前は 44% だった予測確率が 57% に上がりました。
政策ネットワーク強化学習 (政策ネットワーク)
私たちは、反復的なセルフヘルプ、つまり実践を通じた教師付き学習を通じて、政策ネットワークのパフォーマンスをさらに向上させます。これにより、ストーリーのみに最適化されるという制限を克服することが可能になりました。機械が最もやりがいのある選択肢を自分で探求できる強化学習によって、機械は以前よりも 80% 多く勝つことができるようになります。
バリューネットワーク強化学習 (バリューネットワーク学習)
ある国で蓄積されたレポートに基づいて重みを付け、次の主要国に進むことで、分析能力がさらに高まります。最終的には、勝つ可能性を高めるための最適な数字を見つけることができるようになります。
最適な数を見つけましょう
要約すると、AlphaGoはポリシーネットワークとバリューネットワークをMCTSアルゴリズムと組み合わせることで、最適な次の番号を短時間で選択できました。
以下に示すように 'a. セレクション これが適切な数なのか失敗した数なのかを判断して、ケースの数を減らしてください(ポリシーネットワーク) b. 拡張、c. 評価 Natureの論文では、より迅速な予測と数量の価値の評価(ロールアウト、バリューネットワーク)によって次の数値を決定することが可能であると説明しています。 d. バックアップ 最終数は、プロセスbとcの結果を組み合わせて予測および決定されます。」*****と書かれています。
仕上げ中
それ以来、AlphaGoは13試合で12勝1敗という輝かしい公式記録を残して囲碁界から引退しました。結局、イ・セドルの第9チームでの初勝利は、AIとの囲碁の試合における人間の最後の勝利となりました。さらに、その後のAlphaGoの影響は、囲碁の世界だけでなく、社会全体に多大な影響を与えました。
それ以来、AlphaGo自体は、囲碁に限らずその可能性から、医学、物理学、生物学、気候変動などのさまざまな分野での利用を試みてきました。以前のディープ・ブルーのように、特定の目的に向けてAIの限界を超えました。意外にも、AI 技術は人間の知的能力に匹敵する汎用人工知能 (AGI) へと進化の過程に入りました。
また、この結果、AIが共存する未来に備えるための本格的な議論を始めることができました。予想以上に速い技術開発がもたらす将来のショックに備える絶好の機会となりました。そのおかげで、漠然とした期待や恐れを超えて、人間とAIが共存する未来についての議論が盛り上がりました。
しかし、この議論がどのような未来につながるのかはまだわかりません。しかし、一つだけ確かなことは、AlphaGo以来、私たちはかつてないほど重要な転換点に立っているということです。
参考文献
[1] https://deepmind.com/research/case-studies/alphago-the-story-so-far
[2] ディープニューラルネットワークとツリーサーチで囲碁をマスターしよう https://www.nature.com/articles/nature16961
[3] [AlphaGo論文レビュー] ディープニューラルネットワークとツリー検索で囲碁をマスターする https://kim95175.tistory.com/11
[4] https://ko.wikipedia.org/wiki/알파고
[5] [AlphaGoの仕組みの分析] ① ケース数の削減 (サーチスペース) https://www.getnews.co.kr/news/articleView.html?idxno=4256
[6] [AlphaGoの仕組みの分析] ② 価格の評価 (深度削減) https://www.getnews.co.kr/news/articleView.html?idxno=4255
[7] アルファゴー-ザ・ムービー https://www.alphagomovie.com/screenings
一緒に見るのに良いコンテンツ
[AIストーリー] 人間に挑戦する人工知能 (1) ディープブルー (ディープブルー)[AI ストーリー] 人間対人工知能 (2) ワトソン (ワトソン)[AIストーリー] AlexNet (アレックスネット) は人間対人工知能の時代を切り開いた (3) ディープラーニング[AIストーリー] 人間対人工知能 (4) 感情を読み取るロボット Pepper (ペッパー)