【Ai最新情報】DeepMindが常識を覆す!教師なしAi「MuZero」とは

Ai(人工知能)はこれまで、機械学習であるDeep learning(ディープラーニング)を用いて様々な場面で活用されてきました。
その一つに、2016年人工知能「Alpha Go(アルファ碁)」が韓国のプロ棋士に勝利したニュースは記憶に新しいでしょう。そしてその後に開発された「AlphaGoZero」と続き、2020年12月24日に発表された教師なしAi「MuZero(ミューゼロ)」は、これまでの常識を覆すものとして話題となっています。
そこで今回は、DeepMind社が開発した教師なしAi「MuZero(ミューゼロ)」とは一体どのようなものなのか、更にその開発に至った背景も併せて解説して参ります。
目次
1.機械学習Deep learning(ディープラーニング)とは
Deep learning(ディープラーニング)とは、人間が自然に行うタスクをコンピュータに学習させる機械学習の一つであり、より複雑な情報処理を行うために強化されたニュートラルネットワークの派生系とも言えるシステムのことです。
下記のURLにおいて、詳しい内容を掲載しております。併せて参考にご覧ください。
このシステムを活用し、概要に上げた「Alpha Go(アルファ碁)」と「AlphaGoZero(アルファ碁ゼロ)」が一躍有名となったわけですが、今回ご紹介する教師なしAi「MuZero(ミューゼロ)」とは一体何が違うのか次項から解説して参ります。
教師なしAi「MuZero」の戦略
DeepMind社は、これまでにも2016年にあらかじめプロ騎士のうち筋をAiに学習させそこからAi同士の対戦で強くなっていく「AlphaGo(アルファ碁)」、そして2017年には囲碁のルールを覚えた自己学習(強化学習)のみで棋力を高めていく「AlphaGoZero(アルファ碁ゼロ)」を開発しています。この2つと教師なしAi「MuZero(アルファ碁ゼロ)」はどのように異なるのか、早速みていきましょう。
引用元:DeepMindの最新AI「MuZero」はルールを教わらなくても独学でゲームをマスター | TechCrunch Japan
教師なしAi「MuZero」とは
教師なしAi「MuZero(ミューゼロ)」とは、DeepMind社が開発したAiにルールを教え込まずゲームを習得する全く新しい技法を利用したものです。見た目はシンプルながら戦略が複雑な囲碁・チェス・将棋といったゲームでだけではなく、見た目に複雑な57種のAtari(アタリ)のゲームでもそれを実証しました。
これまでとの大きな違いは、先述したように「AlphaGo(アルファ碁)」「AlphaGoZero(アルファ碁ゼロ)」どちらも教師なしAiで取り組んできました。しかし、事前にAiのメモリーにしっかりインプットさせ対局の望むというもので、今回の「MuZero(ミューゼロ)」はAi自身が自らそれらを発見し対戦するという全く違ったものになり、つまり、人のデータを全く使用しないというわけです。
Aiが人のデータを使用しないアプローチ法
なぜそのようなことが実現できるかいうと、教師なしAi「MuZero(ミューゼロ)」は、ルールからの最良のシナリオを描き出すことは不可能とし、代わりにゲーム環境のあらゆる側面を取り上げ観察、それが重要か否かを判別します。そして何百ものゲームを通し、ルールの他にも「ポジションの総合的な価値」「先へ進む際の基本方針」「自身の行動の評価方法」などを自身の失敗から学ぶようになるというものです。
具体的に少し掘り下げてみていきます。
Aiの最大の利点を受け継いだ「MuZero」
「MuZero(ミューゼロ)」は、「Alpha Go(アルファ碁)」と「AlphaGoZero(アルファ碁ゼロ)」の最も優れた部分を引き継いでいます。「Alpha Go(アルファ碁)」の純粋に自身の施行と現場で得た知識だけに依存したルールのモデル化に立脚している点と、「AlphaGoZero(アルファ碁ゼロ)」のゲーム環境全体をモデル化せず、意思決定に影響を及ぼす部分にだけ集中するという2つの点です。
つまり、この2つの利点を活かすことで、ルールを知らされることなく囲碁・チェス・将棋・Atari(アタリ)をマスターすることが可能になり、未知の環境で勝利戦略を計画する能力が備わったというわけです。
ですが、なぜこのようなシステムを開発する必要があったのでしょう。ここに至った背景を最後に解説していきます。
最新のAiエージェント「MuZero」導入の背景
これまでのAiは、事前にルールを教え人間のデータを基に学習していくものでした。しかしながら、教えていくことで何か問題が発生した場合、単純な法則に落とし込むことが困難になり対応ができなくなるといった課題があったからです。
例えば、人間は空に雨雲が出ていた場合雨が降ることを予測し事前に傘を持って出かけます。これは、一度同じ状況を経験し雨に濡れ失敗することから次は濡れないようにどうしたらよいかをすぐに習得します。
それと同様に、この能力をAiのアルゴリズムにも一般化することで、Ai自身の体験からプレイ方法を学んでいき、複雑な課題であっても効率的に行動計画が立てられるようになりました。結果、問題が発生した場合でも後に戻りアプローチ法を変えることが可能になり、対戦回数を繰り返すことでより強くなれるというものです。
まとめ
本記事では、これまでにない全く新しい技法を用いた教師なしAi「MuZero(ミューゼロ)」をご紹介致しました。
近年では人間により近いAiが多く存在しています。今回の「MuZero(ミューゼロ)」もまた、独学で学び改善方法を見つけ出すといった点では、人間に近い存在であると言えます。
ただ、教師なしといえども、「人を傷つけてはいけない」といったルールは厳格に教えていく必要はあると言います。
今後この課題をクリアした後、「MuZero(ミューゼロ)」を用いてゲームの世界ばかりではなく、様々な場面でも見られるようになるかもしれません。
Aiチョイスでは、さまざまなジャンルにおいてAiのトレンド情報や疑問等も掲載しております。気になる情報がございましたらぜひ参考にご覧ください。