世界初!教師データなしのAi技術『DeepTwin』とは

近年ではあらゆるビジネス業界において、AI解析の需要が高まっています。通常のAI解析では、大量の教師データが必要とされています。しかし教師データの作成には多大なコストが発生するので、最近では教師データAIの需要が高まっているのをご存じでしょうか。
富士通研究所では、2020年7月に教師データなしでも高次元データの特徴を獲得できるAI「DeepTwin(ディープツイン)」を開発しました。このAI技術は、世界初の技術として注目されています。そこで今回の記事では、「DeepTwin」についてご紹介していきたいと思います。
目次
AIの種類
AIの「教師データ」とは、いわゆる学習データのことを指します。まずは教師データありのAIと、教師データなしのAIの違いについて簡単に確認してみましょう。
教師ありAI
事前に与えられたデータからパターンなどを認識し、予測や分析を行う機械学習が「教師ありAI」と呼ばれます。教師ありAIには原則として、正解となる「教師データ(学習データ)」が欠かせません。複数の異なる方法で教師データを使用し、何度も繰り返すことで予測を微調整して正解率を高めていきます。
教師データにはインプット情報および、ターゲットと呼ばれるラベルつきの正解が含まれています。これによりAIは、正確な予測が行うことが可能となるのです。教師ありAIで高い精度の予測を行う場合には、相当量の教師データがないと上手くいきません。データが多くなればなるほど、予測や分析の信頼性が高まるでしょう。
教師データを作成するには、必要なデータを収集してタグ付けする流れとなります。一見単純作業のようにも思われますが、この作業こそがAI開発における最大の難関と言われているのをご存じでしょうか。
AI開発期間の大部分は、教師データの作成に費やされています。膨大な情報量が必要なので、一から教師データを作成するとなると、かなりのリソースを割かなければなりません。
こうした事情から、人件費や資金の問題が発生し、AI開発自体が中止になってしまうケースも見受けられます。大企業など自社リソースが十分な場合を除き、教師データの作成には、外部リソースを上手く取り入れることが重要だと言えるでしょう。
教師なしAI
教師ありAIは人間が「正解」となる情報を用意して、AIが学習する仕組みになっています。しかし教師なしAIの場合は、人間が「正解」を用意する必要がありません。AIの機械学習は、何度も繰り返し処理を行うことで、目標となるモデルに近づけます。教師なしAIは、このモデル自体をコンピューターが作成してくれます。
教師なしAIは、データの特徴を捉えるための用途に使われるのが主流です。たとえばECサイトなどのレコメンデーションなどに利用されています。さまざまなアルゴリズムが存在しますが、主に以下のような活用方法が挙げられています。
クラスタリング
データ間の類似度に基づいて、データをグループ分けする手法です。活用例には顧客情報のクラスタリングによるグループ分けなどが挙げられます。同じグループ内で同一商品が複数回購入された場合、同じグループに属する人々にレコメンドするといった形で活用できるでしょう。
アソシエーション分析
データセット内で頻繁に同時発生するアイテムセットを識別する手法です。たとえば商品Aを購入した人は商品Bも購入するというような、データ間の関連を発見してくれます。アソシエーション分析を活用することで、より効果的なマーケティング戦略を開発することが可能となります。売上向上の為に複数の施策を行った時にも、どの施策がもっとも貢献したかといった分析に用いることもできるでしょう。
自己組織化マップ(SOM)
自己組織化マップとは、ニューラルネットワークの一種で与えられた入力情報の類似度を、マップ上での距離で表現するモデルのことを指します。高次元データの中に存在する傾向や、相関関係の発見などに応用することが可能です。あらゆる高次元データを教師なしでクラスタリングできるので、人間が高次元データを視覚的に理解する上で、大いにサポートしてくれるでしょう。
主成分分析
主成分分析はさまざまデータから、一定の法則を見つけ出す手法です。あらゆる要素の中から、目的の指標に寄与する率が高いものをいくつか抽出して使用する方法です。たとえば複数のパラメーター(甘味、苦味、酸味、コクなど)から目的の情報に切り出していくことなどが例に挙げられます。元の情報をできる限り損なうことなく、集約データでの表現が可能となるでしょう。
教師データなしAI「DeepTwin」
2020年7月に富士通研究所が開発した「DeepTwin」は、AIの検知・判断の精度を高めるための技術です。高次元データにある削除すべき次元数と、削減後のデータ分布をディープラーニングで最適化してくれます。長年の研究で培った映像圧縮技術とディープラーニングを融合することで、教師データなしでもデータを正確に捉えられるようになりました。
一般的にデータの次元数が増えると、データを正確に捉えるための計算が複雑になってしまいます。近年ではこれを回避する為に、ディープラーニングを活用して、入力データの次元を削減する試みが取られていました。
従来の手法では、削減後のデータ分布や発生確率があまり考慮されておらず、AIの認識精度の問題や、誤判定の発生リスクがありました。「DeepTwin」はそれらの問題や課題を踏まえた上で、データの特徴量を正確に抽出できる技術として、開発されています。教師データなしAIにおける重要課題の一つである、データの正確な分布や発生確率の獲得が可能となるでしょう。さまざまなAI技術の判断精度向上に貢献できると期待されています。
教師データなしのAIが実現すること
教師データなしAI「DeepTwin」の特長は以下の通りです。
データの特徴を正確に獲得する
数千~数百万次元の画像や音声データが、一般的に「高次元データ」と呼ばれます。長年の研究において、データ分布や発生確率が解明されています。この分布や確率に対して最適化された手法で、次元数を削減する方法がすでに確立されています。最適化する手法としては、画像・音声信号を周波数成分の強度に変換するフーリエ変換の一種「離散コサイン変換」などが挙げられます。
次元削減後のデータ分布と発生確率を用いて復元すると、どうなるのでしょうか。元の画像や音声と、復元後の画像・音声との間の劣化を一定に抑えると、圧縮データの情報量がもっとも小さくできることが理論的に証明されています。「DeepTwin」はこの理論を踏まえています。通信データや医療データなど分布・確率が未知の高次元データに対し、ニュートラルネットワークである「オートエンコーダ」で削減します。その後また復元した時に、元の高次元データと復元後のデータとの間の劣化を一定値に抑えます。次元削減後の最小化されたデータは、元の高次元データの特徴を正確に捉えつつ、次元を最小限に削減できることを世界で初めて証明しました。
ディープラーニングを活用した次元削減
ディープラーニングは最小化したい評価項目を定めると、複雑な問題でも評価項目が最小となるパラメーターの組合せを求めることが可能です。「DeepTwin」ではこの特徴が利用されています。
高次元データで削除すべき次元数と、削除後のデータ分布を制御するパラメーターを導入。圧縮後の情報量を評価項目に定め、ディープラーニングで最適化される仕組みになっています。これにより最適化された次元を削減したデータの分布・確率を、性格に捉えることが可能となりました。「DeepTwin」の技術は、データの特徴を正確に捉えるというAIの根本的な課題を解く技術であるため、幅広い分野でのAI適用が期待されています。
教師データなしのAI普及への課題
これまで教師データなしAIは、二つの大きな問題を抱えていました。
・特徴量を獲得してクラスタリングを行う際にクラスタが一つにまとまってしまう。あるいは本来のクラスタが消えてしまうという問題。
・学習データにノイズを含んだデータがあった場合、良い特徴量を得ることができないという問題。
・データの次元数が増えると、特徴量を正確に捉えるための計算の複雑さが指数関数的に増大してしまう問題。
これらを回避する手段として、ディープラーニングを用いた入力データの次元削減が有望とされています。一方で削減後のデータ分布や発生確率を考慮できていなかったので、特徴量が忠実に獲得できず、認識精度の限界や誤判定リスクといった課題がありました。こうした問題を解決し、高次元データの分布・確率を正確に獲得することが、AI分野における重要課題と言えるでしょう。
今回開発された「DeepTwin」は、まさに上記の問題を踏まえた上で、課題解決する為の技術として設計されています。富士通研究所は「DeepTwin」の実用化を進め、2021年度中の実用化を目指すと発表しました。多くのAI技術に適用し、その成果を富士通のAI技術「FUJITSU Human Centric AI ZinrAI(ジンライ)」に活用していくとも発表しています。教師なしAIの研究が進み、課題が解決されていくごとに、今後の普及に向けて進んでいくでしょう。
まとめ
本記事では、教師データなしで高次元データの特徴を正確に獲得できるAI「DeepTwin」を紹介しました。
「DeepTwin」はAIの検知・判断における精度向上に向けて開発されました。高次元データの分布・確率など、本質的な特徴量を正確に獲得できる世界初のAI技術です。AIの重要課題であるデータの正確な分布、発生確率の獲得が可能となるので、あらゆるAI技術の判断精度向上への貢献が期待されています。さまざまなビジネス領域において適用・普及が進められていくでしょう。
今後も「DeepTwin」を始めとする教師データなしAIの研究動向から目が離せません。