連載第3部では、ディープラーニングを通して視覚知能に人間に似せることに挑戦し、人工知能研究の全盛期をもたらしたAlexNet (AlexNet) について学びます。シリーズの過去のコンテンツをまだ見ていない場合は、まずチェックすることをおすすめします。
[AIストーリー] 人間に挑戦する人工知能 (1) ディープブルー (ディープブルー)
[AI ストーリー] 人間対人工知能 (2) ワトソン (ワトソン)
非常に複雑な計算でも、コンピューターは瞬時に結果を出すことができます。一方、人間は電卓がないと頭をはぎ取るしかありません。天才でさえ、計算能力の面ではポータブル電卓では何もできません。
しかし、猫の顔を認識するようにコンピューターに依頼したらどうなるでしょうか。人間は直感的に理解できますが、機械にとってはとてつもなく難しい課題です。計算のように明確な答えがない質問です。なぜなら、同じ種の個体でも、見る角度によって見た目や見た目も違うからです。
しかし、2012年に、これらの限界を打ち破り、本格的な人工知能の時代を切り開く決定的な出来事が起こりました。今日ディープラーニングに取り組んだジェフリー・ヒントン*が率いるトロント大学のスーパービジョン () チームは、ImageNet**大規模視覚認識チャレンジ (ILSVRC) (ImageNet大規模視覚認識チャレンジ、以下、ILSVRC) で圧倒的に優勝しました。これまで 0.1% の改善を目指して競い合ってきた大会では、最初に出場したチームが 10% 以上の差をつけて見事に登場しました。
視覚への挑戦
人間の視覚に追いつくための機械の研究分野は、コンピュータビジョン****と呼ばれています。これまで何度も進化を重ね、人間を超えるレベルに達しています。
この分野は、1999年にデビッド・ローウィがSIFT(スケール不変特徴変換)という視覚的特徴表現方法を提案したときに急速に発展し始めました。これは、この方法を使用することにより、画像内のオブジェクトのサイズに関係なく一貫した特徴を表現でき、オブジェクトのタイプを比較的簡単に認識できるようになるためです。2010年代まで、SIFTはコンピュータービジョンの分野で最も一般的な特徴表現方法として人気がありました。******
そのため、AlexNetが登場するまで、ILSVRCではSIFTベースの方法が主流でした。
ディープラーニングによるイノベーションの始まり
実際、当時の人工知能技術は人々の予想に反して、研究が停滞していたために暗黒期を迎えていました。
当時、スーパービジョンチームは2012年にILSVRCの従来の方法から離れ、ディープラーニング技術を使用して驚くべき結果を生み出しました。これは大きな革新であり、前年の優勝記録を 10% 以上上回る精度を達成しました。
ディープラーニングは、機械が自分で学習できるようになったため、画期的なものでした。人間が画像の特性を事前に定義し、機械が何を学習するかを決めることには限界があるはずです。これまで、人工知能の研究は停滞していました。というのも、人間が何をすべきかを機械が決める方法から離れることができなかったからです。
ディープラーニングは、人間の脳が学習する原則に従います。ヒントンは、人間の脳の仕組みと同様に、AIはプログラミングではなく自分で知識を学ぶべきだと考えていました。******* もちろん、彼の信念を支えたのは、コンピューター性能の劇的な向上とビッグデータの開発のおかげでもあります。
Alexnetは、ディープラーニングの全盛期を切り開いた変化の始まりでした。非常に複雑な画像や動画であっても、適切なアルゴリズム構造、十分なデータに基づく学習、およびコンピューターのパフォーマンスによってサポートされていれば、優れた視覚的認識が可能であることが証明されました。以下のテスト結果を見てみると、多少の誤差がある結果でも、ある程度正解に近い認識ができていることがわかります。
具体的には、Alexnetは脳の構造に基づく人工ニューラルネットワークモデルである畳み込みニューラルネットワーク(CNN、畳み込みニューラルネットワーク)を使用してディープニューラルネットワーク(ディープニューラルネットワーク)を実装しました。また、アレックスは、ディープラーニングの研究では従来の機械学習でCPUを使用する場合と比較して、並列計算を高速に処理することで同時計算に有利なGPUを使用していました。Alexnet以降、GPUベースのディープラーニング技術が着実に開発され、現在ILSVRCに参加しているチームは、人間の画像認識率を上回る結果を示しています。********
コンテストで優勝したSuper Visionチームは、ディープラーニング技術で現実世界の問題を解決するために、DNN Researchというスタートアップを設立しました。翌年、Googleが同社を引き継ぎました。それ以来、ヒントンはトロント大学の教授として、またGoogle Scholar(Google Scholar)として働き、AI テクノロジー研究をリードし続けてきました。
仕上げ中
コンピュータビジョンは、すでにさまざまな方法で私たちが住む世界をより良い場所にしています。放射線医学や自動運転などの先端分野に応用される必要不可欠な技術です。単に人間の仕事を補助する便利なツールという枠を超えた役割を果たしています。
現在、機械は人間よりもはるかに正確に物体を区別できます。しかし、人間は目でできることの方がはるかに多いです。つまり、今後、AI テクノロジーが解決しなければならない問題や課題はたくさんあるということです。
ディープラーニングは、人間の直感をAIで実装できる可能性を示しています。もちろん、急速に変化する AI テクノロジーの将来を予測することは困難ですが、AI は似ているため、人類が持つ最も強力なツールであることは明らかです。AIは将来、人間の可能性をどこまで広げることができるのだろう。
参考文献
[1] https://en.wikipedia.org/wiki/AlexNet
[2] https://en.wikipedia.org/wiki/Computer_vision
[3] https://en.wikipedia.org/wiki/ImageNet#History_of_the_ImageNet_challenge
[4] イメージネットチャレンジ (ILSVRC) の簡単な紹介 https://machinelearningmastery.com/introduction-to-the-imagenet-large-scale-visual-recognition-challenge-ilsvrc/
[5] ペイペイ・リー (TED 2015) コンピューターが写真をどう理解したか https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures/transcript?language=ko
[6] [韓国初の独占インタビュー] 21世紀の人工知能のゴッドファーザー、カナダのトロント大学教授、ジェフリー・ヒントン https://www.joongang.co.kr/article/20382230#home
[7] 【イ・ソクジュンのわかりやすい人工知能】CNNの構造 (2) — AlexNet http://www.ytimes.co.kr/news/articleView.html?idxno=6827
一緒に見るのに良いコンテンツ
[AIストーリー] 人間に挑戦する人工知能 (1) ディープブルー (ディープブルー)[AI ストーリー] 人間対人工知能 (2) ワトソン (ワトソン)