[AI Story] AlexNet (AlexNet) opened the era of human vs. artificial intelligence (3) deep learning

2024-07-04

시리즈의 세 번째로 딥러닝을 통해 사람처럼 보는 시각지능에 도전하여 인공지능 연구의 전성기를 불러온 알렉스넷(AlexNet)에 대해 알아봅니다. 혹시 아직 시리즈의 지난 컨텐츠를 보지 않으셨다면 먼저 확인해 보실 것을 권합니다.

‍[AI 이야기] 인간에게 도전한 인공지능 (1)딥 블루(Deep Blue)

[AI 이야기] 인간 VS 인공지능 (2)왓슨(Watson)

‍

엄청나게 복잡한 계산도 컴퓨터는 순식간에 결과를 내놓을 수 있습니다. 반면 인간은 계산기 없이는 그저 머리를 쥐어뜯을 수 밖에 없죠. 천재도 연산 능력에서는 휴대용 계산기만도 못한 겁니다.

하지만 컴퓨터에게 고양이 얼굴을 구분해보라고 한다면? 사람은 직관적으로 알 수 있지만, 기계에게는 엄청나게 어려운 과제가 되어 버립니다. 계산처럼 명확한 정답이 없는 문제거든요. 같은 종도 개체마다 서로 다른 모습을 가지고 있고, 보는 각도에 따라서도 달라 보이기 때문입니다.

그런데 2012년 이런 한계를 깨고 본격적인 인공지능의 시대를 연 결정적 사건이 일어납니다. 지금의 딥러닝이 있게 한 제프리 힌턴*이 이끈 토론토대의 슈퍼비전(SuperVision)팀이 이미지넷** 이미지 인식 대회***(ImageNet Large Scale Visual Recognition Challenge, 이하 ILSVRC)에서 압도적 성적으로 우승을 한 것이죠. 이전까지 0.1% 개선을 위해 경쟁해 왔던 대회에서 첫 출전한 팀이 10% 이상 차이를 벌리며 화려하게 등장했습니다.

‍

ImageNet, 출처

‍

시각인지 능력에 대한 도전

기계가 인간의 시각적 인지능력을 따라잡기 위한 연구 분야를 컴퓨터 비전****이라 합니다. 지금까지 발전을 거듭해오며 어느새 인간을 뛰어넘는 수준에 이르렀습니다.

‍

이 분야는 1999년 데이비드 로위가 SIFT(Scale Invariant FeatureTransform)라고 이름 지은 시각적 특징 표현 방법이 제안되면서 급격하게 발전하기 시작합니다. 이 방법을 이용하면 영상 안의 물체의 크기에 상관없이 일관된 특징을 표현할 수 있어 비교적 쉽게 물체의 종류를 인식할 수 있었기 때문이죠. 2010년대까지 SIFT는 컴퓨터 비전 분야에서 가장 보편적인 특징 표현 방법으로 인기를 끌었습니다.******

‍

SIFT를 이용한 물체 인식, 출처

‍

그런 이유로 ILSVRC에서도 알렉스넷이 등장하기 전까지는 SIFT에 기반한 방법들이 주류를 이루었습니다.

딥러닝을 통한 혁신의 시작

사실 당시 인공지능 기술은 사람들의 기대와 달리 연구가 정체되며 암흑기에 빠져있었습니다.

그런 시기에 슈퍼비전팀이 2012년 ILSVRC에서 기존의 방식에서 벗어나 딥러닝 기술을 이용해 놀라운 결과를 만들어냅니다. 전년도 우승 기록을 10% 이상 뛰어넘는 정확도를 달성해 낸 엄청난 혁신이었죠.

‍

ILSVRC 역대 우승팀의 정확도, 출처

‍

딥러닝이 돌파구가 된 것은 기계가 스스로 학습할 수 있게 만들어주었기 때문입니다. 사람이 미리 이미지의 특징을 규정하고, 기계가 어떤 것을 학습할 지 정해주는 것에는 한계가 있을 수 밖에 없으니까요. 이전까지 인공지능 연구가 정체되었던 것도 인간이 기계가 무엇을 할지 일일이 정해주는 방식에서 벗어나지 못했기 때문입니다.

딥러닝은 인간의 뇌가 학습하는 원리를 따릅니다. 힌튼은 인간의 뇌가 작동하는 방식처럼 AI도 지식을 프로그래밍화하는 것이 아니라 스스로 배우게 해야 한다고 믿었죠. ******* 물론 컴퓨터 성능의 비약적 향상과 빅데이터의 발전이 그의 신념을 뒷받침한 덕분이기도 합니다.

알렉스넷은 딥러닝의 전성기를 연 변화의 시작이었습니다. 아주 복잡한 이미지나 영상일지라도 적절한 알고리즘 구조, 충분한 데이터에 기반한 학습, 컴퓨터의 성능만 뒷받침되면 탁월한 시각 인지 능력을 보여줄 수 있다는 것을 증명했으니까요. 아래 실험 결과를 보면 일부 오류가 있는 결과물도 어느 정도는 정답에 근접하게 인식해 낸 것을 알 수 있습니다.

‍

AlexNet의 실험 결과, 출처

‍

구체적으로 알렉스넷은 뇌 구조를 본 딴 인공신경망 모델인 합성곱 신경망(CNN,Convolutional Neural Networks)을 사용해 심층 신경망(Deep NeuralNetwork)을 구현했습니다. 또한 기존 머신러닝에서 CPU를 활용했던 것에 비해 알렉스는 병렬 연산을 고속으로 처리해 동시다발적인 연산에 유리한 GPU를 딥 러닝 연구에 활용하였죠. 알렉스넷 이후 GPU 기반 딥 러닝 기술이 꾸준히 개발되면서 현재 ILSVRC에 참여하는 팀들은 인간의 이미지 인식률을 뛰어넘는 결과를 보여주고 있습니다.********

‍

2010 ~ 2015년 ILSVRC 우승 알고리즘, 출처

‍

대회 우승 이후 슈퍼비전팀은 딥러닝 기술로 현실의 문제를 해결하기 위해 DNN 리서치라는 스타트업을 창업합니다. 그리고 이듬해 구글이 이 회사를 인수하였죠. 이후 힌튼은 토론토대 교수를 겸하며 구글 석학연구원(DistinguishedResearcher)으로도 일하면서 꾸준히 AI 기술 연구를 리드해왔습니다.

‍

마무리하며

컴퓨터 비전은 이미 다방면에서 우리가 사는 이 세상을 더 나은 곳으로 만들고 있습니다. 영상의학, 자율주행 등과 같은 첨단 분야에 적용되는 필수적인 기술이죠. 단순히 인간의 작업을 보조하는 편리한 도구의 수준을 넘어선 역할을 담당하고 있습니다.

이제는 기계가 인간보다 훨씬 정확하게 사물을 구분할 수 있습니다. 하지만 사람은 시각으로 훨씬 더 많은 일을 할 수 있죠. 즉 앞으로도 AI 기술이 해결해야 할 수 많은 문제와 도전들이 기다리고 있다는 의미입니다.

딥러닝은 AI에 의해 인간의 직관이 구현될 수 있는 가능성을 보여줬습니다. 물론 급속도로 변화하는 AI 기술의 미래를 예측하는 것은 어렵지만, AI가 유사이래 인류가 가진 가장 강력한 도구라는 것은 분명한 사실이죠. 앞으로 AI가 인간의 가능성을 어디까지 확장시켜 줄 수 있을지 궁금합니다.

‍