시리즈의 세 번째로 딥러닝을 통해 사람처럼 보는 시각지능에 도전하여 인공지능 연구의 전성기를 불러온 알렉스넷(AlexNet)에 대해 알아봅니다. 혹시 아직 시리즈의 지난 컨텐츠를 보지 않으셨다면 먼저 확인해 보실 것을 권합니다.
[AI 이야기] 인간에게 도전한 인공지능 (1)딥 블루(Deep Blue)
[AI 이야기] 인간 VS 인공지능 (2)왓슨(Watson)
엄청나게 복잡한 계산도 컴퓨터는 순식간에 결과를 내놓을 수 있습니다. 반면 인간은 계산기 없이는 그저 머리를 쥐어뜯을 수 밖에 없죠. 천재도 연산 능력에서는 휴대용 계산기만도 못한 겁니다.
하지만 컴퓨터에게 고양이 얼굴을 구분해보라고 한다면? 사람은 직관적으로 알 수 있지만, 기계에게는 엄청나게 어려운 과제가 되어 버립니다. 계산처럼 명확한 정답이 없는 문제거든요. 같은 종도 개체마다 서로 다른 모습을 가지고 있고, 보는 각도에 따라서도 달라 보이기 때문입니다.
그런데 2012년 이런 한계를 깨고 본격적인 인공지능의 시대를 연 결정적 사건이 일어납니다. 지금의 딥러닝이 있게 한 제프리 힌턴*이 이끈 토론토대의 슈퍼비전(SuperVision)팀이 이미지넷** 이미지 인식 대회***(ImageNet Large Scale Visual Recognition Challenge, 이하 ILSVRC)에서 압도적 성적으로 우승을 한 것이죠. 이전까지 0.1% 개선을 위해 경쟁해 왔던 대회에서 첫 출전한 팀이 10% 이상 차이를 벌리며 화려하게 등장했습니다.
시각인지 능력에 대한 도전
기계가 인간의 시각적 인지능력을 따라잡기 위한 연구 분야를 컴퓨터 비전****이라 합니다. 지금까지 발전을 거듭해오며 어느새 인간을 뛰어넘는 수준에 이르렀습니다.
이 분야는 1999년 데이비드 로위가 SIFT(Scale Invariant FeatureTransform)라고 이름 지은 시각적 특징 표현 방법이 제안되면서 급격하게 발전하기 시작합니다. 이 방법을 이용하면 영상 안의 물체의 크기에 상관없이 일관된 특징을 표현할 수 있어 비교적 쉽게 물체의 종류를 인식할 수 있었기 때문이죠. 2010년대까지 SIFT는 컴퓨터 비전 분야에서 가장 보편적인 특징 표현 방법으로 인기를 끌었습니다.******
그런 이유로 ILSVRC에서도 알렉스넷이 등장하기 전까지는 SIFT에 기반한 방법들이 주류를 이루었습니다.
딥러닝을 통한 혁신의 시작
사실 당시 인공지능 기술은 사람들의 기대와 달리 연구가 정체되며 암흑기에 빠져있었습니다.
그런 시기에 슈퍼비전팀이 2012년 ILSVRC에서 기존의 방식에서 벗어나 딥러닝 기술을 이용해 놀라운 결과를 만들어냅니다. 전년도 우승 기록을 10% 이상 뛰어넘는 정확도를 달성해 낸 엄청난 혁신이었죠.
딥러닝이 돌파구가 된 것은 기계가 스스로 학습할 수 있게 만들어주었기 때문입니다. 사람이 미리 이미지의 특징을 규정하고, 기계가 어떤 것을 학습할 지 정해주는 것에는 한계가 있을 수 밖에 없으니까요. 이전까지 인공지능 연구가 정체되었던 것도 인간이 기계가 무엇을 할지 일일이 정해주는 방식에서 벗어나지 못했기 때문입니다.
딥러닝은 인간의 뇌가 학습하는 원리를 따릅니다. 힌튼은 인간의 뇌가 작동하는 방식처럼 AI도 지식을 프로그래밍화하는 것이 아니라 스스로 배우게 해야 한다고 믿었죠. ******* 물론 컴퓨터 성능의 비약적 향상과 빅데이터의 발전이 그의 신념을 뒷받침한 덕분이기도 합니다.
알렉스넷은 딥러닝의 전성기를 연 변화의 시작이었습니다. 아주 복잡한 이미지나 영상일지라도 적절한 알고리즘 구조, 충분한 데이터에 기반한 학습, 컴퓨터의 성능만 뒷받침되면 탁월한 시각 인지 능력을 보여줄 수 있다는 것을 증명했으니까요. 아래 실험 결과를 보면 일부 오류가 있는 결과물도 어느 정도는 정답에 근접하게 인식해 낸 것을 알 수 있습니다.
구체적으로 알렉스넷은 뇌 구조를 본 딴 인공신경망 모델인 합성곱 신경망(CNN,Convolutional Neural Networks)을 사용해 심층 신경망(Deep NeuralNetwork)을 구현했습니다. 또한 기존 머신러닝에서 CPU를 활용했던 것에 비해 알렉스는 병렬 연산을 고속으로 처리해 동시다발적인 연산에 유리한 GPU를 딥 러닝 연구에 활용하였죠. 알렉스넷 이후 GPU 기반 딥 러닝 기술이 꾸준히 개발되면서 현재 ILSVRC에 참여하는 팀들은 인간의 이미지 인식률을 뛰어넘는 결과를 보여주고 있습니다.********
대회 우승 이후 슈퍼비전팀은 딥러닝 기술로 현실의 문제를 해결하기 위해 DNN 리서치라는 스타트업을 창업합니다. 그리고 이듬해 구글이 이 회사를 인수하였죠. 이후 힌튼은 토론토대 교수를 겸하며 구글 석학연구원(DistinguishedResearcher)으로도 일하면서 꾸준히 AI 기술 연구를 리드해왔습니다.
마무리하며
컴퓨터 비전은 이미 다방면에서 우리가 사는 이 세상을 더 나은 곳으로 만들고 있습니다. 영상의학, 자율주행 등과 같은 첨단 분야에 적용되는 필수적인 기술이죠. 단순히 인간의 작업을 보조하는 편리한 도구의 수준을 넘어선 역할을 담당하고 있습니다.
이제는 기계가 인간보다 훨씬 정확하게 사물을 구분할 수 있습니다. 하지만 사람은 시각으로 훨씬 더 많은 일을 할 수 있죠. 즉 앞으로도 AI 기술이 해결해야 할 수 많은 문제와 도전들이 기다리고 있다는 의미입니다.
딥러닝은 AI에 의해 인간의 직관이 구현될 수 있는 가능성을 보여줬습니다. 물론 급속도로 변화하는 AI 기술의 미래를 예측하는 것은 어렵지만, AI가 유사이래 인류가 가진 가장 강력한 도구라는 것은 분명한 사실이죠. 앞으로 AI가 인간의 가능성을 어디까지 확장시켜 줄 수 있을지 궁금합니다.
알렉스넷(AlexNet)은 2012년, 딥러닝을 활용하여 컴퓨터가 인간처럼 시각적 인지를 할 수 있는 시대를 여는 계기가 되었습니다. 특히 합성곱 신경망(CNN)과 GPU 연산을 결합하여 이미지 인식에서 획기적인 성능을 입증하면서 AI 연구의 전성기를 이끌었죠. 이처럼 레터웍스(LETR WORKS)도 텍스트 인식과 언어 처리에서 고도화된 딥러닝 모델을 사용하여 복잡한 언어 정보를 빠르고 정확하게 이해하고 분류합니다. 인간처럼 깊이 있는 텍스트 분석을 제공하는 레터웍스는 마치 알렉스넷이 시각 정보의 한계를 넘은 것처럼, 인공지능의 한계를 넓히고 기업의 업무 효율성에 새로운 장을 열어줍니다.
References
[1] https://en.wikipedia.org/wiki/AlexNet
[2] https://en.wikipedia.org/wiki/Computer_vision
[3] https://en.wikipedia.org/wiki/ImageNet#History_of_the_ImageNet_challenge
[4] A Gentle Introduction to theImageNet Challenge(ILSVRC) https://machinelearningmastery.com/introduction-to-the-imagenet-large-scale-visual-recognition-challenge-ilsvrc/
[5] 페이페이 리, (TED 2015) 어떻게 컴퓨터가 사진을 이해하게 되었는가 https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures/transcript?language=ko
[6] [국내 최초 단독 인터뷰] 21세기 인공지능의 대부 제프리 힌튼 캐나다 토론토대 교수 https://www.joongang.co.kr/article/20382230#home
[7] [이석중의 알기 쉬운 인공지능] CNN 구조(2) – AlexNet http://www.ytimes.co.kr/news/articleView.html?idxno=6827
함께보면 좋은 콘텐츠
[AI 이야기] 인간에게 도전한 인공지능 (1)딥 블루(Deep Blue)[AI 이야기] 인간 VS 인공지능 (2)왓슨(Watson)