시리즈의 다섯 번째로 인간의 직관과 추론을 모방해 인간을 넘어선 알파고(AlphaGo)에 관해 알아봅니다. 혹시 아직 시리즈의 지난 컨텐츠를 보지 않으셨다면 먼저 확인해 보실 것을 권합니다.
[AI 이야기] 인간에게 도전한 인공지능 (1)딥 블루(Deep Blue)
[AI 이야기] 인간 VS 인공지능 (2)왓슨(Watson)
[AI 이야기] 인간 VS 인공지능 (3)딥러닝의 시대를 연 알렉스넷(AlexNet)
[AI 이야기] 인간 VS 인공지능 (4)감정을 읽는 로봇 페퍼(pepper)
“이겼다. 우리는 달에 착륙했다.”
알파고(AlphaGo)가 이세돌 9단과의 대결에서 승리하자 구글 딥마인드 데미스 하사비스 최고경영자(CEO)가 밝힌 소감*입니다. 우리는 지난 2016년 벌어진 세기의 대결을 통해 1969년 인류의 달 착륙에 버금가는 결정적 순간을 목격했던 것이죠. 이를 계기로 우리 모두는 이미 엄청난 기술 혁신 속에서 살아가고 있고, 그 영향이 얼마나 클 것인지도 실감할 수 있었습니다.
그런데 이전까지 바둑은 체스보다 훨씬 더 기계가 인간을 이기기 어려울 것이라 여겨졌습니다. 체스보다도 가능한 경우의 수가 훨씬 더 많은 복잡한 게임이거든요. 즉 이전처럼 컴퓨터가 가능한 모든 경우의 수를 계산해 결과를 내놓는 전통적인 방법에 기대기는 힘들기 때문입니다.
그렇다면 알파고는 어떻게 이런 불가능할 것만 같던 힘든 도전에 성공할 수 있었을까요? 이번 컨텐츠를 통해 알파고의 탄생 과정과 성공 비결에 관해 알아보고, 당시 충격적인 등장이 이후 사회와 기술 발전의 방향성에 어떤 영향을 주었는지 생각해봅니다.
알파고가 나오기 전까지
21세기에 접어들고도 한동안 AI 기술은 정체기에 빠진 것 같았습니다. 다만 아직 대중들에게 알려지지 않았을 뿐, 사실 AI 기술은 새로운 전성기를 향해 착실히 전진하고 있었죠. 연구자들은 시행착오를 거치며 머신 러닝, 딥 러닝 같은 돌파구를 찾아냈고 좀 더 인간의 사고에 가까운 AI에 다가서고 있었습니다.
그리고 알파고의 등장은 새로운 시대가 왔음을 공식화한 결정적인 모멘텀이 됩니다.
알파고는 어떻게 이겼나
구글이 <네이처>에 발표한 논문 ‘심층 신경망과 트리 검색으로 바둑 게임 정복하기(Mastering thegame of Go with deep neural networks and tree search)’**는 “완벽한 정보를 가진 모든 게임은 최적의 가치 기능을 갖고, …(All games ofperfect information have an optimal value function, …)"**라는 말로 시작합니다.
이를 보면 알파고를 개발한 접근 방향성을 유추할 수 있습니다. 바둑도 결국은 바둑판이란 한정된 공간 위에서 최적의 지점을 찾아내면 되는 게임이란 것이죠. 다만 가로세로 19줄로 된 세계에 펼쳐질 수 있는 ‘바둑의 경우의 수는 우주의 원자 수 보다 많다.’고 할 정도로 엄청나다는 것이 문제였지만요.***
핵심은 거의 무한대에 가까운 바둑의 경우의 수를 어떻게 줄이는가에 맞춰지게 됩니다.
이를 위해 알파고는 정책망(policy network)과 가치망(value network)을 결합한 심층신경망을 (DNN, Deep Neural Network)을 구성하고, 여기에 몬테카를로 트리 탐색(Monte Carlo Tree Search, 이하 MCTS)을 결합했습니다. 승리 가능성이 높은 다음 수를 예측해 검색 범위를 좁히는 정책망과 승률을 계산하여 승자를 추정하는 가치망을 결합하고, MCTS를 통해 가장 유리한 선택을 할 수 있도록 설계되었죠. 또한 이를 위해 정책망 지도학습, 정책망 강화학습, 가치망 강화학습의 단계를 거치게 됩니다.****
정책망 지도학습 (Supervised learning of policy networks)
최적의 수를 찾을 수 있도록 엄청난 양의 바둑 빅데이터를 활용한 지도학습 방법이 사용됐습니다. 그동안 축적된 방대한 양의 기보를 회선신경망(CNN, Convolutional NeuralNetworks)으로 학습해 인간 프로 기사를 흉내 내도록 훈련했죠. 덕분에 이전까지 44% 수준이었던 예측 확률이 57%까지 높아지게 됩니다.
정책망 강화학습(Reinforcement learning of policy networks)
반복적인 자가 대국, 즉 실전을 통한 지도학습으로 정책망의 성능을 더 강화시킵니다. 이는 기보에만 최적화되는 한계를 극복할 수 있게 만들었죠. 기계가 스스로 가장 많은 보상을 받는 선택을 탐구하게 하는 강화학습을 통해 이전보다 80% 이상 더 승리할 수 있게 됩니다.
가치망 강화학습(Reinforcement learning of value networks)
자가 대국을 통해 축적한 기보를 바탕으로 가중치를 부여해 다음 대국을 진행하는 방식으로 분석 능력을 더욱 향상시킵니다. 결국은 가장 승률이 높아질 수 있는 최적의 수를 찾아낼 수 있게 됩니다.
최적의 수 찾기
요약하자면 알파고는 정책망과 가치망을 MCTS 알고리즘에 결합하여 빠른 시간에 최적의 다음 수를 선택할 수 있었습니다.
아래 그림과 같이 ‘a. Selection 이게 괜찮은 수인지, 되도 않는 수인지를 판단하여 경우의 수를 줄인다(Policy Network) b. Expansion, c. Evaluation 보다 빠른 예측을 거쳐 판세를 판단하고 수의 가치를 평가한다(Rollout, Value Network) 네이처 논문에서는 이 과정을 거쳐 다음 수를 결정할 수 있다고 설명하고 있다. d. Backup b와 c과정의 결과값을 합쳐 최종적으로 수를 예측하고 결정한다.’*****고 합니다.
마무리하며
이후 알파고는 13전 12승 1패라는 화려한 공식 전적을 남기고 바둑계를 은퇴합니다. 결국 이세돌 9단이 거둔 1승이 인간이 AI와 바둑 대결에서 거둔 마지막 승리가 되어버렸죠. 더구나 알파고가 준 충격은 이후 바둑계 뿐만 아니라 사회 전반에 걸쳐 엄청난 영향을 미쳤습니다.
이후 알파고 자체가 바둑에 국한되지 않은 잠재성으로 의료, 물리학, 생물학, 기후변화 등 다방면에 활용을 시도했습니다. 이전의 딥 블루 같이 특정 목적만을 위한 AI라는 한계를 뛰어넘은 것이죠. 어느새 AI 기술이 인간의 지적 능력에 버금가는 인공 일반 지능(Artificial general intelligence, AGI)을 향한 진화의 과정에 접어들게 된 것입니다.
또한 이를 계기로 우리는 AI와 공존하는 미래에 대비한 논의를 본격화할 수 있게 되었습니다. 예상보다 빠른 기술의 발전으로 인한 미래의 충격에 대비할 좋은 기회가 된 것이죠. 덕분에 막연한 기대나 공포를 넘어 인간과 AI가 공존하는 미래에 관한 논의가 본격화될 수 있었습니다.
다만 지금의 이런 논의가 우리를 어떤 미래로 향하게 할지 아직은 알 수 없습니다. 하지만 한 가지 확실한 것은 알파고 이후 우리는 그 어느 때보다 중요한 전환점에 서 있다는 것입니다.
References
[1] https://deepmind.com/research/case-studies/alphago-the-story-so-far
[2] Mastering the game of Go with deep neural networks and tree search https://www.nature.com/articles/nature16961
[3] [알파고 논문 Review]Mastering the game of Go with deep neural networks and tree search https://kim95175.tistory.com/11
[4] https://ko.wikipedia.org/wiki/알파고
[5] [알파고 작동원리 분석]① 경우의 수 줄이기 (SearchSpace) https://www.getnews.co.kr/news/articleView.html?idxno=4256
[6] [알파고 작동원리 분석]② 판세 평가하기 (DepthReduction) https://www.getnews.co.kr/news/articleView.html?idxno=4255
[7] AlphaGo - The Movie https://www.alphagomovie.com/screenings
함께보면 좋은 콘텐츠
[AI 이야기] 인간에게 도전한 인공지능 (1)딥 블루(Deep Blue)[AI 이야기] 인간 VS 인공지능 (2)왓슨(Watson)[AI 이야기] 인간 VS 인공지능 (3)딥러닝의 시대를 연 알렉스넷(AlexNet)[AI 이야기] 인간 VS 인공지능 (4)감정을 읽는 로봇 페퍼(pepper)