대부분의 인공지능은 한 가지 일만 잘 하게 훈련되어 있습니다. 물론 그 한 가지에 특화된 AI 모델 각각의 성능이 강력하기는 하지만요. 마치 체스 세계 챔피언을 꺾은 IBM의 슈퍼 컴퓨터 '딥 블루(Deep Blue)'처럼 말입니다.
당시 사람들은 인간의 패배를 지켜보며 이제 컴퓨터가 인간을 압도하지 않을까 걱정했습니다. 그런데 실제 세상은 체스판 위보다 훨씬 복잡하고, 알고 보면 딥 블루는 체스 외에는 아무것도 할 수 없었죠. 바로 이 지점에 기술의 한계가 있고, 아직까지는 AI가 인간을 넘어설 수 없는 이유이기도 합니다.
"사실 규칙과 논리가 지배하는 체스는 비교적 컴퓨터에게 유리한 게임입니다. 오히려 인간이라면 크게 의식하지 않고 자연스럽게 수행하는 활동을 더 어려워하죠. 예를 들어 복잡한 도로 위에서 운전하고, 대화를 나누며 친구의 감정을 읽는 것과 같은 일상적인 일들 말입니다."*
언어 모델의 한계
오픈AI의 GPT-3는 인류 역사상 가장 뛰어난 AI로 불렸습니다. 사람과 대화하듯 채팅을 할 수 있고, 심지어 장문의 글도 쓸 수 있으니까요. 그것도 어설픈 수준이 아니라 언론에 칼럼을 기고하고, 소설을 쓰기도 했습니다.
다만 이렇게 강력한 GPT-3도 기존의 AI와 같은 한계를 가지고 있습니다. (엄청난 대규모의 분량이지만) 텍스트 데이터만으로 학습을 했거든요. 언어 능력만 보면 인간에 근접한 것 같지만, (세상을 글로 배워서) 엉뚱하거나 기초적인 실수를 하는 경우도 꽤 있습니다.
아래는 해외의 AI 전문가가 찾아낸 GPT-3의 실수 사례입니다. 앞서 언급한 AI의 한계를 확인할 수 있죠. 우리가 흔히 말하는 '상식'이 없는 것만 같습니다.**
Q: How many eyes does a giraffe have?
A: A giraffe has two eyes.
Q: How many eyes does my foot have?
A: Your foot has two eyes.
Q: How many eyes does a spider have?
A: A spider has eight eyes.
Q: How many eyes does the sun have?
A: The sun has one eye.
Q: How many eyes does a blade of grass have?
A: A blade of grass has one eye.
멀티모달 AI의 등장
반면 인간은 텍스트만 갖고 세상을 이해하지 않습니다. 텍스트는 물론 이미지, 오디오, 비디오 등 다양한 포맷의 정보를 받아들여서 공유하고, 소통하죠. 덕분에 입체적이면서 직관적인 사고가 가능하고, 상대방과 공감하면서 대화를 나눌 수도 있습니다.
이것이 바로 최근 AI 업계의 주요 화두 중 하나이자, 이번 포스트의 주제인 멀티모달 AI가 등장한 이유입니다.
멀티모달 AI는 이미지, 텍스트, 음성, 비디오 등 다양한 모달리티***를 동시에 받아들여 사용합니다. 음성, 제스처, 시선, 표정, 생체신호 등 여러 데이터를 받아 인간을 흉내 낸 종합적인 사고를 할 수 있죠. 이렇게 우리가 세상을 받아들이는 방식에 다가선 AI는 인간과 좀 더 자연스럽게 소통할 수 있습니다.
또한 글 쓰기 이외에도 다양한 일을 할 수 있습니다. 다양한 데이터를 기반으로 새로운 일을 할 수 있게 진화하는 것이죠. 예를 들어 다양한 이미지를 학습해 창의적인 디자인을 하고, 간단한 텍스트를 영상으로 만들어 낼 수도 있습니다.
멀티모달 AI의 시대
우선은 GPT-3와 같은 언어 모델에 감각을 더하는 시도가 이루어졌습니다. 감각 인식 분야에서 역사와 전통이 있는 컴퓨터 비전이 먼저 적용되기 시작했죠. 만약 단어와 시각 정보를 연계할 수 있다면 모델의 독해력은 물론 이후 적용 분야도 확대될 것이라 기대했기 때문입니다.
그 결과 이러한 시도가 드디어 궤도에 올라섰음을 알린 것이 '달리(DALL-E)'입니다. 오픈AI가 GPT-3에 이어 다시 한번 놀라운 성과를 보여준 것이죠. 초거대 멀티모달 AI DALL-E는 NLP 기술에 이미지 인식을 더한 결과 새로운 이미지를 창조해낼 수 있게 되었습니다.
이어서 2022년 발표된 DALL-E 2는 여기서 한 발 더 나아간 성과를 보여줍니다. 기존의 사진을 편집하고, 수정하는 새로운 기능이 추가되는 등 업그레이드가 있었거든요. 덕분에 이전보다 훨씬 발전한 사실적이면서도 예술적인 고해상도의 이미지를 만들어 낼 수 있게 되었습니다.
또한 DALL-E 외에도 다양한 멀티모달 AI가 계속해서 공개되고 있습니다. 구글은 텍스트-이미지 확산 모델(Diffusion Model)인 이마겐(Imagen)을 공개했고, 국내 기업들도 속속 뛰어들고 있는 상황이죠. 카카오브레인의 민달리(minDALL-E)는 달리와 비슷한 결과물을 보여줬고, LG AI 연구원은 텍스트와 이미지 간 양방향 사고가 가능한 엑사원(EXAONE)을 발표했습니다.
멀티모달 AI의 부작용
멀티모달 AI도 언어 모델과 마찬가지로 윤리적 문제로부터 자유롭기 힘듭니다. 학습 데이터의 편향에 영향받을 수 밖에 없는 오늘날 AI의 공통적인 문제이죠. 이미 세상에 퍼져있는 인종이나 성별 등에 관한 잘못된 편견을 학습한 AI가 문제를 일으킬 수 있는 겁니다.
그래서 대부분의 멀티모달 AI는 공개나 사용에 제약을 두고 있습니다. 유해한 이미지를 필터링하고, 특히 실제 사람 이미지의 생성은 엄격하게 금지하고 있죠. 편향성에 대한 근본적인 해결책이 나오지 않는 한 일부 악의적인 사용자들이 공격적이거나, 선정적인 결과물을 만들어 낼 수 있으니까요.
다만 연구자들도 이런 문제를 지켜보고 있지는 않습니다. 멀티모달 AI의 등장 이후 나타난 다양한 사례와 데이터, 피드백을 수집하면서 계속해서 개선해가고 있죠. DALL-E의 경우 편향없는 이미지 생성을 위한 기술을 개발하고, 필터링을 강화해 유해한 이미지를 차단하는 등 다각적인 노력을 펼치고 있습니다.
멀티모달 AI는 잠재된 가능성이 많습니다. 다만 모든 AI 기술이 그러하듯, 결국은 인류에게 도움이 되는 방향으로 발전해야겠죠. 궁극적으로 AI가 인류에게 위협이 아닌 기회가 될 수 있도록 보다 윤리적이고, 책임감있는 개발과 사용이 이루어져야 할 것입니다.
* 간접인용 https://www.technologyreview.kr/ai의-과거를-통해-ai의-미래를-본다/
** 발췌/정리 https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html, https://multiverseaccordingtoben.blogspot.com/2020/07/gpt3-super-cool-but-not-path-to-agi.html
*** https://en.wikipedia.org/wiki/Modality_(human–computer_interaction)
**** https://www.ted.com/talks/jeff_dean_ai_isn_t_as_smart_as_you_think_but_it_could_be
References
[1] https://www.technologyreview.kr/ai의-과거를-통해-ai의-미래를-본다/
[2] https://www.blog.google/products/search/introducing-MUM/
[3] https://www.ted.com/talks/jeff_dean_ai_isn_t_as_smart_as_you_think_but_it_could_be
[4] https://openai.com/dall-e-2/
[5] https://openai.com/blog/dall-e-2-extending-creativity/
[6] http://www.aitimes.com/news/articleView.html?idxno=144897
[7] https://www.kakaobrain.com/contents?contentId=6c33343e-4c3c-4bf5-8927-7649d90bab98
[8] http://www.aitimes.com/news/articleView.html?idxno=141958
[9] http://www.aitimes.com/news/articleView.html?idxno=144483
[10] http://www.aitimes.com/news/articleView.html?idxno=145260
[11] https://openai.com/blog/reducing-bias-and-improving-safety-in-dall-e-2/
함께보면 좋은 콘텐츠
[우리 곁의 AI] 인공지능은 인간과 교감할 수 있을까?언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)
언어 천재가 된 AI, 다국어(Polyglot) 모델 (2)