지난 일사분기 동안의 주요 인공지능 뉴스들을 모아봤습니다. 지금까지는 작년 말 공개된 챗GPT를 비롯한 생성 AI가 여전히 핫 한 것 같네요. 그 외에도 주목할 만한 AI 기술 및 업계 동향을 함께 전해드립니다.
1월
구글, '챗GPT'에 대한 공식 입장 표명
구글이 ‘OUR FOCUS - Why we focus on AI (and to whatend)’라는 AI에 대한 자신들의 관점을 표명한 글을 발표했습니다. 간단히 요약하면 AI 개발은 신중하고, 책임감 있어야 한다는 것이죠. 다만 발표 시기상 외부에서 보는 시각은 챗GPT의 등장으로 위기감을 느낀 구글의 견제라는 해석이 지배적인 듯 합니다.
References
https://ai.google/our-focus/
https://korea.googleblog.com/2023/01/ai-our-perspective-focus-principle.html
딥마인드, 적응형 인공지능 ‘에이다(AdA)’ 발표
딥마인드가 인간만큼 빠르고 정확하게 문제를 해결하는 적응형 인공지능 에이다(AdA)를 공개했습니다. 기존 강화 학습 AI와 달리 실험을 통해 학습하는 방법을 배웠다고 하네요. 마치 인간이나 동물이 놀이를 통해 배우듯 과제를 수행하는 능력을 향상시키고, 새로운 과제에도 빠르게 적응할 수 있다고 합니다.
References
https://sites.google.com/view/adaptive-agent/?pli=1
https://arxiv.org/abs/2301.07608
https://www.techtimes.com/articles/287019/20230131/deepminds-ada-ai-system-solves-new-tasks-quickly-accurately-humans.htm
구글, 새로운 이미지 생성 AI 뮤즈(Muse) 공개
뮤즈는 기존의 달리(DALL-E), 이매진(Imagen)보다 훨씬 빠르게 고품질 이미지를 생성합니다. 게다가 이미지의 품질과 정확성도 다른 모델들보다 우수하다고 하네요. 구글은 “세분화된 언어 이해가 가능해 객체, 공간 관계, 포즈 등 시각적 개념을 이해할 수 있고 텍스트만으로 마스킹 작업이 가능해진다”고 설명했습니다.
References
https://arxiv.org/abs/2301.00704
https://muse-model.github.io
http://www.newstheai.com/news/articleView.html?idxno=3696
마이크로소프트, 음성 합성 인공지능 발리(VALL-E) 발표
VALL-E는 단 3초의 음성 샘플만으로 사람의 음성 뿐만 아니라 감정 톤, 녹음 환경까지 모방합니다. 즉 전화 음성 샘플을 사용하면 합성 음성도 전화 통화처럼 들리는 거죠. 이를 MS는 ‘뉴럴 코덱 언어 모델(Neural Codec Language Models)’이라 명했는데, (기존의 파형 조작을 통한 음성 합성 방법이 아닌) 텍스트와 음향 프롬프트에서 개별 오디오 코덱 코드를 생성하는 방식입니다.
References
https://arxiv.org/abs/2301.02111
https://valle-demo.github.io
https://www.thedailypost.kr/news/articleView.html?idxno=91008
2월
구글, 바드(Bard) 공개
구글이 람다(LaMDA) 기반의 실험적인 대화형 인공지능 바드를 공개했습니다. 바드는 람다의 경량 모델 버전으로, 챗GPT의 대항마로 여겨졌죠. 다만 공개 이후 오류가 발생하며 주가가 대폭 하락하는 해프닝이 있었고, 얼마 전 검색이 아닌 별도 채팅 서비스로 미국과 영국에서 우선 출시되었습니다.
References
https://bard.google.com
https://blog.google/technology/ai/try-bard/
https://blog.google/technology/ai/bard-google-ai-search-updates/
https://www.technologyreview.com/2023/03/21/1070111/google-bard-chatgpt-openai-microsoft-bing-search/
마이크로소프트, 챗GPT 도입해 새로워진 빙(Bing) 공개
MS가 챗GPT 기능이 도입된 새로운 빙을 공개했습니다. 이를 “검색의 재발명, 웹을 위한 부조종사(your copilot for the web)”라고 소개했죠. 이 외에도 MS는 오픈AI에 100억 달러를 추가 투자한다고 알려졌고, 이후 오피스 등 전 제품군에 GPT 기술을 적용할 계획이라고 밝혔습니다.
References
https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
https://www.itworld.co.kr/news/276655#csidxa068bf634d0830c9b213c3120a547d9
메타, AI 언어 모델 툴포머(Toolformer) 공개
메타(META)가 도구의 사용법을 스스로 학습할 수 있는 AI 언어 모델 툴포머를 공개했습니다. API 호출 기능을 통해 검색, 계산기, 캘린더, 번역기 같은 외부 소트프웨어 도구를 사용할 수 있는 기능을 갖춘 것이죠. 이를 통해 자연어처리에서 엄청난 능력을 보여주지만, 산술이나 사실 확인 같은 다른 기본 작업에는 어려움이 있던 기존 언어 모델의 한계를 극복하려는 시도입니다.
References
https://arxiv.org/abs/2302.04761
https://arstechnica.com/information-technology/2023/02/meta-develops-an-ai-language-bot-that-can-use-external-software-tools/
https://www.aitimes.com/news/articleView.html?idxno=149518
3월
오픈AI, 차세대 대형 언어모델 GPT-4 공개
GPT-4는 멀티모달 기능을 더한 대형 언어모델입니다. 텍스트와 이미지에 모두 반응할 수 있고, 챗GPT 보다 더 크고 우수한 모델이죠. 다만 출시와 함께 도입 러시가 이뤄지며 폭발적인 관심을 불러일으키기도 했지만, 이전과 달리 오픈AI가 기술 정보 대부분을 공개하지 않으며 많은 비판을 받기도 했습니다.
References
https://openai.com/product/gpt-4
https://openai.com/research/gpt-4
https://arxiv.org/abs/2303.08774
https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/
오픈AI, 챗GPT 플러그인 공개
이미 알려져 있다시피 챗GPT는 2021년까지의 데이터로 학습했습니다. 즉 그 이후의 정보는 알지 못 한다는 한계를 가지고 있었는데, 이번에 외부 API를 연동해 다양한 기능을 추가할 수 있는 챗GPT 플러그인이 공개되었죠. 이제 기존보다 훨씬 다양한 기능을 수행할 수 있게 되었을 뿐만 아니라 신뢰성과 정확성도 향상되었다고 합니다.
References
https://openai.com/blog/chatgpt-plugins
https://platform.openai.com/docs/plugins/introduction
https://github.com/openai/chatgpt-retrieval-plugin
https://www.zdnet.com/article/chatgpt-is-getting-access-to-the-internet-heres-what-that-means-for-you/
구글, 멀티모달 언어모델 ‘팜-E(PaLM-E)’ 공개
구글이 언어와 시각 인식 기능을 갖춘 멀티모달 언어모델 PaLM-E를 공개했습니다. 기존에 공개했던 대규모 언어모델 PaLM에 비전 모델과 로봇 제어를 추가한 것이죠. 이제 언어모델이 텍스트를 넘어 이미지, 오디오, 영상 정보를 이해하고 로봇을 제어하는 등 활용 범위가 크게 늘어날 것으로 보입니다.
References
https://ai.googleblog.com/2023/03/palm-e-embodied-multimodal-language.html
https://palm-e.github.io
https://palm-e.github.io/assets/palm-e.pdf
마이크로소프트, 멀티모달 대형언어모델 Kosmos-1 공개
MS가 자연어처리 뿐만 아니라 시각 기능도 갖춘 멀티모달 대형언어모델(Kosmos-1)을 공개했습니다. 즉 그동안 오픈AI 기술을 적극 활용하는 한편, MS 내부에서 자체 개발도 함께 진행해 온 것이죠. 코스모스-1은 이미지를 분석해 질문에 답할 수 있는데, 시각적 지능(IQ)을 측정하는 레이븐 테스트(Raven’s Progressive Matrices)에서도 일부 성과(22~26% 정답률)를 내는 등 언어 모델의 비언어적 추론 수행의 가능성을 보여줬습니다.
References
https://arxiv.org/pdf/2302.14045.pdf
https://github.com/microsoft/unilm
https://techrecipe.co.kr/posts/51346
빌 게이츠, “AI는 내 생애 두 번째로 혁명적인 기술”
빌 게이츠가 자신의 블로그를 통해 인공지능, 특히 생성 AI를 현 시대 가장 중요한 혁신으로 손꼽았습니다. 자신의 생애에서 (그가 MS를 설립하는데 영향을 주기도 한) GUI(Graphic User Interface) 이후 큰 충격을 받은 혁명적인 기술이라고 밝혔죠. 이를 통해 세상이 근본적으로 변화할 것(“Artificial intelligence is as revolutionary as mobile phones and the Internet”)이라며 기대감을 표명하는 한편, AI 기술 혜택을 평등하게 누릴 수 있도록 규칙이 필요하다고 강조했습니다.
References
https://www.gatesnotes.com/The-Age-of-AI-Has-Begun
https://www.bbc.com/news/technology-65032848
마무리하며
빌 게이츠 뿐만 아니라 전 세계에서 생성 AI가 우리가 사는 세상을 어떻게 변화시킬지 기대와 우려를 함께 표명하고 있습니다.
얼마전 딥러닝의 대모로 불리는 페이 페이 리(Fei-Fei Li) 역시 스탠포드 HAI(Human Centered Artificial Intelligence)가 발표한 보고서 ‘Generative AI: Perspectives from Stanford HAI’*를 통해 생성 AI를 “AI의 위대한 변곡점(AI’s Great Inflection Point)”이라고 언급한 바 있죠. '인간이 보는 것을 볼 수 있는 기계'의 발전에 지대한 공헌을 해 온 그녀가 이제는 '인간이 볼 수 없는 것을 볼 수 있는 AI'를 만드는 것을 생각할 수 있는 시점이라며 큰 기대감을 보인 겁니다. 다만 그와 동시에 AI의 편향성, 악의적 사용 가능성에 대한 우려를 표했어요. 새로운 기회를 온전히 실현하려면 각별한 주의와 위험도 평가가 반드시 필요하다는 지적입니다.
최근 쏟아져 나오고 있는 AI 관련 소식들을 지켜보며 많은 생각을 할 수 밖에 없었습니다. AI 기술의 급속한 발전으로 인류는 앞으로 찬란한 장미 빛 길을 걷게 될 것인가, 아니면 어둡고 비참한 미래를 맞이 할 것 인가? 지금 우리는 이를 결정할 수도 있는 중대한 기로에 서게 된 것 같습니다.
* https://hai.stanford.edu/sites/default/files/2023-03/Generative_AI_HAI_Perspectives.pdf