지난 상반기 동안의 주요 인공지능 뉴스들을 정리해봤습니다. 특히 LETR와도 관련이 깊은 자연어처리 분야의 소식들을 중심으로 모아봤지요. 또한 좀 더 깊이 알아보고 싶은 분들을 위해 관련 레퍼런스들도 함께 포함하여 전해드립니다.
1월
메타, 음성·이미지·문자를 동시에 인식하는 자기지도학습 알고리즘 Data2Vec 개발
이미지: Meta AI
메타(Meta) AI가 음성, 문자, 이미지를 동시에 인식하는 AI 자기지도학습 알고리즘 Data2vec를 개발했습니다. 이는 음성, 문자, 이미지 각 분야에 대해 각자 다른 방식으로 진행됐던 기존 알고리즘 연구의 패러다임을 바꾼 것이죠. 메타 연구진은 이것이 일반 인공지능 모델(General Model Architectures) 발전의 초석이 될 것이라 자평했습니다.
Reference
https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/
https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec
https://arxiv.org/abs/2202.03555
https://www.technologyreview.com/2022/01/20/1043885/meta-ai-facebook-learning-algorithm-nlp-vision-speech-agi/
https://byline.network/2022/01/21-168/
http://www.aitimes.com/news/articleView.html?idxno=142722
2월
딥마인드, 코딩하는 AI 알파코드 개발
이미지: DeepMind
딥마인드가 코딩하는 AI 알파코드(AlphaCode)를 개발했습니다. 알파코드는 인간 개발자 상위 54%에 해당하는 평균 이상의 능력을 보인다고 알려졌죠. 이는 단순히 지시 사항을 코드로 변환하는 것 이상은 수행하지 못하던 기존 대규모 언어 모델의 한계를 뛰어넘은 것입니다.
Reference
https://www.deepmind.com/blog/competitive-programming-with-alphacode
https://alphacode.deepmind.com/
https://arxiv.org/abs/2203.07814
http://www.aitimes.com/news/articleView.html?idxno=142892
https://byline.network/2022/02/3-108/
오픈AI, GPT-3의 문제점을 개선한 새 버전 InstructGPT 개발
이미지: OpenAI
딥마인드가 코딩하는 AI 알파코드(AlphaCode)를 개발했습니다. 알파코드는 인간 개발자 상위 54%에 해당하는 평균 이상의 능력을 보인다고 알려졌죠. 이는 단순히 지시 사항을 코드로 변환하는 것 이상은 수행하지 못하던 기존 대규모 언어 모델의 한계를 뛰어넘은 것입니다.
Reference
https://openai.com/blog/instruction-following/#moon
https://github.com/openai/following-instructions-human-feedback
https://arxiv.org/abs/2203.02155
https://www.technologyreview.kr/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/
https://littlefoxdiary.tistory.com/101
3월
스탠포드, 인간중심 인공지능연구소 2022 연례보고서 발표
이미지: Stanford University HAI
스탠퍼드 인간중심 인공지능연구소(Human-Centered Artificial Intelligence. HAI)가 '인공지능 인덱스 2022(AI Index 2022)'를 발표했습니다. 이번 보고서는 '인공지능의 산업화 및 윤리적 문제 증가(Industrialization of AI and Mounting Ethical Concerns)'가 주제였죠. 특히 9가지 핵심요점으로 "▷AI에 대한 민간 투자 급증, 투자 집중 강화, ▷미국과 중국, AI에 대한 국가 간 협력 주도 ▷언어 모델은 그 어느 때보다 유능하지만 더 편향되어 있다. ▷모든 곳에서 AI 윤리의 부상 ▷AI가 더 저렴해지고 성능 향상 ▷데이터, 데이터, 데이터 ▷그 어느 때보다 AI에 대한 더 많은 글로벌 법안 ▷로봇 팔은 점점 더 저렴해지고 있다"가 포함되었습니다.
Reference
https://aiindex.stanford.edu/report/
https://hai.stanford.edu/news/state-ai-9-charts
https://hai.stanford.edu/news/2022-ai-index-ais-ethical-growing-pains
https://hai.stanford.edu/news/2022-ai-index-industrialization-ai-and-mounting-ethical-concerns
4월
구글 AI, 21개 다국어 대규모 말뭉치 CVSS 오픈소스로 공개
이미지: 구글 AI
구글 AI가 대규모 다국어 음성-음성 번역 코퍼스(CVSS)를 오픈소스로 공개했습니다. 이는 새로운 세대의 S2ST(Speech-To-Speech Translation) 연구와 인공지능 음성 변환 애플리케이션의 개발을 촉진하기 위해서라고 알려졌죠. CVSS는 소스 음성과 함께 두 개의 S2ST 데이터 세트(각각 1,872시간 및 1,937시간의 음성)가 포함되며, 번역 음성 외에도 번역 음성의 발음과 일치하는 정규화된 숫자, 통화, 준말 등 번역 텍스트도 함께 제공합니다
Reference
https://ai.googleblog.com/2022/04/introducing-cvss-massively-multilingual.html
https://arxiv.org/abs/2201.03713
https://github.com/google-research-datasets/cvss
https://research.google/tools/datasets/speech-to-speech-translation-corpus/
https://www.marktechpost.com/2022/04/07/google-ai-introduces-a-common-voice-based-speech-to-speech-translation-corpus-cvss-that-can-be-directly-used-for-training-direct-s2st-models-without-any-extra-processing/
http://www.aitimes.kr/news/articleView.html?idxno=24706
구글, 초거대 언어 모델 PaLM 공개
이미지: 구글 AI
구글이 새로운 언어 모델인 PaLM(Pathways Language Model)을 공개했습니다. 오픈 AI의 GPT-3 보다 약 3배 더 큰 5,400억 개 파라미터의 초거대 언어 모델이죠. 문제 해결 방법을 학습해 자연어 이해와 생성은 물론 산술 등 다양한 문제를 해결할 수 있는 강력한 성능의 단일 AI 모델입니다.
Reference
https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
https://arxiv.org/abs/2204.02311
https://www.infoq.com/news/2022/04/google-palm-ai/
https://byline.network/2022/04/7-138/
http://www.aitimes.com/news/articleView.html?idxno=143840
오픈AI, 이미지 생성 인공지능 DALL·E 새로운 버전 발표
이미지: OpenAI
오픈AI가 텍스트를 이미지로 생성해주는 AI인 DALL·E의 새로운 버전을 공개했습니다. DALL·E 2는 고해상도로 새로운 이미지를 창조해 낼 수 있을 뿐만 아니라, 이미지 편집도 가능해졌죠. 앞으로 디자이너와 예술가들에게 새로운 아이디어를 제공하는 등 다양한 활용이 가능할 것으로 기대됩니다.
Reference
https://openai.com/dall-e-2/
https://arxiv.org/abs/2204.06125
https://towardsdatascience.com/dall-e-2-explained-the-promise-and-limitations-of-a-revolutionary-ai-3faf691be220
http://www.aitimes.com/news/articleView.html?idxno=143854&page=4&total=638
https://byline.network/2022/04/8-127/
5월
구글, AI 언어모델 LaMDA 2 테스트 위한 AI Test Kitchen 공개
이미지: 구글
Google I/O2002에서 AI 언어모델 LaMDA 2의 오류 탐색 등 베타 테스트를 위한 앱인 AI Test Kitchen이 공개됐습니다. AI와 함께 아이디어를 상상하거나, 특정 토픽에 대해 이야기를 하고, 할 일의 목록을 정리하는 등 총 3가지 기능을 선보였죠. 이는 일종의 크라우드 소싱 테스트로 이후 AI 언어 모델과 관련한 문제들을 개선하는데 도움이 될 것으로 기대됩니다.
Reference
https://io.google/2022/intl/ko/
https://aitestkitchen.withgoogle.com
https://www.xda-developers.com/google-new-ai-test-kitchen-test-conversational-ai/
https://www.theverge.com/2022/5/11/23065072/google-ai-app-test-kitchen-future-io-2022
https://www.wired.kr/news/articleView.html?idxno=3929
http://www.aitimes.com/news/articleView.html?idxno=144546
메타, 자체 개발한 초거대 AI 언어모델 오픈소스로 공개
이미지: Meta AI
메타 인공지능 연구소(Meta AI)가 1,750억 개 매개변수의 초거대 AI 언어모델인 'Open Pretrained Transformer(이하, OPT-175B)'를 오픈소스로 공개했습니다. 게다가 사전 훈련된 모델과 코드까지 모두 포함된 것으로 알려졌죠. 이는 대담하고, 환영 받을만한 행보로 특히 AI의 편향 등 문제들을 해결하는데 큰 도움이 될 것으로 기대됩니다.
Reference
https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
https://github.com/facebookresearch/metaseq
https://arxiv.org/abs/2205.01068
https://www.technologyreview.kr/메타-자체-개발한-대형언어모델-무료-공개/
http://www.aitimes.kr/news/articleView.html?idxno=25025
딥마인드, 다중 업무 수행하는 새로운 AI 시스템 Gato 공개
이미지: DeepMind
딥마인드가 하나의 신경망 모델로 다양한 양식의 데이터를 처리해 다중 작업을 수행할 수 있는 범용 에이전트 가토(Gato)를 공개했습니다. 딥마인드는 가토가 604개 업무를 수행할 수 있고, 이 중 450개에서는 인간 전문가보다 우수하다고 밝혔죠. 하지만 이것이 범용인공지능을 향한 진전이란 주장은 많은 비판과 논란을 불러일으키기도 했습니다.
Reference
https://www.deepmind.com/publications/a-generalist-agent
https://arxiv.org/abs/2205.06175
https://www.independent.co.uk/tech/ai-deepmind-artificial-general-intelligence-b2080740.html
https://www.technologyreview.kr/deepmind-gato-ai-model-hype/
https://towardsdatascience.com/gato-the-latest-from-deepmind-towards-true-ai-1ac06e1d18cd
http://scimonitors.com/딥마인드-새로운-ai-gato는-agi인가/
구글, 이미지 생성 인공지능 Imagen 공개
이미지: 구글
구글이 텍스트를 이미지로 생성하는 AI 시스템 Imagen을 선보였습니다. 벤치마크 평가 결과 오픈AI의 DALL-E 등 경쟁 모델들보다 더 선호되었다 발표했죠. 다만 다른 모델들과 마찬가지로 악용 및 편견, 차별적 의식의 반영 등 부작용에 대한 우려로 대중에 대한 공개는 하지 않았습니다.
Reference
https://imagen.research.google
https://arxiv.org/abs/2205.11487
https://www.assemblyai.com/blog/how-imagen-actually-works/
https://www.technologyreview.kr/dark-secret-cute-ai-animal-images-dalle-openai-imagen-google/
http://www.aitimes.com/news/articleView.html?idxno=144897
6월
깃허브, 노코딩 AI 코파일럿 공식 출시
이미지: 깃허브
깃허브가 노코딩 AI 도구 코파일럿(Copilot)의 정식 서비스를 시작했습니다. 코파일럿은 오픈AI의 코덱스(Codex)와 깃허브의 코드 데이터베이스 기반으로 구축되어 약 1년 전 공개된 바 있죠. 다만 이후 아마존웹서비스, 구글 딥마인드에서도 코딩하는 AI를 내놓고 있으나, 아직까지는 모두 코딩 보조 도구의 역할을 할 뿐 완벽한 코드를 작성하는 것은 아니라고 합니다.
Reference
https://github.com/features/copilot
https://github.blog/2022-06-21-github-copilot-is-generally-available-to-all-developers/
https://www.techtarget.com/searchsoftwarequality/news/252521966/Code-completion-AI-bot-trend-continues-with-GitHub-Copilot
http://www.aitimes.com/news/articleView.html?idxno=145330
https://www.hani.co.kr/arti/economy/it/1049992.html