지난 상반기 동안의 주요 인공지능 뉴스들을 정리해봤습니다. 특히 LETR와도 관련이 깊은 자연어처리 분야의 소식들을 중심으로 모아봤지요. 또한 좀 더 깊이 알아보고 싶은 분들을 위해 관련 레퍼런스들도 함께 포함하여 전해드립니다.
1월
메타, 음성·이미지·문자를 동시에 인식하는 자기지도학습 알고리즘 Data2Vec 개발
메타(Meta) AI가 음성, 문자, 이미지를 동시에 인식하는 AI 자기지도학습 알고리즘 Data2vec를 개발했습니다. 이는 음성, 문자, 이미지 각 분야에 대해 각자 다른 방식으로 진행됐던 기존 알고리즘 연구의 패러다임을 바꾼 것이죠. 메타 연구진은 이것이 일반 인공지능 모델(General Model Architectures) 발전의 초석이 될 것이라 자평했습니다.
Reference
https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/
https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec
https://arxiv.org/abs/2202.03555
https://www.technologyreview.com/2022/01/20/1043885/meta-ai-facebook-learning-algorithm-nlp-vision-speech-agi/
https://byline.network/2022/01/21-168/
http://www.aitimes.com/news/articleView.html?idxno=142722
2월
딥마인드, 코딩하는 AI 알파코드 개발
딥마인드가 코딩하는 AI 알파코드(AlphaCode)를 개발했습니다. 알파코드는 인간 개발자 상위 54%에 해당하는 평균 이상의 능력을 보인다고 알려졌죠. 이는 단순히 지시 사항을 코드로 변환하는 것 이상은 수행하지 못하던 기존 대규모 언어 모델의 한계를 뛰어넘은 것입니다.
Reference
https://www.deepmind.com/blog/competitive-programming-with-alphacode
https://alphacode.deepmind.com/
https://arxiv.org/abs/2203.07814
http://www.aitimes.com/news/articleView.html?idxno=142892
https://byline.network/2022/02/3-108/
오픈AI, GPT-3의 문제점을 개선한 새 버전 InstructGPT 개발
딥마인드가 코딩하는 AI 알파코드(AlphaCode)를 개발했습니다. 알파코드는 인간 개발자 상위 54%에 해당하는 평균 이상의 능력을 보인다고 알려졌죠. 이는 단순히 지시 사항을 코드로 변환하는 것 이상은 수행하지 못하던 기존 대규모 언어 모델의 한계를 뛰어넘은 것입니다.
Reference
https://openai.com/blog/instruction-following/#moon
https://github.com/openai/following-instructions-human-feedback
https://arxiv.org/abs/2203.02155
https://www.technologyreview.kr/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/
https://littlefoxdiary.tistory.com/101
3월
스탠포드, 인간중심 인공지능연구소 2022 연례보고서 발표
스탠퍼드 인간중심 인공지능연구소(Human-Centered Artificial Intelligence. HAI)가 '인공지능 인덱스 2022(AI Index 2022)'를 발표했습니다. 이번 보고서는 '인공지능의 산업화 및 윤리적 문제 증가(Industrialization of AI and Mounting Ethical Concerns)'가 주제였죠. 특히 9가지 핵심요점으로 "▷AI에 대한 민간 투자 급증, 투자 집중 강화, ▷미국과 중국, AI에 대한 국가 간 협력 주도 ▷언어 모델은 그 어느 때보다 유능하지만 더 편향되어 있다. ▷모든 곳에서 AI 윤리의 부상 ▷AI가 더 저렴해지고 성능 향상 ▷데이터, 데이터, 데이터 ▷그 어느 때보다 AI에 대한 더 많은 글로벌 법안 ▷로봇 팔은 점점 더 저렴해지고 있다"가 포함되었습니다.
Reference
https://aiindex.stanford.edu/report/
https://hai.stanford.edu/news/state-ai-9-charts
https://hai.stanford.edu/news/2022-ai-index-ais-ethical-growing-pains
https://hai.stanford.edu/news/2022-ai-index-industrialization-ai-and-mounting-ethical-concerns
4월
구글 AI, 21개 다국어 대규모 말뭉치 CVSS 오픈소스로 공개
구글 AI가 대규모 다국어 음성-음성 번역 코퍼스(CVSS)를 오픈소스로 공개했습니다. 이는 새로운 세대의 S2ST(Speech-To-Speech Translation) 연구와 인공지능 음성 변환 애플리케이션의 개발을 촉진하기 위해서라고 알려졌죠. CVSS는 소스 음성과 함께 두 개의 S2ST 데이터 세트(각각 1,872시간 및 1,937시간의 음성)가 포함되며, 번역 음성 외에도 번역 음성의 발음과 일치하는 정규화된 숫자, 통화, 준말 등 번역 텍스트도 함께 제공합니다
Reference
https://ai.googleblog.com/2022/04/introducing-cvss-massively-multilingual.html
https://arxiv.org/abs/2201.03713
https://github.com/google-research-datasets/cvss
https://research.google/tools/datasets/speech-to-speech-translation-corpus/
https://www.marktechpost.com/2022/04/07/google-ai-introduces-a-common-voice-based-speech-to-speech-translation-corpus-cvss-that-can-be-directly-used-for-training-direct-s2st-models-without-any-extra-processing/
http://www.aitimes.kr/news/articleView.html?idxno=24706
구글, 초거대 언어 모델 PaLM 공개
구글이 새로운 언어 모델인 PaLM(Pathways Language Model)을 공개했습니다. 오픈 AI의 GPT-3 보다 약 3배 더 큰 5,400억 개 파라미터의 초거대 언어 모델이죠. 문제 해결 방법을 학습해 자연어 이해와 생성은 물론 산술 등 다양한 문제를 해결할 수 있는 강력한 성능의 단일 AI 모델입니다.
Reference
https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
https://arxiv.org/abs/2204.02311
https://www.infoq.com/news/2022/04/google-palm-ai/
https://byline.network/2022/04/7-138/
http://www.aitimes.com/news/articleView.html?idxno=143840
오픈AI, 이미지 생성 인공지능 DALL·E 새로운 버전 발표
오픈AI가 텍스트를 이미지로 생성해주는 AI인 DALL·E의 새로운 버전을 공개했습니다. DALL·E 2는 고해상도로 새로운 이미지를 창조해 낼 수 있을 뿐만 아니라, 이미지 편집도 가능해졌죠. 앞으로 디자이너와 예술가들에게 새로운 아이디어를 제공하는 등 다양한 활용이 가능할 것으로 기대됩니다.
Reference
https://openai.com/dall-e-2/
https://arxiv.org/abs/2204.06125
https://towardsdatascience.com/dall-e-2-explained-the-promise-and-limitations-of-a-revolutionary-ai-3faf691be220
http://www.aitimes.com/news/articleView.html?idxno=143854&page=4&total=638
https://byline.network/2022/04/8-127/
5월
구글, AI 언어모델 LaMDA 2 테스트 위한 AI Test Kitchen 공개
Google I/O2002에서 AI 언어모델 LaMDA 2의 오류 탐색 등 베타 테스트를 위한 앱인 AI Test Kitchen이 공개됐습니다. AI와 함께 아이디어를 상상하거나, 특정 토픽에 대해 이야기를 하고, 할 일의 목록을 정리하는 등 총 3가지 기능을 선보였죠. 이는 일종의 크라우드 소싱 테스트로 이후 AI 언어 모델과 관련한 문제들을 개선하는데 도움이 될 것으로 기대됩니다.
Reference
https://io.google/2022/intl/ko/
https://aitestkitchen.withgoogle.com
https://www.xda-developers.com/google-new-ai-test-kitchen-test-conversational-ai/
https://www.theverge.com/2022/5/11/23065072/google-ai-app-test-kitchen-future-io-2022
https://www.wired.kr/news/articleView.html?idxno=3929
http://www.aitimes.com/news/articleView.html?idxno=144546
메타, 자체 개발한 초거대 AI 언어모델 오픈소스로 공개
메타 인공지능 연구소(Meta AI)가 1,750억 개 매개변수의 초거대 AI 언어모델인 'Open Pretrained Transformer(이하, OPT-175B)'를 오픈소스로 공개했습니다. 게다가 사전 훈련된 모델과 코드까지 모두 포함된 것으로 알려졌죠. 이는 대담하고, 환영 받을만한 행보로 특히 AI의 편향 등 문제들을 해결하는데 큰 도움이 될 것으로 기대됩니다.
Reference
https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
https://github.com/facebookresearch/metaseq
https://arxiv.org/abs/2205.01068
https://www.technologyreview.kr/메타-자체-개발한-대형언어모델-무료-공개/
http://www.aitimes.kr/news/articleView.html?idxno=25025
딥마인드, 다중 업무 수행하는 새로운 AI 시스템 Gato 공개
딥마인드가 하나의 신경망 모델로 다양한 양식의 데이터를 처리해 다중 작업을 수행할 수 있는 범용 에이전트 가토(Gato)를 공개했습니다. 딥마인드는 가토가 604개 업무를 수행할 수 있고, 이 중 450개에서는 인간 전문가보다 우수하다고 밝혔죠. 하지만 이것이 범용인공지능을 향한 진전이란 주장은 많은 비판과 논란을 불러일으키기도 했습니다.
Reference
https://www.deepmind.com/publications/a-generalist-agent
https://arxiv.org/abs/2205.06175
https://www.independent.co.uk/tech/ai-deepmind-artificial-general-intelligence-b2080740.html
https://www.technologyreview.kr/deepmind-gato-ai-model-hype/
https://towardsdatascience.com/gato-the-latest-from-deepmind-towards-true-ai-1ac06e1d18cd
http://scimonitors.com/딥마인드-새로운-ai-gato는-agi인가/
구글, 이미지 생성 인공지능 Imagen 공개
구글이 텍스트를 이미지로 생성하는 AI 시스템 Imagen을 선보였습니다. 벤치마크 평가 결과 오픈AI의 DALL-E 등 경쟁 모델들보다 더 선호되었다 발표했죠. 다만 다른 모델들과 마찬가지로 악용 및 편견, 차별적 의식의 반영 등 부작용에 대한 우려로 대중에 대한 공개는 하지 않았습니다.
Reference
https://imagen.research.google
https://arxiv.org/abs/2205.11487
https://www.assemblyai.com/blog/how-imagen-actually-works/
https://www.technologyreview.kr/dark-secret-cute-ai-animal-images-dalle-openai-imagen-google/
http://www.aitimes.com/news/articleView.html?idxno=144897
6월
깃허브, 노코딩 AI 코파일럿 공식 출시
깃허브가 노코딩 AI 도구 코파일럿(Copilot)의 정식 서비스를 시작했습니다. 코파일럿은 오픈AI의 코덱스(Codex)와 깃허브의 코드 데이터베이스 기반으로 구축되어 약 1년 전 공개된 바 있죠. 다만 이후 아마존웹서비스, 구글 딥마인드에서도 코딩하는 AI를 내놓고 있으나, 아직까지는 모두 코딩 보조 도구의 역할을 할 뿐 완벽한 코드를 작성하는 것은 아니라고 합니다.
Reference
https://github.com/features/copilot
https://github.blog/2022-06-21-github-copilot-is-generally-available-to-all-developers/
https://www.techtarget.com/searchsoftwarequality/news/252521966/Code-completion-AI-bot-trend-continues-with-GitHub-Copilot
http://www.aitimes.com/news/articleView.html?idxno=145330
https://www.hani.co.kr/arti/economy/it/1049992.html