SOL 프로젝트는 트위그팜 LETR팀이 NIA 그리고 멀티캠퍼스와 손 잡고 우수한 인공지능 인재 양성을 지원하는 프로그램입니다. 교육생들이 현업 실무 프로젝트를 경험하고, LETR팀 연구 개발 문화를 가까이에서 체험해 볼 수 있는 기회입니다.
프로젝트 1기는 지난 8월부터 9명의 예비 개발자들이 약 3개월 동안 LETR팀과 함께했습니다. 실제 현장을 더 밀접하게 경험할 수 있도록 3개 조로 나뉘어 팀 프로젝트를 진행했는데요. 멘토링을 통해 현업에 있는 LETR팀 연구원들과 교류, 협력하는 시간도 있었습니다.
그렇게 얼마전 마무리 된 1기 참가자 9명의 이야기를 들어봤습니다. 실제로 프로젝트를 진행하면서 각자가 느낀 바가 달랐을 것 같은데요. 이 경험을 통해 무엇을 배우고, 생각하고, 느꼈는지 솔직한 이야기를 남겨주셨습니다.
이번에는 세 번째 순서로 ‘띄워쓰기 보정’ 프로젝트에 참여한 인턴들의 이야기를 소개해 드립니다. 더불어 혹시 아직 ‘자연스러운 한국어’ 및 ‘욕설, 혐오 표현 분류’ 팀의 인터뷰를 보지 않았다면 함께 읽어 보시는 것을 추천합니다.
인공지능은 처음(?)이라서
안녕하세요. 자기소개 부탁드려요!
용훈: 안녕하세요. ‘띄워쓰기 보정’ 프로젝트에 참여한 권용훈입니다.
태영: 저는 대학원 과정에서 2년간 컴퓨터공학을 배웠고, 이후 3년간 국방분야 국가연구과제에 참여한 경험이 있습니다. 자연어처리는 멀티캠퍼스 교육과정을 통해 머신러닝, 딥러닝과 함께 처음 배우게 됐고, 이렇게 실습까지 하게 되었네요. 이전에는 Python을 1년 정도 사용했었습니다.
준호: 저는 학부에서 어문계열(한문학)을 전공하면서 복수전공으로 융합소프트웨어연계전공도 선택했어요. 이후 어플리케이션 개발 공모전에 참가하는 등 다양한 경험을 하면서 관련 분야로 진출을 준비하고 있습니다.
인공지능, 그 중에서도 자연어처리에 관심을 갖게 된 이유는 무엇인가요?
용훈: 이미지처리, 자연어처리, 음성인식 등 분야와 관계없이 인공지능 전반에 관심이 많았습니다. 자연어처리는 이번에 공부하기 시작하면서 더 흥미를 갖게 되었네요.
태영: 이전부터 인공지능 분야로 가고 싶었는데, 마침 자연어처리 교육과정을 수강하면서 더 관심을 갖게 됐습니다.
진호: 전공 특성상 고대 문학부터 현대 에세이까지 다양한 문체의 텍스트를 접할 수 있었어요. 그 과정에서 의사나 감정을 표현하는 방법에는 생각보다 제한이 없다는 것을 깨달을 수 있었죠. 이후 프로그래밍을 경험하게 되면서 인공지능 학습을 통해 인간미가 느껴지는 자연어처리 기술을 개발하고 싶다는 생각을 하게 됐습니다.
SOL 프로젝트를 경험해보니
SOL 프로젝트에 지원하게 된 계기는 무엇인가요?
용훈: 멀티캠퍼스 자연어처리 교육과정에서 배운 것들을 어떻게 써먹으면 좋을지, 그리고 남들은 어떻게 활용하고 있는지도 궁금했습니다. 특히 인공지능을 활용한 띄워쓰기 보정은 어떻게 이루어지는 정말 궁금했습니다.
태영: 교육과정 중 배운 이론이 실무에서는 어떻게 쓰이는지 궁금했습니다. 마침 트위그팜 대표님과 연구원 두 분이 제가 속한 반의 멘토였는데, 회사에 대해서도 궁금하고 현업에서 실무 프로젝트를 경험해 볼 좋은 기회라 생각해 지원했어요.
준호: 멀티캠퍼스에서 자연어처리 과정을 공부하던 중 모집 공고를 보게 됐어요. 실제로 언어 정제, 보정 등 기술을 서비스하고 있는 곳에서 현장을 경험하고, 실무 프로젝트에도 참여해보고 싶어 지원했습니다.
SOL 프로젝트를 통해 어떤 경험을 하셨나요?
용훈: 띄어쓰기 관련 선행연구 논문의 코드를 찾아보았고 환경 세팅 수정, 모델 학습, 데이터 전처리를 담당했습니다. 이번에 BERT를 사용한 환경 세팅, 학습 결과를 반영한 데이터수정 및 모델 분석 등을 해보면서 외부 모델 사용에 자신감을 갖게 됐습니다.
태영: 전문용어가 아닌 일상적인 문어체에 대한 띄어쓰기 보정 작업이 가능한 라이브러리를 구현하는 것이 목표였습니다. 프로젝트는 팀원들과 회의를 하며 진행했고, 팀 주간 보고서와 멘토링 회의를 통해 중간 진행사항을 체크했습니다.
그리고 실제 프로세스는 구체적인 목표와 결과물의 형태, 개략적인 진행 계획을 세우는 것에서 출발했습니다. 이후 문헌조사를 시작했는데, 띄어쓰기 보정은 한국어에 국한된 문제여서 한글로 된 학술·저널 논문을 많이 찾아봤네요.
논문 분석 이후에는 실제 구현을 위한 관련 라이브러리 코드들을 조사해 레퍼런스 모델을 결정, 실제로 코드가 정상적으로 작동하는지 확인해 필요 데이터를 정의했고, 데이터에 맞는 모델을 학습시켜 성능을 뽑아내는 과정을 거쳤습니다.
준호: 선행 논문 및 학술지, 서비스 등에 대한 사례 연구 및 분석을 시작으로 적용 데이터셋과 라이브러리의 발굴, 성과 분석에 이르기까지 약 3달 동안 프로젝트를 진행했습니다. 매주 화요일에는 멘토링을 통해 피드백을 받거나 연구방향을 조정하고, 금요일에는 팀원들과 함께 자체 중간점검을 했습니다. 이후 돌아오는 월요일에 중간성과 및 진행상황에 대한 주간 보고서를 작성하는 식으로 주간 루틴이 돌아갔어요. 그외 모든 프로젝트 팀이 함께 모이는 중간 발표 및 최종 발표 때에는 프레젠테이션을 준비하기도 했습니다.
팀원들과 함께 프로젝트를 진행하며 느낀 것은 무엇인가요?
용훈: 프로젝트 보고서를 작성하는 방법과 발표하는 노하우 등을 배웠습니다. 정말 많은 도움이 되었습니다!
태영: 프로젝트가 방향을 잃지 않으려면 큰 그림부터 그려야 한다는 것을 배웠습니다. 그러려면 프로젝트의 목표, 결과물, 계획 및 일정이 명확해야하죠. 이전까지는 눈 앞에 일만 처리하기 급급해 과제의 방향성이 흐트러진 적이 많았거든요.
하지만 이번에는 팀원들과 함께 고민하고, 논의를 통해 결정하는 과정에서 깨달을 수 있었습니다. 지금 내가 하는 일이 무엇을 위한 것인지 이해하며 수행해야 나중에 불필요한 시간 낭비를 줄일 수 있다는 것을.
마지막으로 무엇을 하든 끊임없이 생각하며 주도적으로 일해야겠다는 다짐도 하게 됐습니다.
준호: ‘띄어쓰기 보정’ 팀에는 비교적 경험이 많은 대학원 졸업생부터 이제 고등학교를 졸업한 친구까지 다양한 배경을 가진 팀원들이 함께 했습니다. 저는 나이나 경험면에서 중간 위치에 있다 보니 모르는 것은 배우고, 반대로 아는 것은 공유하기도 했던 것 같네요. 덕분에 고정된 역할에서 벗어나 다양한 입장에서 솔루션을 고민해보는 귀중한 경험을 할 수 있었습니다.
프로젝트를 마무리하며 가장 가장 기억에 남는 일은 무엇인가요?
용훈: 프로젝트가 마무리 된 이후에도 계속 연락하는 인연들을 만들었어요. 지금 어떤 것을 준비하고 있고, 어떻게 되어 가고 있는지 공유하며 서로를 응원하는 좋은 사람들이 남았습니다.
태영: 마지막으로 최종 발표를 한 날입니다. 코로나로 온라인으로 만나던 사람들과 모든 멘토님들을 직접 뵐 수 있었거든요. 그리고 (아마 인턴이라는 점을 감안했겠지만) 대표님께서 항상 긍정적인 피드백과 좋은 말씀을 많이 해주신 것이 기억에 남습니다.
준호: 프로젝트 성과 발표를 마치고, 최종 보고서를 작성하면서 지난 기간을 되돌아봤던 시간이 가장 기억에 남습니다. 이전까지는 주간 단위 목표에 집중하다 보니 작은 일에도 일희일비 했었는데, 마무리하며 전체적인 맥락을 볼 수 있게 되니 이전과는 다른 느낌을 받았던 것 같네요.
SOL 프로젝트, 그 이후
앞으로 도전하고 싶은 분야, 이루고 싶은 목표는 무엇인가요?
용훈: 사람들은 사소한 것이라도 자신의 문제를 해결하는데 도움이 되는 기술에 관심을 갖는다고 생각합니다. 그리고 그런 기술은 단지 기술적인 능력만 키운다고 개발할 수 있는 것은 아닌 것 같아요. 그래서 프로젝트를 마무리하며 웹 개발과 인공지능을 접목해 사람들이 가진 다양한 문제들을 해결하고 싶다는 생각을 하게 됐습니다.
지금은 많은 사람들이 관심을 갖고, 함께 발전시킬 수 있는 기술을 다루는 머신러닝 웹 개발자를 꿈꾸게 되었습니다.
태영: 자연어처리에도 많은 분야가 있는 만큼 앞으로 더 다양한 것을 경험해보고 싶어요. 특히 무엇을 하든 가장 중요한 것은 학습에 사용하는 데이터라고 생각하는데, 앞으로 이런 데이터를 다뤄 볼 기회가 있다면 좋은 경험이 될 것 같습니다.
무엇보다 어떤 일을 하든 쉬이 지치지 않고, 흥미를 잃어버리지 않고, 주위의 변화와 조언에 항상 열려있는 사람이 되고 싶습니다.
준호: 감성 분석 연구를 통해 질문에 담긴 의도까지 파악하는 서비스를 개발하고 싶다는 목표가 생겼습니다. 이미 표정을 토대로 감정을 분석하는 이미지 기반 서비스는 AI 면접, 법의학 등 분야에서 상용화되기도 했고요. 머지않아 간단한 발화나 문장을 갖고도 대중성과 전문성을 함께 만족시킬 수 있는 범용적인 서비스를 개발할 수 있으리라 믿습니다.
마지막으로 앞으로 프로젝트를 경험하게 될 후배들에게도 한 마디 남겨주세요.
용훈: 스스로 열심히 하면 정말 많은 도움이 될 겁니다. 혹시 띄어쓰기 관련 프로젝트를 하게 된다면 저희 리포지토리를 참고해주세요!
태영: (매일 밀착 관리를 받는 것은 아니지만,) 직접 실무를 경험하며 현장은 어떤 곳인지 느껴 볼 수 있을 겁니다. 여러분의 시야를 넓힐 수 있는 좋은 기회이니 꼭 도전해보시기 바랍니다!
준호: 이번에 생각보다 다양한 언어 분석 데이터셋과 오픈 라이브러리가 많다는 것을 알게 됐습니다. 분명한 주제 설정과 프로젝트 관리가 동반되지 않으면 불필요한 시행착오를 겪게될 가능성이 커질 수 밖에 없는 거죠. 그런 점에서 SOL 프로젝트는 전문적인 멘토링과 인프라를 제공받을 수 있는 좋은 기회이니 잘 활용해서 모두 의미있는 성과를 만들어 가시길 바랍니다.
마무리하며
SOL 프로젝트 인턴들은 지난 3개월 동안 누구보다 치열한 시간을 보냈습니다. 그렇게 바쁜 가운데 결과 공유를 위해 보고서를 작성하고, 오픈소스를 공개하고, 데모 사이트를 만들기도 했습니다.
아래에 SOL 프로젝트 3개 팀의 노력과 열정이 깃든 결과물을 공개하니 여러분들의 많은 관심과 응원을 부탁드립니다.
SOL 프로젝트 인턴 여러분 세 달 동안 정말 고생 많으셨습니다. 머지않아 또 봐요!
자연스러운 한국어
https://github.com/twigfarm/letr-sol-koFISH
욕설 혐오 표현 분류
https://github.com/twigfarm/letr-sol-profanity-filter
https://huggingface.co/dobbytk/KSL-BERT
띄어쓰기 보정
https://github.com/twigfarm/letr-sol-spacing
함께보면 좋은 콘텐츠
언어처리 엔진 LETR는 왜 텍스트 언어에 집중할까?내일의 AI 개발자의 씨앗을 심다, SOL 프로젝트 인턴 인터뷰 1내일의 AI 개발자의 씨앗을 심다, SOL 프로젝트 인턴 인터뷰 2