最近、3か月間続いたSOLプロジェクトの第2フェーズが完了しました。韓国外国語大学の2人のインターンが、LETRチームで自然言語処理 (NLP) の専門家になるための最初の旅を始めました。初年度と同様に、参加したインターン生は、メンターシップを通じてLETRチームの研究者と交流し、協力し、実践的なプロジェクトを体験する時間がありました。
SOLプロジェクトは、これらの貴重な体験を記録しています。そこで、この3か月を誰よりも熱心に過ごしたインターンのイ・ユンジェとイ・ホジェに再会しました。この経験を通して学んだこと、感じたこと、考えたことについて、彼らが語ったストーリーをチェックしてください。
みんな好奇心旺盛です。簡単に自己紹介をお願いします!
ユン・ジェ: こんにちは!SOLプロジェクト2の「翻訳者業績評価」プロジェクトに参加したイ・ユンジェです。私は韓国外国語大学で英語コンバージェンス・ソフトウェアを専攻していましたが、もうすぐ卒業します。現在の主な関心事は、言語教育と自然言語処理の統合、言語データ分析による洞察の導出です。
良いニュース: こんにちは!イ・ホジェです。また、韓国外国語大学で英語を専攻しながら自然言語処理の研究を続けましたが、今後高麗大学の大学院で勉強を続ける予定です。このインターンシップに先立ち、私は韓国データ産業開発院の「データユースキャンパス」コースでチャットボット関連のプロジェクトに参加していました。
なぜ自然言語処理 (NLP) の分野に興味を持ったのですか?
ユン・ジェ: 私は空軍の通訳者として軍隊に勤めていましたが、当時の自然言語処理技術に関するニュースを見て興味を持ちました。言語学とコンピュータサイエンスを組み合わせて、言葉のせいで不安を感じている人を直接助けるサービスを作れるのは魅力的だと思いました。
良いニュース: コンピュータサイエンスと言語学の境界にある計算言語学にとても興味がありました。言語学は人工知能の発展に貢献できると思っていました。そこで私は主に言語学を教室で勉強し、それ以外の時間はコンピューターで勉強しました。その過程で、自然とコンピューターへの関心が高まり、人工知能や自然言語処理の研究に専念するようになりました。
SOLプロジェクトに参加しようと思ったきっかけを教えてください。
ユン・ジェ: 2021年に同校が開催したデータユースキャンパスのイベントで、Twig Farm LETRチームの講演に招待されました。その後、SOLプロジェクトの参加者募集のアナウンスを見ました。実際に応募したのは、どのようなトピックが研究されているのか、どのようにデータが構築されているのかを確認し、自然言語処理の作業を実際に体験できる絶好の機会だと思ったからです。
良いニュース: ビジネスにおける自然言語処理に興味がありました。実は、今回応募する前から、本やプロジェクトを通じて自然言語処理について1年半勉強していました。しかし、実際の現場ではどんなプロジェクトが行われているのか、どんなデータが使われているのか、コラボレーションや意思決定はどのように行われているのか興味があったので、支援しました。
SOLプロジェクトで何をしましたか?
ユン・ジェ: プロジェクトの各部分の進捗状況はノートに記録されました。これを毎週月曜日に週次作業報告として提出し、水曜日のミーティングを通してフィードバックを受けながらプロジェクトに取り組みました。
具体的には、QE(品質推定)やn-gramベースの評価尺度など、翻訳者の業績評価尺度に関する以前の論文を探すことから始めました。次に、まずHTER(人を対象とした参照による翻訳エラー率)やDA(直接評価)などの人間による業績評価尺度を決定し、次にプロジェクトで使用するパラレルコーパスデータを構築して改良しました。その後、QEモデルトレーニングも一部担当し、テスト結果を確認し、最終報告書に反映して終了しました。
良いニュース: 「翻訳者の品質評価」を自動化できるモデルを研究・開発しました。「翻訳品質」への懸念から始めて、ディープラーニングを使って自動化する方法を探しました。その過程で、BERT Score や Sentence-BERT などは、セマンティックの類似性に基づいて使用できるという結論に達しました。その後、モデリングから微調整へと進み、モデルがさまざまな状況に基づいて翻訳テキストの品質をどのように評価するかをテストし、観察しました。
チームメンバーと一緒にプロジェクトに取り組むのはどんな感じでしたか?
ユン・ジェ: プロジェクトの方向性を定め、タスクを明確に区分することがいかに重要かを経験から学びました。その過程で、私も多くのことを考えました。また、学校で学んだ人工知能や自然言語処理の違いや、実際のビジネスで必要な知識も感じることができ、インターンシップ後に何を補うべきかについて新たな方向性を定めるきっかけにもなりました。
良いニュース: 何より、コラボレーションとコミュニケーションが大切だということを実感できました。一人で頑張るのではなく、自分の考えを共有して話し合ったとき、物事はこれまで考えていなかった良い方向に進むことができると感じることが多かったです。そのため、他の人の意見に注意深く耳を傾け、積極的に自分の意見を述べようとしました。
プロジェクト終了時に最も印象に残っている作品は何でしたか?
ユン・ジェ: 前処理されたデータでも、並列コーパスの性質上、慎重に絞り込む必要があることに気付きました。リファインメントの際のミスや、PyTorchのようななじみのないライブラリを使う過程でのミスなど、いろいろと紆余曲折がありましたが、幸いにも周りの人の助けのおかげで少しずつ解決することができました。やっと最終レポートを書いてプロジェクト全体を見ることができ、大きな達成感さえ感じました。
良いニュース: 私たちのプロジェクトは多言語モデルに基づいています。不思議なことに、韓国語、英語、日本語などいろいろな文章を入れましたが、同じような意味の文章が実際に高得点になるのが面白かったです。どこまで行けるか気になったので、学校で中国語、ロシア語、フランス語など、さまざまな言語を専攻している友達に連絡して、関連するさまざまな言語の文章を入手してモデルに入れました。そして、みんなで一緒に結果を見たとき、何がすごかったか今でも覚えています 😂
プロジェクトの最後に特に言いたいことはありますか?
ユン・ジェ: まず、チームメンバーのホジェに謝罪と感謝の気持ちを伝えたいと思います。データ改良中のミスで全体のスケジュールが崩れ、実際の実装段階に入ってもすぐにはわからない部分が多かった。困難に直面するたびにホジェと話すことで、多くのことを学び、正しい方向性を見つけることができました。
また、LETRチームの研究者およびメンターとして助けてくれたマネージャーのキム・ヒョンアとマネージャーのコ・ウォンヒにも感謝します。データセットの構築や評価尺度の選択について、さまざまな角度からのアドバイスなど、色々な面でのご検討のおかげで無事終了することができました。
最後に、オリエンテーション中に「大きな夢を持て」と励ましてくれたTwig FarmのCEO、ペク・ソンホの言葉を今でも覚えています。将来は、大きな夢にふさわしいスキルを持った研究者になるために頑張ります。
良いニュース: コ・ウォンヒ課長、5日後に0.71相関係数(相関係数、相関係数)の夢を片付けてすみません 😅😥 データユースキャンパスのメンターとしてたくさんお世話になり、プロジェクト開始時の「複合領域モデル」の核となるアイデアのおかげで無事に終えることができました。ありがとうございます!
今後取り組んでみたい分野と達成したい目標を教えてください。
ユン・ジェ: 翻訳者の業績評価尺度は過去20年間で急速に発展した分野であるため、先行研究は広範囲に及んでいます。今回も短期間で大量の論文を探さなければならず、最新のAIアーキテクチャや自然言語処理の研究動向についても学ぶことができました。このおかげで、今回学んだ知識をもとに、もっと多様な自然言語処理プロジェクトにも挑戦したいという思いがあります。今後は、韓国語の方言翻訳者の実装、韓国語の自然テキスト生成、文体変換、音声合成など、いろいろな研究をしたいと思っています。
また、長期的な目標は、さまざまな理由で言語生活に困難を抱えている人々を支援するソリューションを実装し、提供することです。
良いニュース: まだよくわかりませんが、まずは大学院に進学して、人工知能の常識推論に関する研究に挑戦したいです。言語学が人工知能の発展を長期的に支援できる方法を見つけて、この2つの分野が一緒に発展できるような研究をしたいと思っています。私は個人的に言語学の研究を始めたので、最終的な目標は、後で言語学と人工知能を結びつけられるような研究をすることです。
最後に、今後プロジェクトに参加する後輩たちにメッセージをお願いします。
ユンジェ: 最も重要なことは、進捗状況を体系的に記録することです。各トピックには広範囲にわたる調査が必要なため、各チームはチーム全体がフィードバックできる形で、研究内容をタイムリーに記録する必要があります。そうすれば、途中で迷子になることはありません。
時間管理も非常に重要です。毎日時間を取って、プロジェクトに全額投資するとよいでしょう。
良いニュース: 頑張れば、間違いなく良い結果が得られます!Google Colab(Google Colab)のランタイムが中断されて学んだことが失われたり、論文の内容がわからなくても、「どうしてこれができないの?」👀 圧倒的な状況に遭遇しても... 頑張って一歩一歩解決できる!
みんな!この素晴らしい機会をいただき、おめでとうございます。そして、皆さんがプロジェクトを無事に終えることを願っています!
一緒に見るのに良いコンテンツ
未来のAI開発者の種をまく、SOLプロジェクトインターンインタビュー1未来のAI開発者の種をまく、SOLプロジェクトインターンインタビュー2未来のAI開発者の種をまく、SOLプロジェクトインターンインタビュー3