SOLプロジェクトはトゥイッグ・ファームのLETRチームです ニア そして マルチキャンパスこれは、優れた人工知能人材の育成を支援するために連携して機能するプログラムです。研修生が実践的なビジネスプロジェクトを体験し、LETRチームの研究開発文化を間近で体験する機会です。
プロジェクトの第1段階では、9人の将来の開発者が8月から3か月以上LETRチームに在籍しています。実際のシーンをより身近に体験できるように、私たちは3つのグループに分かれてチームプロジェクトに取り組みました。また、プロジェクトのメンタリングを通じて、業界のLETRチーム研究者と交流したり協力したりする時間もありました。
少し前に終了した1回戦の参加者9人の話を聞きました。実際にプロジェクトに取り組んでいる間は、みんな違った感じだったと思います。彼はこの経験を通して学んだこと、考えたこと、感じたことについて、正直な話をしてくれました。
2つ目では、「冒涜とヘイトスピーチの分類」プロジェクトに参加したテクヒョン、グホン、ジスの3人の話を紹介したいと思います。また、前回の「ナチュラル・コリアン」チームのインタビューをまだ見ていないなら、一緒に読むことをおすすめします。
未来のAI開発者の種をまく、SOLプロジェクトインターンインタビュー1
人工知能が最初の(?)なぜなら
ハロー自己紹介をお願いします!
テヒョン: こんにちは、「冒涜と憎悪表現の分類」プロジェクトに参加したキム・テクヒョンです。私は国民大学で英語と文学を専攻していて、言語学における語用論と統語論にとても興味がありました。言語学と大いに関係のある自然言語処理に出会い、人工知能の研究も始めました。
ガムレッド: 日本の早稲田大学国際教養学部を卒業しました。アメリカと日本の両方で約10年間海外に住んだ後、帰国しました。
索引: 私はコンピューターサイエンスを専攻しました。人工知能に興味があるので、複数のキャンパスで自然言語処理のコースを受講しました。
なぜ人工知能、特に自然言語処理に興味を持ったのですか?
テヒョン: もともとは言語学の修士課程に進むことが目標でしたが、ソフトウェア関連のリベラルアーツの授業を受けながら自然言語処理について学びました。当時は構文の授業を受けるのが楽しかったし、人工知能が文章の意味の問題を解決するにはどうすればいいのか興味がありました。「実在の人物と話すレベルでの会話はできるのか?」、「皮肉など、発話の意図とは違う表現の難しい文章は作れますか?」同じ疑問から自然言語処理を始めました。
ガムレッド: 私はもともとIT分野に興味がありましたが、自然と人工知能にも興味を持つようになりました。複数キャンパスのカリキュラムを履修して自然言語処理を学びました。
索引: たまたま学校で人工知能分野の産学連携プロジェクトに関わっていました。その結果は当時興味深く、その頃から人工知能に興味を持っていたと思います。その時に参加したプロジェクトは視覚の分野で、もっと多様な分野を経験したかったので、複数キャンパスの自然言語処理コースを受講しました。
SOLプロジェクトを体験した後
SOLプロジェクトに応募したきっかけを教えてください。
テヒョン: AI Hub や Everyone Words などの高品質なデータは公開されているものの、一般に扱えることは限られているように思われました。しかし、企業は企業データに直接触れることができ、計算資源からの支援も受けられるので、もっと多様な研究ができることを期待していました。その観点から見ると、SOLプロジェクトは研究力を伸ばす絶好の機会だったと思います。
ガムレッド: 実際のビジネスでプロジェクトがどのように行われているのか興味があり、実際に体験したいと思って応募しました。企業レベルのリソースを活用し、ビジネスのメンターと一緒に働くことで、もっと学ぶことができると思いました。
索引: 複数のキャンパスで自然言語処理コースを受講しているときに学びました。コース中、Twig Farm LETRチームのメンターと話す機会がありました。研究分野は面白く、雰囲気も良さそうでした。SOLプロジェクトに応募したのは、業界のメンターと一緒に実践的な仕事を経験できる絶好の機会だと思ったからです。
SOLプロジェクトでの経験はどうでしたか?
テヒョン: コミュニティ、ソーシャルメディア、ニュース記事のコメントによく見られるヘイトスピーチや攻撃的なコメントに対応できる、冒涜やヘイトスピーチの分類機能を目指しました。まず、関連する先行研究を分析して適切なデータを収集し、韓国のヘイトスピーチデータセットに合計9,600万件のデータを使用して事前学習モデルを微調整して分類器を完成させました。
また、事前にトレーニングしたモデルと冒涜とヘイトスピーチの分類モデルを Hugging Face (Hugging Face) にアップロードし、関心のある人が使えるようにオープンソースとして配布しました。また、ユーザーが自分の文章を入力して冒涜やヘイトスピーチの検出をテストできるデモサイトも作成しました。
ガムレッド: BERTベースの事前学習モデルが作成され、微調整によって冒涜とヘイトスピーチの分類器が作成されました。ソンシル大学で作ったソンシルバートをベンチマークし、他の例を参考にプロジェクトに合わせて調整しました。途中でエラーが多く、時間が遅れましたが、1つずつ解いてアウトプットを作成することができました。
索引: 参考になる先行研究やデータセットを見つけて分析し、事前学習モデルを実装するためのモデルを検討しました。また、EDA (探索的データ分析) と前処理による事前学習と微調整も終了しました。
サーバーでの開発のおかげで、さまざまなLinuxコマンドにアクセスできましたが、'screen'コマンドはまだ記憶に残っています。サーバーに接続せずにセッションを維持するのは本当に便利でした 👍 また、事前学習に使用したモデルはBERTベースのモデルで、ディープラーニングの代表的なフレームワークであるPyTorchとTensorFlowを使ってGPU環境で作業しました。ああ!最後のプレトレーニングモデルと微調整モデルはHuggingfaceで公開されています。😊
チームメンバーと一緒にプロジェクトに取り組んでみて、どんなことを感じましたか?
テヒョン: 何事も計画通りにはいかないと気づいた。普段は計画を立て、ある程度実行しますが、今回は事前学習モデルの構築や予期せぬエラーのキャッチに多くの時間を費やさなければなりませんでした。それでも、最初はエラーが起きたときはとても戸惑いましたが、時間が経つにつれて慣れ、チームメンバーやメンターと話し合うことで問題を解決できるようになりました。その過程で、エラー関連の情報を探す方法や、わかりやすく質問する方法も学ぶことができました。
ガムレッド: まだまだ足りないと思っていましたが、チームメンバーと一緒に多くのことを学ぶことができました。事前学習のコードをプロジェクトに合わせて修正するときにはあまり役に立たなかったのでとても残念でしたが、その過程で多くのことを学んだように感じられて良かったです。このプロジェクトに参加した結果、不足していたコーディングスキルをさらに向上させようと決心しました。
索引: プロジェクトに取り組んでいると、いつも見落としがちなことがありますが、チームメンバーと一緒に仕事をしたおかげで、お互いのギャップを埋めることの意味を感じることができました。自分が知っていることを共有し、知らないことを学び、一緒に良い結果を出すという貴重な経験をすることができました。
プロジェクトを終えたとき、最も印象に残っていることは何ですか?
テヒョン: 初めてチームメンバーに会ったときから最後の瞬間まで、すべてが忘れられない貴重な思い出でした。彼らは私と同年代の友人だったので、彼らはよく話し、リラックスした雰囲気の中で仕事をすることができ、私たちはお互いに多くの会話をし、親密さを築くことができました。誰も怠け者ではなかったですし、お互いにうまくやれたおかげで良い結果を得ることができたと思います。情熱的でやりがいのある人たちと一緒にいたおかげで、たくさんのことを学び、楽しかったです。
ガムレッド: 自分が参加したプロジェクトの成果を直接発表できて良かったです。ミスもたくさんありましたが、夜明けまで修正を重ねた後、最終的にチームメンバーと一緒にうまくいったことを見て、本当に誇りに思ったことを覚えています。
索引: 私が一番覚えているのは、職場環境を3回変えなければならなかったことです。事前学習モデルを構築するにあたって、大小さまざまなミスがありました。その中でも最大のエラーはOOM (Out Of Memory) で、サーバー環境のメモリが先行学習に対応できなかったため、別のサーバーに移動してリソースを最大限に活用する方法を探しました。結局、AI Hubが提供する高性能コンピューティングサーバーに応募したので、作業環境を合計3回変更しました 😂 おかげで、事前学習は多くのリソースを必要とする作業だということに気付きました。高性能コンピューティングリソースを確保し、無事に仕上げてくれたLETRチームにあらためて感謝します!
SOLプロジェクトとその先
どんな分野に挑戦したいか、将来達成したい目標は何か?
テヒョン: 人工知能を使って人々がスムーズにコミュニケーションできる会話システムを研究したいです。目標は、実在の人と話すレベルでの会話を可能にする人工知能、皮肉などの難しい表現を使って文章を生成する人工知能、常識に基づいて対話できる会話システムを開発することです。
ガムレッド: 私が挑戦したい分野は、機械学習とディープラーニングです。自然言語処理をやっているうちに、本当に難しく、自分には合わないということを学びました。複数のキャンパスで機械学習やディープラーニングを学ぶのが楽しかったので、その分野の大学院に進学する予定です。
索引: 画像処理と自然言語処理の両方を個人的に経験した結果、この2つの分野を組み合わせた画像キャプションに興味を持つようになりました。例としては、字幕の自動生成や動画コンテンツのプロットサマリーなどがあります。このように、便利な技術を持つ人の役に立つサービスを研究・開発するのが私の夢です。
最後に、今後プロジェクトを経験する後輩たちにメッセージをお願いします。
テヒョン: 自由な雰囲気なので、個人の努力が大切だと思います。特に目標が定まっていないと、最初はずいぶん迷うしかありません。チームメンバーとコミュニケーションをとり、問題を明確にし、まずはどのような結果が出るかという全体像を描くことが大切です。
また、メンターにたくさん迷惑をかけることをお勧めします!彼らは私たちよりも研究開発の経験が豊富なので、遠慮なく積極的に質問してください。
ガムレッド: ぶらぶらしたりいじったりすることで、多くのことを学び、感じることができます。チームメンバーを傷つけないように、お互いを思いやりながら仕事をすれば、良い結果を出せるでしょう。
索引: 進捗状況を段階的に記録することをお勧めします。おそらくさまざまなエラーに遭遇するでしょうが、Notionのようなツールを使って解決策を整理することは、後で間違いなく役に立ちます。
一緒に見るのに良いコンテンツ
言語処理エンジンであるLETRがテキスト言語に焦点を当てているのはなぜですか?未来のAI開発者の種をまく、SOLプロジェクトインターンインタビュー1