LREC-COLING 参加レポート

2024年7月1日 13:27

こんにちは、PKSHA Technology アルゴリズムエンジニアの矢野千紘です。5 月 20 日から 5 月 25 日にわたって、イタリアのトリノで開催された自然言語処理の国際会議、LREC-COLING に参加し、ポスター発表を行いました。
私は 24 年新卒で PKSHA Technology に入社しており、入社 1 ヶ月でインターンの成果を発表することになりました。この note では発表までの経緯や、投稿論文の詳細、学会を通して私が得たこと・感じたことについて書きたいと思います。

矢野千紘 | AI Solution事業本部アルゴリズムエンジニア
名古屋大学大学院情報学研究科知能システム学専攻修士課程を修了。大学院では自然言語処理、主に意味解析の研究に従事し、修了後新卒として PKSHA Technology へ入社。現在は自然言語技術の研究開発および社会実装に従事。

発表論文について

私たちはひとつのモデルで日本語含む複数の言語を扱うことが可能な、Multilingual Sentence-T5（m-ST5）という多言語文埋め込みモデルの提案を行いました。このモデルは、文埋め込みモデルに言語モデルのサイズや性能における向上が反映されていないという背景から、巨大な言語モデル mT5-xxl のエンコーダ部分に訓練を行ったモデルとなっています。

論文はこちらで、学習済みモデルは hugggince face で公開しています。

また採択に関するプレスリリースも出しています。

m-ST5 は巨大な encoder-decoder モデルである mT5-xxl のエンコーダ部分に訓練を行った多言語文埋め込みモデルで、言語横断的な文埋め込みの品質を計るタスクにおいて高い性能を示した他、日本語を含む 3 つの言語において単一言語の文埋め込みの品質評価タスクで高い性能を示しました。

m-ST5 の訓練方法

訓練には 2 種類のデータセットを利用しました。1 つ目は、単言語の文埋め込みモデルである SimCSE で利用された英語の NLI（Natural Language Inference）データセット（en-NLI）です。2 つ目は、15 の言語からなる多言語の NLI データセット（XNLI）です。NLI は、2 つの文の関係性が entailment（含意）、contradiction（矛盾）、neutral（中立）のいずれであるかを判定するタスクであり、NLI データセットは、文ペアとその関係性を示すラベルから構成されています。

私たちのモデルの訓練では、単言語の文埋め込みモデルである SimCSE と同様に、正例ペアの埋め込みを近づけ、負例ペアの埋め込みを遠ざけるように行います。en-NLI を利用した場合は、英語の文ペアの関係性が含意関係であれば正例、矛盾関係であれば負例として学習を行います。XNLI を利用した場合は、複数の言語にまたがって含意関係・矛盾関係にある文ペアをランダムに選択して学習を行います。

上図の例では、en-NLI を利用した場合、”I’m a teacher.” と ”I’m in school.” が正例になります。XNLI を利用した場合、”I’m a teacher.” と ”我在上学”（和訳：私は学校にいます）が正例になります。この訓練方法は mSimCSE というモデルで提案されたものであり、LaBSE などで使用されていた大量の対訳文を利用する方法と比較して、以下のようなメリットがあります。

少ないデータ量で効率的に学習を進めることができる
翻訳データ対を用意する必要がない

訓練は計算コストを抑えるために少量のパラメータのみ学習可能とする LoRA を利用して行いました。

実験結果

m-ST5 は、複数の多言語の評価タスクにおいて高い性能を示しました。m-ST5 は、学習に対訳文を利用しないという同じ条件で訓練された既存の多言語モデルである mSimCSE の性能を上回りました。また、大量の対訳文を利用して大規模に訓練を行ったモデル（LaBSE）に対しても競争力のある性能を示しました。

また、単一言語内での文埋め込みの品質についても評価を行いました。その結果、日本語においては東北大 BERT を用いたベースラインよりも高い性能を示すことがわかりました。

さらに、モデルのサイズと性能の相関についても実験を行いました。モデルサイズを大きくするほど性能も向上する傾向が見られました。特に英語のデータセットを利用した場合の多言語性能の向上が著しいことから、モデルサイズは言語間転移能力に大きな影響を与えることがわかりました。詳細は論文を参照ください。

LREC-COLING 投稿の経緯

2023 年 2 月、修士課程の学生だった私は PKSHA Technology のインターンに参加しました。私は以前から言語資源が乏しい言語のための自然言語処理技術を進歩させることが必要だと考えており、学生時代も多言語単語埋め込みを活用した研究を行っていました。

英語や日本語のように資源が豊富な言語は少数で、ほとんどの言語は低リソース言語と呼ばれる言語資源の乏しい言語です。近年自然言語処理の技術は急速に進歩し続けていますが、この進歩は低リソース言語圏には届いていません。自然言語処理の中でも文埋め込みは多数の応用が存在する重要な技術ですが、低リソース言語において単一言語での精度向上には限界があります。そのため、多言語を混ぜて扱う文埋め込みが重要になります。この技術は異なる言語間での意味的な類似性を捉えることにより、言語に依存しない文の表現を作成することができます。 PKSHA は、多言語が混在するドキュメント群を対象とした高精度な検索や問い合わせ応答の実現など、社会実装における多言語文埋め込みの有効性に共感してくれました。そのため、私のインターンの目標は多言語文埋め込みモデルの再現実装とその改善となりました。

最初の 1 ヶ月は毎日、その後は週 1 日〜 3 日を目安に勤務し、5 月頃には提案手法の大枠を完成させました。そこまでの道のりで多くの課題にぶつかりましたが、毎勤務日に研究議論の場を設けていただいたおかげで、モチベーションを高く保ちつつ、NLP に造詣が深いメンターの方々から新しい視点を得て、研究を深めることができました。国際会議への投稿は、自分の論文執筆経験の少なさから、かなり高いハードルに感じていました。もちろん、卒業論文や学会発表のための日本語論文を教員の指導のもとで執筆した経験はありましたが、英語論文を自力で執筆することは到底無理だと思っていました。しかし実際には、メンターの方々から構成や表現について多くの指導をいただき、かなりスムーズに投稿まで進めることができました。

発表内容については共著者だけでなくアルゴリズムエンジニア全員からフィードバックを受ける機会をいただきました。様々なバックグラウンドの方からコメントをいただき、わかりにくい点や曖昧な点を洗い出すことができました。自分の研究発表に対して文脈が飛んでいる部分を見つけることは難しいため、とてもありがたかったです。
以上がテーマ選定から国際会議での発表までの経緯となります。特に論文執筆や発表準備において、かなり恵まれた環境で進めることができました。関わってくださった方々、ありがとうございました！

LREC-COLING 2024 について

LREC-COLING 2024 は、言語資源（言語研究に利用される辞書や大量のテキストデータなどのデータやツール）の研究が中心の会議である LREC と、古い歴史を持つ言語処理系の会議である COLING が合同で開催した会議で、イタリアのトリノで行われました。

2 つの会議によって合同開催された特殊な会議ということもあり、投稿数は 3471 件にも登りました。そのうち 1554 件が採択され、発表形式の内訳は口頭が 275 件、ポスターが 837 件、リモートが 442 件でした。セッションごとの投稿数は ”Corpora and Annotation” が最多で 471 本、続く ”Applications involving Language Resources and Evaluation” が 284 本でした。両方とも言語資源に関連するセッションであり、会議の特色を表す結果となっています。現地参加人数は 2322 人と大規模な会議で、そのうち日本からの参加者は 141 人でした。会議は 3 日間のワークショップ、チュートリアルと、3 日間の本会議から構成されていました。

本会議期間中、発表は口頭発表とポスター発表合わせて約 10 セッションが並列で行われていました。

ポスター発表は 5 セッションがひとつの広い会場で並列開催されていました。セッションごとに移動する必要がないので、幅広い研究発表を聴講することができました。

私の発表は本会議の最終日に行われました。そのため、通りすがりに興味を持ってくださった方々に加え、会議期間中に知り合った方々も見に来てくださり、有意義な議論を行うことができました。提案モデルに対し、中国語での性能はどうか？ドイツ語でのクラスタリングでは利用可能か？といった質問をいただき、日本から離れた場所での社会実装に繋がることに夢を感じました。

最終日にはディナーイベントがありました。立食形式のイベントではライブも行われ、非常に盛り上がりました。

おわりに

初めての国際会議に参加させていただき、とても多くの学びを得ました。英語での議論や、人との繋がりは貴重なものでした。
言語資源に関連した研究発表の他に、LLM に関連する研究発表も多く見られ、特に LLM の評価についての研究は非常に興味深かったです。単純な性能だけではなくハルシネーションやバイアスなど、様々な観点からの評価ベンチマークの提案が行われており、大変勉強になりました。こういった最先端の評価結果を活用して、LLM の社会実装を進めていきたいです。

―INFORMATION―
PKSHA Technology では自然言語処理を含むアルゴリズムを社会に実装していく仲間を募集しています。私がこの会議に参加する契機となった長期インターンやサマーインターンの募集もありますので、ご興味のある方はぜひ応募ください！

▼ 26 新卒：アルゴリズムエンジニア（データサイエンティスト）

▼ 中途採用：アルゴリズムエンジニア（データサイエンティスト）

▼ カジュアル面談も受け付けています：Wantedly はこちら