NLP2024 @神戸参加報告

2024年6月4日 15:51

こんにちは！PKSHA Technology でアルゴリズムエンジニアをしている髙﨑環です。2024 年 3 月 11 日〜 15 日まで神戸で開催された「言語処理学会第 30 回全国大会（NLP2024）」に、弊社はプラチナスポンサーとして、アルゴリズムエンジニアの渡邉・佐藤・呉・星野・髙﨑と、人事／広報を担当している内藤の計 6 名で参加いたしました。本記事では、NLP2024 で印象に残った事項を振り返りたいと思います。

髙﨑環｜PKSHA Technology AI Solution 事業本部アルゴリズムエンジニア
東京大学大学院情報理工学系研究科電子情報学専攻修士課程を修了。大学院では、長期間にわたる対話履歴を扱う雑談対話システムを研究。新卒として PKSHA Technology へ参画し、現在は大規模言語モデル・対話システム関連の研究開発および社会実装に従事。

大会概要

今回は神戸国際会議場で開催されました。昨年に引き続きオンライン・オフラインのハイブリッドで参加可能で、参加者数は 2,045 人（当日参加者を除く）、発表論文数は 599 件と過去最高を記録し、NLP 界隈の活発さを感じる会でした。大会スローガンは「30 年のプロンプトから未来を創造する」で、LLM の登場により激動の時代を迎える中で、過去 30 年の歩みを振り返りつつ、その知見をプロンプトとして未来を創造するという思いが込められています。

本大会では「LLM 分析評価」「LLM データ構築」「LLM 手法提案」のように、LLM を冠した発表セッションが新たに数多く設けられました。NLP2023 では「緊急パネル：ChatGPT で自然言語処理は終わるのか？」が急遽開催されたことを踏まえると、この 1 年間で LLM が研究・開発のテーマとして馴染み、LLM の研究・開発に取り組む NLP プレイヤーが増加したことがわかります。

また、NLP を生かしたアルゴリズムの社会実装を加速させるべく、弊社はプラチナスポンサーとして協賛しておりました。

スポンサーブースには多数の方々にお越しいただき、弊社の取り組みについてご説明することができました。弊社が R&D、企業との Solution 案件、AI SaaS と幅広い領域で NLP 技術を社会実装していることや、LLM などの最新技術を様々な形で実用に落とし込めていることが皆様に伝わっていれば幸いです。

また、今年はノベルティとして、トートバックと PKSHA ロゴ刻印キーキャップを配布いたしました。「ロゴがおしゃれ」「キーキャップグッズは目新しい」などご好評いただき、非常に嬉しかったです。

また、弊社メンバーの多くが公式・非公式の懇親会に参加いたしました。個人的には、アカデミアや企業の垣根を超えて様々な方と出会い、NLP の今後の未来について議論することができ、大変嬉しかったです。
ちなみに、神戸市街からすぐ近くに、縁結びで有名な生田神社もありました。弊社でも参拝したメンバーがいたのですが、縁結びのご利益があったのか、意外な共通点がある方や話せたらいいなと思っていた全ての方に出会えたそうで、感謝の意を込めて学会終わりにもう一度お参りに行ったとのことです。

研究紹介

599 件の研究発表の中で、PKSHA の参加メンバーが特に興味を持った面白そうな研究を、いくつか簡単に紹介したいと思います。

JDocQA：図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング [大南ら]

実用的な文書の中には、テキストに加え図表が添付されていることが多く、文書を参照した質問応答には、テキスト情報に加え視覚的情報の理解が必要です。しかし、マルチモーダルな質問応答を解くモデルを構築するためのチューニング用データセットは少なく、特に日本語文書を扱う研究は非常に少ないです。本研究では、図表付き日本語文書質問応答データセットとして JDocQA を提案しています。JDocQA はオープンアクセス可能な形式で構成され、分野・形式ともに多様な文書を収録しています。実験では、JDocQA を用いて LLM のファインチューニングを行うことで、OpenAI GPT-4 のゼロショット性能を上回る性能を達成していると主張しています。また、回答不能問題を作成・収録しており、回答不能問題で学習を行うことがハルシネーションの抑制に効果的であることも示しています。弊社は「最先端技術の社会実装」に様々な形で取り組んでいるのですが、その中でも多種多様なドキュメントに基づく問い合わせ応答のニーズは非常に高いです。当データセットの整備及び、検証から得られたハルシネーション抑制に関する知見の公開は、学術的・社会的な貢献が非常に高いと判断し、PKSHA Technology 賞として選定させていただきました。おめでとうございます。

#NLP2024 #スポンサー賞「PKSHA Technology賞」の受賞論文はこちらです．受賞者のみなさま，おめでとうございます！株式会社 PKSHA Technology様，賞を選出していただきありがとうございました． pic.twitter.com/8jiu0Dyv4t
— NLP2024 KOBE (@anlpmeeting) March 15, 2024

敵対的発言を取り入れた議論による言語モデルの学習強化と推論力の向上 [Loemら]

複雑な思考や批判的思考を行うタスクにおいて、LLM が人間や他モデルと議論を交わすことで、性能を大幅に向上させることが報告されています[1] 。しかし、LLM は議論をしながら学習（パラメータ更新）を行なっているわけではないため、推論時の議論能力には限界があると考えられます。本研究では、LLM の学習段階で議論を能動的に取り入れることで、推論時の議論能力を向上させる手法を提案しています。まず学習データの一部を用いて一般的なファインチューニングを実施し、その後残りの学習データを用いて議論過程を学習させます。具体的には、モデルを用いて学習データに対する回答を生成させ、その回答に対する反論を別のモデルで生成させます。このようにして得られた議論データ（学習データの正解データ、モデルの回答、別モデルによる反論）を用いてモデルを学習させることにより、議論を踏まえた学習を行います。実験の結果、議論データによるファインチューニングにより議論能力が顕著に向上し、様々なタスクにおいて性能を改善する効果があることが確認されています。このような研究は、LLM の推論能力を引き上げ、社会実装の可能性を広げるために非常に重要だと認識しており、今後も動向を注視していきたいです。
[1] Harnessing the Power of Intelligent LLM Agents

対話の齟齬と介入による解消：LLM を用いた検討 [清水ら]

対話における齟齬は、スムーズなコミュニケーションを阻害する重大な要因であるものの、齟齬を対象とした自然言語処理の研究は少ない上、対話の中で稀にしか発生しない齟齬を特定しデータ作成することは難易度が高いと考えられます。本研究では、LLM を利用して恣意的に齟齬を含む対話を生成し、分析を行なっています。データセットの作成のためには、複数の LLM エージェントの間で知識の差を持たせる必要があり、それを実現できる設定として「言葉当てゲーム」を採用しています。実験では、LLM エージェントを追加し、第三者介入の有無による性能比較を実施し、介入機能によって齟齬の解消に役立つ可能性があると主張しています。AI による対話エージェントの実装が加速する中で、対話で発生する現象に立ち返り、アルゴリズムに反映させることは極めて重要であると考えているため、大変参考になる研究でした。
なお、弊社でも対話関連の研究には注目しており、弊社ブログにて記事を公開しておりますので、是非ご覧ください。

長距離相互作用する文脈依存言語における相転移現象 -言語モデルの創発現象を統計力学の視点で理解する- [都地ら]

Transformer ベースの LLM の性能が学習データ量・学習時間・パラメータに依存しているというスケーリング則[2] や、パラメータ数の増大で性能が大きく改善する創発能力[3] など、LLM の優れた性能に言及する研究が多く報告されています。これらの現象は統計力学の相転移現象との類似性が指摘されており、これまでに文脈自由文法を題材とした分析が実施されているものの、複数の研究で共通の見解がまだ得られていない状態です。本研究では、さらに強力な文法である文脈依存文法をモデリングし、数値計算を通して自然言語と相転移現象の関係性を分析しています。実験の結果、長距離相互作用を考慮した文脈依存文法の複数の変換規則に関する振る舞いが、温度パラメータ T のある点で急激に変化することを確認し、非自明な相転移現象が発生することを主張しています。素朴な言語モデルを統計力学の視点で捉え、言語モデル特有の性質を含みつつ先行研究[4] を含む形でモデル化している点が、物理的な視点からも NLP の視点からも非常に興味深かったです。
[2] Scaling Laws for Neural Language Models
[3] Emergent Abilities of Large Language Models
[4] Absence of phase transition in random language model

感想・最後に

私は学生時代、言語処理学会で過去 3 回発表したことがあったのですが、新型コロナウイルスの流行もあり、全てオンラインでの参加だったため、今回が初めての現地参加でした。会場の人の多さを目の当たりにし、日本で NLP に関わるプレイヤーの多さを改めて実感することができました。また、普段あまり関わることができていない分野を聴講したり、参加者の皆様と深く議論することができたりと、大変有意義な時間を過ごすことができ、現地参加することができて良かったと感じております。
また、現地情報やセッションの誘導・資料共有など、様々な情報が Slack に集積されており、ストレスなく学会に参加することができました。このような素敵な学会を運営いただいた委員の皆様、そして参加者の方々に改めて感謝申し上げます。来年は長崎で開催とのことですが、弊社も是非参加したいと思います。

―INFORMATION―
最後になりますが、PKSHA Technology では、機械学習や NLP を活用したアルゴリズムを共に社会実装する仲間を募集しています。自然言語処理に長年従事してきた方はもちろん、toC、toB プロダクト企業の技術者、省庁や金融系のビジネス職を経てエンジニアに転身された方など、様々なキャリアの方がアルゴリズムエンジニアとして活躍しています。実社会で毎日活用されるアルゴリズムを自分の手で創り上げたい方は、以下の採用サイトから是非ご応募ください。

▼ 26 新卒：アルゴリズムエンジニアサマーインターンシップ

▼ 26 新卒：アルゴリズムエンジニア長期就業型インターンシップ

▼アルゴリズムエンジニア【中途採用】

▼カジュアル面談も受付中です！Wantedly はこちら

みんなにも読んでほしいですか？

オススメした記事はフォロワーのタイムラインに表示されます！