見出し画像

SIGDIAL2024 @京都 参加報告

こんにちは!PKSHA Technology でアルゴリズムエンジニアをしている髙﨑 環です。
2024 年 9 月 18 日〜 20 日に京都で開催された「SIGDIAL 2024」に、弊社はゴールドスポンサーとして協賛しており、当日はアルゴリズムエンジニアの渡邉・髙﨑の計 2 名が参加しました。本記事では、SIGDIAL 2024 で印象に残った事項を振り返りたいと思います。

髙﨑 環 (AI Solution 事業本部 アルゴリズムエンジニア)
東京大学大学院情報理工学系研究科電子情報学専攻 修士課程を修了。大学院では、長期間にわたる対話履歴を扱う雑談対話システムを研究。新卒として PKSHA Technology へ参画し、現在は大規模言語モデル・対話システム関連の研究開発および社会実装に従事。

SIGDIAL 2024 について

SIGDIAL 2024 は、談話・対話についての最先端の研究成果を発表する国際学会です。今年は第 1 回の SIGDIAL 2000 から 25 周年で、京都大学で 3 日間の本会議が開催されました。今年は完全オフラインでの開催で、66 件の発表に対し、161 人の参加者が現地に集まり議論を行いました。
また、本会議前の 2 日間では、YRRSDS 2024 というワークショップも開催されました。こちらは若手研究者を対象としたもので、今回私は参加していないのですが、音声対話分野中心に盛んな議論が行われたと聞いております。

会議では採択論文の口頭・ポスター発表が行われました。対話システムを構築する時に必要な要素技術の改善について、非常に具体的な話を聞くことができ、大変勉強になりました。また、Panel Discussion も開催され、大規模言語モデル(LLM)がますます台頭するなかで、対話システムの社会実装に必要な研究的・社会的な課題にはどのようなものがあるのか、様々な観点で議論されていたことも非常に印象的でした。

また、非常に京都らしいプログラムも多く、2 日目の Excursion では平安神宮を訪問し、その後の Banquet では琴の音色を聴きながら和食を堪能しました。

平安神宮
Banquet の様子

今回、弊社はゴールドスポンサーとして SIGDIAL 2024 に協賛しており、チラシの配布や、スポンサーセッションへの登壇をさせていただきました。

PKSHA スポンサーセッションの様子

弊社が R&D、企業との AI Solution、AI SaaS と幅広い事業で NLP・対話領域を社会実装していることが、参加者の皆様に伝わっていれば幸いです。

配布した PKSHA チラシ

研究紹介

ここからは SIGDIAL 2024 に採択された論文の中から、私が特に興味深いと感じた研究を紹介します。

MindDial: Enhancing Conversational Agents with Theory-of-Mind for Common Ground Alignment and Negotiation [Qiu et al.]

物品の取引やジョブオファーの交渉などの会話では、自分と相手の認識の違いを意識し、合意に至るという複雑な能力が求められます。LLM の登場により生成発話のクオリティが向上した現在も、自分と他者の視点を理解しながらどのように対話を行うべきかの追求は十分ではないと考えられています。
そこでこの研究では、自己と他者の認識を明示的に予測し、その結果を用いて応答生成を行う、MindDial というフレームワークを提案しています。実験では、共通の友人リストを一致させるタスクと、旅行の荷造りを交渉するタスクで検証し、提案手法を用いることでより高いタスク成功率を達成することを示しています。
将来対話システムをより社会に浸透させていくためには、対話の中でユーザの行動背景を深く理解するなど、今まで以上に複雑なタスクを解く必要が出てくると考えられます。AI Solution, AI SaaS 双方で対話システムの社会実装を推進している我々としても、非常に参考になる研究でした。

Estimating the Emotional Valence of Interlocutors Using Heterogeneous Sensors in Human-Human Dialogue [Jiang et al.]

対話は言語のやり取りを主体としているものの、音声の抑揚や相手の表情といった情報を用いることで、対話相手の感情を正しく理解することができると考えられており、近年の研究ではマルチモーダルな対話システムが提案されることも多いです。実際、対話デバイスに取り付けられるセンサーがより多様になれば、言語・画像・音声以上の情報を駆使し、より高性能な対話システムが構築できるかもしれません。
この研究の大きな貢献は、さまざまなセンサーによって話者の発する信号を測定し、新たな日本語対話データセットを作成したことです。具体的には、音声・映像に加え、生理信号・視線・動作信号も測定し、対話収録後に話者が精神状態に関するラベルをシーンごとにアノテーションしています。また、作成データの分析も行なっており、生理信号の中でも心拍数が最も感情の変化と関連性があると報告しています。
スマートフォンやウェアラブルデバイスの発展・普及に伴い、人間から獲得できる身体的情報も増えると考えられる中で、このような入力の多様化に関する研究は、対話システムのさらなる発展のために重要だと感じました。

InteLLA: Intelligent Language Learning Assistant for Assessing Language Proficiency Through Interviews and Roleplays [Saeki et al.] (Best Paper にも選定)

言語学習においては口頭での練習の重要性が高く、学習教材として対話システムを活用することが期待されています。そのような対話システムでは、会話を通じて話者の言語能力を適切に見極め、有益なフィードバックをすることが重要だと考えられます。
この研究では、インタビューとロールプレイ対話を通じて話者の言語能力を最大限引き出し、より妥当性の高い評価を実施するフレームワークを提案しています。より妥当な評価をするために、対話の途中でユーザの言語能力の上限を見極め対話内容を調節しているほか、ユーザが発話をしやすいようにシステムの発言タイミングを調整したり、マルチモーダルな入力をもとに多様な観点で妥当な FB を生成したりなど、ユーザの使用感に対する工夫も実施されています。
さらに、評価の際には、日本の大学生と高校生を対象としてフィールドテストを実施したり、システム運用上の課題にも触れていたりと、実社会で使用されるという観点を強く意識されている点も非常に印象的でした。

おわりに

弊社が SIGDIAL のスポンサーをしたのは今回が初めてでした。研究発表や懇親会などを通じて、対話に情熱を注ぐ参加者の皆様と交流することができ良かったです。特に、弊社の業務と密接に関わる研究発表や、対話という研究分野の未来をディスカッションするプログラムもあり、普段対話システムの社会実装を行う我々にとって大変意義深いものでした。また、対話と一口に言ってもさまざまな切り口で研究をされている方が多く、多様なジャンルの発表に触れながら、対話分野の奥深さ・面白さを再確認することができました。このような素敵な学会を運営してくださった運営の皆様に、改めて感謝申し上げます。

―INFORMATION―
株式会社 PKSHA Technology では、自然言語処理技術を含むアルゴリズムを社会に実装していく仲間を募集しています!私たちと、技術の社会実装を通じて社会に新たな価値を創造しませんか?
NLP 関連の研究開発に従事されてきた方はもちろん、社会実装に興味を持つ若手の方も、新卒入社や長期インターンなどで活躍されています。ご興味のある方は、是非各種サイトよりご応募いただけると幸いです。

アルゴリズムエンジニア【26 新卒】

アルゴリズムエンジニア【中途採用】

カジュアル面談も受付中です!Wantedly はこちら