見出し画像

YANS 2024 @梅田 参加報告

こんにちは!PKSHA Technology でアルゴリズムエンジニアをしている星野悠一郎です。2024 年 9 月 4 日 〜 6 日に大阪で開催された「第 19 回 YANS シンポジウム(YANS2024)」に、弊社はゴールドスポンサーとして協賛しています。当日はアルゴリズムエンジニアの渡邉・佐藤・呉・古々本・矢野・星野と、人事/広報を担当している内藤の計 7 名で参加し、2 件のポスター発表を行いました。本記事では、YANS2024 で印象に残ったいくつかの事項を振り返りつつ、今回運営側としても参加した矢野から簡単な感想もお届けしたいと思います。

星野 悠一郎 (AI Solution事業本部 アルゴリズムエンジニア)
早稲田大学大学院先進理工学研究科物理学及応用物理学専攻 博士後期課程単位取得退学、先進理工学部 助手。大学では主に重力理論における非線形現象の研究に従事。新卒として PKSHA Technology へ参画後は、質問応答関連技術や LLM 高速化の研究開発および社会実装に従事。

矢野 千紘(AI Solution事業本部 アルゴリズムエンジニア)
名古屋大学大学院情報学研究科知能システム学専攻 修士課程を修了。大学院では自然言語処理、主に意味解析の研究に従事し、修了後新卒として PKSHA Technology Technology へ入社。現在は自然言語技術の研究開発および社会実装に従事。

YANS2024 について

YANS は、自然言語処理や計算言語学などの分野における若手研究者や技術者の研究促進と交流を目的としたシンポジウムで、今年から言語処理学会の若手支援事業のひとつとして実施されることになりました。
今年は「異分野交流」をキーワードとして、音声・画像処理などの周辺分野をはじめ、人文・社会学系の学生・若手の方々も交えて活発な議論ができるようにと、「ことばがつむぐ、新たなつながり〜分野の境界を超えて〜」というスローガンが掲げられています。

今回は大阪の梅田スカイビルで開催されました。例年通り、ハッカソン・チュートリアル・ポスター発表・ラウンドテーブル・招待ポスターといったコンテンツがあり、大会スローガンの通り、幅広い分野にわたる内容が盛り込まれていると感じました。なお、詳細につきましては運営から開催報告が公開されましたので、あわせてご参照ください。

NLP を生かしたアルゴリズムの社会実装を加速させるべく、弊社はゴールドスポンサーとして協賛いたしました。

NLP2024 で使用したポスター

スポンサーブースには多数の方々にお越しいただき、弊社の取り組みについてご説明することができました。弊社が R&D、企業との Solution 案件、AI SaaS と幅広い領域で NLP 技術を社会実装していることや、LLM を活用した最新技術を様々な形で実用に落とし込めていることが皆様に伝わっていれば幸いです。また、YANS のスポンサーとしてオフライン参加するのは昨年に続いて 2 回目となりますが、学生の皆さんと接する中で弊社の認知度が高まっていることを実感しており、非常に嬉しく思います。

YANS 分野交流ハッカソン with 言語処理学会 30 周年記念事業

毎年恒例の YANS ハッカソンが今年も開催されました。今年は「OpenAI API を用いた言語芸術生成リーダーボードハッカソン」と題され、93 名もの参加者が集結。大喜利と川柳の 2 テーマに分かれ、1 チーム 6 名程度でお題に対して気の利いた回答を行うシステムの構築に挑戦しました。

いずれのお題もハッカソン運営の方が独自に準備してくださったオリジナルデータセットを利用しました。AI に言葉遊びの才能を授けるという、挑戦しがいのあるクリエイティブな課題に、頭を悩ませながら挑戦しました。

大喜利タスク
大喜利部門では次の 3 タイプのシステム構築が求められました。

  1. 画像に対して、いい感じにボケる(image to text)

  2. テキストお題に対して、いい感じにボケる (text to text)

  3. 画像のなかに空欄が空いているので、いい感じにボケて埋める(image & text to text)

川柳タスク
川柳部門では、以下のタイプのシステム構築が求められました。

  1. 与えられた画像に合った川柳を詠む(image to text)

  2. 与えられたお題のテキストに合った川柳を詠む(text to text)
    基本的には 5・7・5 の 17 音で構成されていることも求められました。

4 時間という短い開発時間ながら、自動評価による生成結果の選別や fine-tuning といった基本アプローチはもちろん、”画像のメインテーマを外してお題に取り込む”、”女子高生に古語の知識を持たせると斬新な対話になるのでは”など新たなアイディアから生み出されたチーム独自のアプローチも興味深く、大変参考になりました。

また、ハッカソンの醍醐味は技術的な挑戦だけでなく新しい出会いにもあります。普段接する機会の少ない学生の皆様との交流は貴重な経験となりました。皆様の柔軟な発想と最新技術への造詣は私たちに新たな視点と刺激を与えてくれました。

なお、弊社の稲原が所属していたチーム 6「ボケもコードも仕込み中」が YANS 運営委員特別賞を受賞いたしました。チームメイトの皆様、本当にありがとうございます!

表彰の様子

ポスター発表

今回は、前回を上回る 200 件近い発表がありました。弊社からは、「大規模モデルの蒸留を用いた日本語文埋め込みモデル」(筆頭)と「政策質問応答システムにおけるハルシネーション抑制手法の評価」(共著)の 2 件を発表しました。弊社から発表した内容は以下です。

大規模モデルの蒸留を用いた日本語文埋め込みモデル [矢野ら]
本発表は、24 年新卒社員の矢野の研究です。

矢野さんのポスター発表の様子

近年、大規模言語モデルを利用した巨大で強力な文埋め込みモデルが提案されているものの、実応用においては推論コストが高いという課題から利用可能なシーンは限られています。本研究では大規模モデルを小規模なモデルに蒸留することで、高性能かつ低コストで利用可能な日本語文埋め込みモデルを 2 種類構築しました。モデル詳細等は、下記リンクの方をご参照ください。

1、GLuCoSE v2:検索に特化した日本語文埋め込みモデルで、LLM(大規模言語モデル)の知識を軽量なモデルに蒸留し、低コストで高性能な検索性能を実現しました。

2、RoSEttaRoFormer-based Sentence Encoder through Distillation):長い入力系列に対応した日本語文埋め込みモデルで、最大 1024 トークンを扱うことができます。相対位置埋め込み(RoPE)を取り入れ、蒸留と追加学習を行い、先行研究と同等以上の性能を達成しました。

昨年同様、これらのモデルを商用利用可能なライセンスで公開しています。

また、弊社からスポンサー賞を授与した発表は以下の 1 件です。おめでとうございます。

日本語に特化した汎用テキスト埋め込みモデルの開発 [塚越ら]

本研究では、実社会でのニーズがますます高まる RAG において、重要な要素となる高精度な日本語文埋め込みモデルを構築されています。構築ノウハウに加え、必要となる多様な訓練データセットや高性能な Reranker なども商用利用可能なライセンスで公開されており、分野のさらなる発展に寄与するだけでなく、社会実装を進める上でも重要な知見となることから、弊社よりスポンサー賞を贈呈させていただきました。

モデルやデータセット、およびテクニカルレポートは下記リンクで公開されています。

昨年に続き、弊社 の Vision の一部である“共進化”の掛け声でサイコロを投げ、塚越さんに副賞を選んでいただきました。

「せーのっ!共〜進化!」

運営として参加してみて

こんにちは、アルゴリズムエンジニアの矢野千紘です。私は PKSHA からの発表に加え、YANS の運営委員としても本シンポジウムに参加しました。
YANS 運営委員としては企画を担当させていただいており、ハッカソンをはじめとした多くの企画やセッションに関わりました。特に思い出深いのがスポンサースタンプラリーで、参加者により楽しんでいただけるよう、2 種類の景品を用意しました。

制作したスポンサースタンプラリーの景品であるTシャツとラバーストラップ

景品の製作は 2 人の委員で担当し、私はラバーストラップのデザインと、Tシャツのデザイン・入稿を担当しました。ラバーストラップのデザインは初めてで、貴重な経験をさせていただきました。景品は皆様からご好評いただき、とても嬉しかったです。

また、昨年度参加して楽しかった企画であるラウンドテーブルにも携わりました。ラウンドテーブルは全ての参加者がグループに分かれ、特定のテーマについて議論する企画です。ここでは、400 人近くの参加者にそれぞれのグループへ移動してもらうことが課題でした。昨年度は参加証にグループ名を印刷していましたが、本年度は都合上、同じ方法を取れませんでした。そこで、PKSHA の社内でも活用されている Slack bot を利用して、全参加者にグループ名などの情報を DM することにしました。当日は参加者の方々のご協力、委員による会場での誘導のおかげもあり、スムーズな移動を行っていただくことができ、ラウンドテーブルで議論する時間を予定よりも多く取ることができました。

他にもハッカソンでは 551 の豚まんを参加者全員に差し入れたり、スポンサーセッション・招待公演では司会をさせていただいたりと多くの経験を積むことができました。本シンポジウムは私にとって初めて運営として関わるイベントで不安も大きかったのですが、参加者の皆様のご協力や他の委員の方々の準備、機転により無事終了することができました。

会期中は多くの参加者とスポンサーが交流する様子が見られました。私自身、学生時代に言語処理学会にスポンサーとして来ていた PKSHA Technology のエンジニアとご飯に行き、そこで就職を決めたので、こういった交流の機会創出に携わることができ、嬉しく思っています。

おわりに

弊社の YANS への参加は今回で 4 回目、オフライン開催となってからは 2 回目となります。今年も学生の皆さんとご飯に行く機会があり、その中で学生の方々の熱意をより強く感じることができました。また、ポスター発表だけでは聞けないような、研究を始めたきっかけなども伺えたのが印象的でした。

さらに、今年からポスターを事前に Slack 上で公開するように変更していただいたおかげで、賞の選定も以前よりスムーズに進行できました。様々な分野の発表を聴講したり、参加者の皆さんと深く議論することができたりと、大変有意義な時間を過ごし、現地参加することができて良かったと感じております。このような素敵なシンポジウムを運営してくださった委員の皆様に、改めて感謝申し上げます。

PKSHA スポンサーブース

―INFORMATION―
最後になりますが、株式会社 PKSHA Technology では、自然言語処理技術を含むアルゴリズムを社会に実装していく仲間を募集しています!
私たちと、技術の社会実装を通じて社会に新たな価値を創造しませんか?NLP 関連の研究開発に従事されてきた方はもちろん、社会実装に興味を持つ若手の方も、新卒入社や長期インターンなどで活躍されています。ご興味のある方は、是非各種サイトよりご応募いただけると幸いです。

アルゴリズムエンジニア【26 新卒】

アルゴリズムエンジニア【中途採用】

カジュアル面談も受付中です!Wantedly はこちら