見出し画像

未来のソフトウエアを作る開発チームの紹介 〜PKSHA Speech Insight 篇〜

PKSHA グループでは、社会課題の解決のため、自然言語処理、音声認識技術等の AI を用いて、多くのユーザーが利用可能な PKSHA AI SaaS というプロダクト群を提供しています。PKSHA が、R&D を担う PKSHA ReSearch や AI Solution 事業により長年培ってきた技術、蓄積した業界ノウハウを活用したソフトウエアを、SaaS として手軽に導入することができます。この記事では、PKSHA AI SaaS プロダクトの1つである「PKSHA Speech Insight」の開発チームについてご紹介します。

梅田 晃一郎 | PKSHA Communication CS 事業本部 Speech Insight 事業部 ソフトウエアエンジニア
京都大学工学部電気電子工学科卒業。大学ではマルチモーダルな情報を活用した言語モデルによる議事録生成について研究。2024 年 4 月に新卒として PKSHA Communication に入社し、PKSHA Speech Insight のシステム開発全般を担当。

「PKSHA Speech Insight」とは?

「PKSHA Speech Insight 」(以下、PSI) は、コンタクトセンターで働くオペレーターの業務効率化と応対品質の向上を実現する AI 音声認識・コール分析ツールです。

音声認識 AI で通話内容をリアルタイムに書き起こし、そのテキストを PKSHA 独自の自然言語処理技術で解析、処理することで、コンタクトセンター業務におけるオペレーターの通話中業務や ACW(※)、管理者の管理業務を効率化します。

※ ACW(After Call Work)とは、顧客との通話が終わった後にオペレーターが行う処理(応対記録の入力や顧客からの意見の記録、後続対応への引き継ぎなど)のこと。

PSI は書き起こしのような標準機能だけでなく、コンタクトセンターの業務内容に合わせて「自動要約機能」や「FAQ 検索機能」などのオプション機能を組み合わせることができます。
たとえば、CRM に通話内容の要約を記入しているコンタクトセンターの場合、自動要約によって要約を数秒で作成することができるため、ACW の作業時間を大幅に削減することができます。

他にも管理者向けの機能として、「AI 感情分析機能」があり、オペレーターがお客様の感情に寄り添った適切な対応ができているかをチェックすることができます。

PSI は 2023 年 7 月に β 版がリリースされ、2023 年 11 月に v1.0 がリリースされたばかりのまだまだ若いプロダクトです。
v1.0 がリリースされてまだ 1 年弱ですが、すでに複数のコンタクトセンターに導入されており、効果を実感していただいています。

現在は LLM を活用したオペレーター支援機能の開発を進めています。今年の 8 月には、Amazon Bedrock を利用して対話内容から ACW 作業に必要な情報を自動で入力する機能をリリースしました。また、今後はさらに対応業界を増やしていくため、様々なユースケースに対応できるような機能を開発中です。

システム構成

PSI では、お客様にデスクトップアプリと Web 管理画面を提供しており、その裏でいくつかのバックエンドシステムが稼働しています。

デスクトップアプリ

主にオペレーターが利用するデスクトップアプリのシステム構成について説明します。デスクトップアプリでは、オペレーターが通話中に発話内容を確認したり、情報検索を行うことができます。通話終了後には、デスクトップアプリでメモを取ったり、要約内容の確認をすることもできます。
電話音声の取得方法にはいくつかの経路がありますが、電話対応を行なっている PC から取得することが多いです。デスクトップアプリは主に Flutter で作られていますが、PC のマイクとスピーカーの音声を取得する部分は Visual C++ で書かれています。デスクトップアプリでは、取得した音声を音声認識サーバーに送り、書き起こしテキストを受け取ります。このとき、テキストだけでなく音声認識エンジンから感情情報などの付加情報も受け取っています。

Web 管理画面

Web 管理画面では、対応履歴を確認したり、通話をリアルタイムでモニタリングすることができます。Web 管理画面は Next.js で実装され、AWS 上にデプロイしています。

desktop app UI 紹介
参照:「PKSHA Speech Insight:オペレーター編」

管理画面で確認できる情報は、オペレーター、スーパーバイザー、管理者によって異なっています。たとえばリアルタイムモニタリングは、スーパーバイザーがオペレーターの対応状況をリアルタイムにチェックするための機能です。会話内容がリアルタイムで表示されるだけでなく、カスタマーの怒りの感情が検知されたときや、エスカレーションすべき単語の発話が確認されたときに通知する機能などがあります。

PKSHA Speech Insight のモニタリング画面
参照:「PKSHA Speech Insight:マネージャー編」  

このような機能のバックエンド API は Echo で実装し、AWS 上にデプロイしています。データベースは Aurora PostgreSQL を利用しています。また、Web 管理画面でのリアルタイムな応対モニタリングを実現するために、SSE サーバーを用いています。新しい発話があったときは、バックエンド API から SSE サーバーを経由して Web 管理画面にイベントが通知され、Web 管理画面に発話が表示されます。

通話終了後に行う要約や、通話内容解析のための自然言語処理モジュールはそれぞれ別のサーバーで稼働しています。要約モジュールは自社で開発した要約モデルで GPU インスタンスでホスティングしています。また、FastHelp5 などの外部 CRM 連携オプションを契約されている場合は、通話終了時や要約終了時に外部 CRM への連携処理が行われます。分析処理や要約処理は実行に時間がかかったり、外部モジュールへの依存があったりするため、イベント駆動で処理を行うことで、実行順序の制御や処理プログラムの管理を容易にしています。

これらの仕組みは SQS + EventBridge + StepFunctions + Lambda によって構築しており、これら全てを自社で開発しています。

一方で、システムにおける課題も存在します。
初期開発時はまだコンタクトセンターへのドメイン理解が浅かったのですが、徐々にお客様が増えていき、コンタクトセンターへの理解が深まる中で、正しくドメインモデリングができておらず、使いやすい機能を提供できていない箇所が多くあることに気づきました。さらに、多くのお客様にご利用いただく中で、パフォーマンス面での課題も明らかになり、これに対応するためのアップデートも行っています。

開発スタイル

PSI 開発チームには現在 4 人のソフトウエアエンジニアが所属しています。開発チームと、インフラ運用、QA、BizDev、CS が密に連携しながらスクラムで開発を行なっています。スクラムのスプリントは 1 週間で、毎週木曜日をスプリントの区切りとし、プランニングやレトロスペクティブを行っています。スプリントの 1 週間ごとにリリースを行っているため、改善と新機能をすぐにお客様に届けることができます。

1 週間のスケジュール

スクラムにおけるタスク管理ツールは Linear を用いています。
起票はプロダクト関連メンバーであれば誰でも自由に起票が可能で、それを Product Owner / Product Manager / Tech Lead などでレビューし、優先度や着手時期、アサインの判断を行っています。
チーム内で要望や改善案などをすぐに提案できる風通しの良い環境です。

ソフトウエアエンジニア間だけでなく、CS、BizDev、QA チームやインフラチームが一丸となって開発しているからこそ、お客様の声をすぐに製品に反映することができます。また、常に改善を重ねながら、新しい機能やその価値を素早くお届けすることができています。

働きがい

確かな手触り感を持った開発

v1.0 がリリースされてからまだ半年ほどではありますが、実際にお客様に導入いただき効果を実感していただいているのは、CS、BizDev と開発チームの距離が近く、お客様のニーズに合わせた機能開発を進めることができているからだと感じています。

CS、BizDev は PSI を利用されている方や、導入予定のお客様の声を丁寧にヒアリングしていただいた上で、実際に必要な機能や改善案をまとめてくださいます。そのため開発チームからも、お客様の声に対してエンジニア視点での提案をしやすい環境でもあります。
PSI のプロダクト戦略会議には、BizDev だけでなくエンジニアも参加する機会があり、プロダクトの成長戦略や未来像を意識しながら開発に取り組むことができます。

一例として、今年の 7 月にはエンジニア、CS、BizDev 合同でプロダクト戦略を考える一泊二日の合宿を実施しました。

Biz・エンジニア合同で、プロダクトの戦略を考える合宿を行った時の様子
合宿での機能開発のための議論のアジェンダの一部
新卒エンジニアの僕も新機能開発について発表しました!

もちろんまだ成長段階のプロダクトですので、足りていない機能も多々ありますが、導入社数も増え、フィードバックや知見も溜まりつつあります。これからも職種を問わず、プロダクトに関わるチーム全員で協力しながら、さらにプロダクトを進化させていきます。

自社の強みを活かした機能開発

PKSHA は"人とソフトウエアの共進化”を Vision に掲げています。
この Vision を実現するべく、社内にはさまざまな職種の社員が在籍しています。

  • ソフトウエアエンジニア(SWE)や Bizdev:ソフトウエアの社会実装を担う

  • アルゴリズムエンジニア(AE):実装の過程で得られたデータや知見をもとにアルゴリズムなどの研究開発と社会実装を行う

研究開発で得られた知見を利用して未来のソフトウエアの社会実装を行い、さらに研究開発に活かしていくというループを絶えず回し続けているのが PKSHA の強みです。

PSI でも、今までの AE の知見を活かして作成された独自の自然言語処理モジュールや要約モジュールを利用しており、SWE と AE が協力してお互いの専門性を掛け合わせたサービスを提供しています。また、PSI では国内シェア No.1(※)である「PKSHA FAQ」と連携した機能も提供しています。

親和性の高いプロダクト同士が知見を共有して新たな機能を開発していくことができるのもチームの面白みの一つです。

※ 富士キメラ総研「顧客接点・CX 変革ソリューション市場分析 2023 年版」より(2023 年 7 月発刊)

おわりに

PSI をはじめ、PKSHA AI SaaS の各プロダクトでは、共に製品を成長させ、社会実装に取り組んでいく仲間を募集中です。
PSI は誕生してリリースされてから 1 年弱ほどの新しいプロダクトであり、これから多くのお客様にご利用いただけるように成長していく、非常に魅力的なフェーズにあります。興味を持っていただけた方は、ぜひ一度カジュアル面談にお申し込みください!

―INFORMATION―

▼ 中途採用:ソフトウエアエンジニアの募集要項はこちら

▼ 中途採用:全職種の募集要項はこちら

▼ PKSHA 採用サイト

▼ Wantedly はこちら