見出し画像

「SRE NEXT 2024」イベントレポート

こんにちは、PKSHA Technology SRE の表です。
2024 年 8 月 3 日、4 日に開催された「SRE NEXT 2024」に参加しましたので、レポートをお届けします!

表 亮佑 | CS事業本部 Voicebot事業部 Software Engineering グループ SRE
日本大学にて国際関係学を専攻。前職では Embedded SRE として成長産業支援領域における社内向けプロダクトで開発と SRE 文化の醸成を担当。その後、2024 年 7 月より PKSHA Communication に参画。現在は Voicebot の SRE として運用課題の解決に向けて、SRE プラクティスの実践を行う。

SRE NEXT  とは?

SRE NEXT は、信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンスです。 同じくコミュニティベースの SRE 勉強会である「SRE Lounge」のメンバーが中心となり運営・開催されています。「SRE NEXT 2024」のテーマは「Beyond NEXT」です。「SRE NEXT 2023」で掲げた価値観である Diversity、Interactivity、Empathy を大切にしつつ、SRE の担う幅広い技術領域のトピックや組織、人材育成に対するディスカッションを通じて、新たな知見を得られる場として運営されています。

2020 年、2022 年、2023 年と受け継がれているカンファレンスである「SRE NEXT」は、様々なセッションや各社のブースがあります。SRE 以外の方の参加も多く、様々な視点から活発に議論ができる場です。

参加の経緯

PKSHA では、順調に AI SaaS プロダクトが増えてきている一方で、プロダクトによって SRE プラクティスの浸透度が差が生じているのが現状です。そこで直近では Embedded SRE だけではなくプロダクト横断した SRE の取り組みも始まっています。
プロダクト横断の取り組みはまだまだ始まったばかりで手探りで進めているため、セッションや他社様の実績をキャッチアップし、プロダクト横断の SRE の取り組みに活かせればと思い参加しました。
また、2022 年、2023 年は個人としてオンライン開催の SRE NEXT に参加していました。今年はオフライン開催ということで、他社様の SRE 文化について直接議論したり、直接登壇者への質問をしたいと考え参加しました。

会場の様子

まず会場に入ると質問ボードがありました。
これらを見ると、「SLO の策定はできているが、これから活用していくフェーズ」の方が多くいるのだなと思いました。

質問ボード①
質問ボード②

そのほかにも、様々な企業がブースを出しており、いろいろなアンケートをとっていました。

  • 株式会社 MIXI 様ブース

「SRE の立ち上げで悩んでいること/困っていること」では、人手不足に対する圧倒的な同意率。やはり SRE 文化の醸成やプラクティスの実践を行う上で人手が足りなくなるというのはみなさん悩まれているそうです。

  • 株式会社オープンロジ様ブース

どれも血の気の引く内容ですね。。。
これを乗り越えてきた SWE/SRE の方々は本当に尊敬します。
このように様々な企業がブースを出展しており、議論を活発に行える空間でした。

各種セッションの様子

セッションでは幅広い企業の第一線でご活躍されている方々たちが登壇されており、発表以外にも Keynote や、LT、パネルディスカッションなどがありました。全セッションのスケジュールは以下でご確認いただけます。

どのセッション内容も非常に興味い内容でしたが、PKSHA に SRE プラクティスを実施していく上でヒントになったセッションのサマリーと感想を以下に記載します。

「Becoming SRE・SRE って何から始めればいいの?」

登壇者
・LINEヤフー株式会社:maru さん
・株式会社スーシェイク:吉田 拓真さん
・株式会社LayerX:星 北斗さん
・株式会社サイバーエージェント:柘植 翔太さん

このセッションでは、SRE プラクティスを実践していくための準備や方法が議論されました。

継続されているプロダクトでは、名前が違う(名前がない)だけで既に SRE プラクティスを実践している場合があるのでまずはそれらを保護して、整備していく。

課題を解決する際に、問題を浮き彫りにするだけでは SWE にとって納得が得られないケースがある。やることが何に繋がるかをセットで伝えることで解決に向けて社内を巻き込むことができる。

SWE も SRE も「プロダクトを良くしたい」というゴールを持っているはずなので、プロダクトの信頼性を作る前にまず SWE から信頼される存在になり、一緒に作っていくことが大事。

また、SREがプロダクトをどこまで理解すべきかといった議論もされていました。

お客様にとって最も価値を生んでいる箇所を探していくことが大事。たとえば、PdM に劣らない頻度でプロダクトを触ることで、関わるサービスや競合サービスを理解するなど。

このように、プロダクトを深く知ることで SLO の根拠を提示することができ、過剰に信頼性を担保している箇所があれば、信頼性を落として余剰コストを別のことに割く提案ができる。

私も 2024 年 7 月から「PKSHA Voicebot」の 1 人目 SRE としてジョインしたばかりなので、今回のセッションはこれから SRE プラクティスを実践していく上でいいヒントになりました。

「プロダクトのスケールによって顕在化するリスクをどう対応するか」

登壇者
・株式会社dinii:浦山 裕史さん

こちらのセッションでは、プロダクトがスケールしていく中で顕在化するリスクへの対応に関するプラクティスをお話しいただきました。エラー対応や怪しいメトリクスの対応について、プロダクトが成長していく中で、以下の課題が出てきます。

  • 潜在的なリスクに対する対応が埋もれがち

  • 属人化

  • 優先度がわからない

それらを解決するための「SystemRiskRecord」というドキュメント・運用フローを用いて、下記を可視化し、優先度をつけます。

  • 現状のインパクト

  • 潜在的インパクト

  • インシデントが発生しうる可能性

また、各レコードの中には概要、ログ、原因、対応方針、NextAction などがドキュメント化されているそうです。これによって、属人化を防ぐことができ、プロダクトがスケールしていく中でのリスクを潰していくことができると発表されていました。
PKSHA もプロダクトがどんどん拡大していく中で、リスク管理にはより気を遣っていかなければいけません。さっそく「SystemRiskRecord」の運用を試して、プロダクトのスケールに負けないリスク管理を探求していきたいです。

「SREの技術トレンド 2024 」

登壇者
・一般社団法人SRE NEXT:代表理事 / 株式会社スタディスト 北野 勝久様
・株式会社Topotal:rrreeeyyy さん
・さくらインターネット株式会社:yuuk1 さん
・株式会社メルカリ:deeeet さん

このセッションでは、運用における LLM 活用に関する議論が出ており非常に興味深かったです。例えば以下のような話が議論されていました。

障害が発生した場合に障害調査を Slack 上で議論するが、これらを LLM  に食わせてポストモーテムを作成する

障害訓練を行う際に関係者全員を集めることが難しい場合、足りないロールを LLM エージェントで代替し、訓練を進める。

GitHub、Datadog、Sentry を LLM に読み込ませればエンドポイントが全て明らかになり、エンドポイントに対するアクセスもわかるので、SLO 策定の一助となるのではないか

障害発生時時のテレメトリーデータを LLM に取り込むことで根本原因の推論/解消が可能になるかもしれない

現段階ではまだ LLM で代替できることは限られています。しかし、ポストモーテムの自動作成や障害訓練で足りないロールを LLM エージェントで代替するなどは現段階で実現可能であり、既にサービスも出てきている認識です。
セッションの中でも SRE のプラクティスはどんどんサービス化していき、developer がそれを享受していくと仰っていました。私自身も、運用での LLM 活用に関しては探索していきたいと考えています。

「Enabling SRE Guide Map」

登壇者
・株式会社日本経済新聞社:清水 赳様

このセッションでは SRE プラクティスを各プロダクトに普及させるために Guide Map を作成/運用した内容についてお話しいただきました。

プロダクト数が増えていく中で、Enabling SRE も各プロダクトがどこまで SRE プラクティスを実践できているかの把握が難しくなっていきます。
また、SWE たちも信頼性を高めるために何を行えばいいのかがわからず、自律的に実践できない場合もあるかもしれません。

信頼性を向上させるためのガイドマップを作成し、それぞれの SRE プラクティスに対して解説や対応方法、チェックリストをドキュメンテーションすることで、SWE チームは SRE プラクティスを自律的に実践でき、開発・運用の効率を改善し、付加価値の高いサービスを提供する足掛かりになります。また、SRE チームにとっても効率的に SRE プラクティスをプロダクトに反映できるようになり、量・質ともにスケールしやすくなるというメリットがあります。

現在 PKSHA の AI SaaS 事業では横断 SRE 組織を立ち上げたばかりで、これから各プロダクトに対してベースラインとなる SRE プラクティスの実施を検討していますし、これからもプロダクト数がどんどんスケールしていく想定なので、各々が信頼性の高いプロダクトとなるようガイドマップ運用に取り組みたいと思います。
また、このセッション内では SRE プラクティスの普及にフォーカスした内容でしたが、成熟したプロダクトでも SRE プラクティスの普及率が低下してないかのチェック事項に利用できうる内容だったので、どのフェーズのプロダクトにおいても活用できると感じました。

最後に

PKSHA は現在、横断 SRE 組織の立ち上げに伴い、様々なことにチャレンジしている最中です。今回の SRE NEXT 2024 では、今後 PKSHA がチャレンジしていく中での大きなヒントがたくさん得られました。この学びを活かし、より信頼性の高いプロダクトを目指していきたいと思います。

PKSHA では、ともに AI の社会実装を加速させる仲間を募集しています。
採用サイトや Wantedly から応募が可能ですので、是非ご覧ください!
カジュアル面談も大歓迎です!

会場の Job Boards にも書いてきました

SRE【AI SaaS】

▼その他採用職種一覧

▼Wantedlyはこちら