「SRE NEXT 2024」イベントレポート
こんにちは、PKSHA Technology SRE の表です。
2024 年 8 月 3 日、4 日に開催された「SRE NEXT 2024」に参加しましたので、レポートをお届けします!
SRE NEXT とは?
SRE NEXT は、信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンスです。 同じくコミュニティベースの SRE 勉強会である「SRE Lounge」のメンバーが中心となり運営・開催されています。「SRE NEXT 2024」のテーマは「Beyond NEXT」です。「SRE NEXT 2023」で掲げた価値観である Diversity、Interactivity、Empathy を大切にしつつ、SRE の担う幅広い技術領域のトピックや組織、人材育成に対するディスカッションを通じて、新たな知見を得られる場として運営されています。
2020 年、2022 年、2023 年と受け継がれているカンファレンスである「SRE NEXT」は、様々なセッションや各社のブースがあります。SRE 以外の方の参加も多く、様々な視点から活発に議論ができる場です。
参加の経緯
PKSHA では、順調に AI SaaS プロダクトが増えてきている一方で、プロダクトによって SRE プラクティスの浸透度が差が生じているのが現状です。そこで直近では Embedded SRE だけではなくプロダクト横断した SRE の取り組みも始まっています。
プロダクト横断の取り組みはまだまだ始まったばかりで手探りで進めているため、セッションや他社様の実績をキャッチアップし、プロダクト横断の SRE の取り組みに活かせればと思い参加しました。
また、2022 年、2023 年は個人としてオンライン開催の SRE NEXT に参加していました。今年はオフライン開催ということで、他社様の SRE 文化について直接議論したり、直接登壇者への質問をしたいと考え参加しました。
会場の様子
まず会場に入ると質問ボードがありました。
これらを見ると、「SLO の策定はできているが、これから活用していくフェーズ」の方が多くいるのだなと思いました。
そのほかにも、様々な企業がブースを出しており、いろいろなアンケートをとっていました。
株式会社 MIXI 様ブース
「SRE の立ち上げで悩んでいること/困っていること」では、人手不足に対する圧倒的な同意率。やはり SRE 文化の醸成やプラクティスの実践を行う上で人手が足りなくなるというのはみなさん悩まれているそうです。
株式会社オープンロジ様ブース
どれも血の気の引く内容ですね。。。
これを乗り越えてきた SWE/SRE の方々は本当に尊敬します。
このように様々な企業がブースを出展しており、議論を活発に行える空間でした。
各種セッションの様子
セッションでは幅広い企業の第一線でご活躍されている方々たちが登壇されており、発表以外にも Keynote や、LT、パネルディスカッションなどがありました。全セッションのスケジュールは以下でご確認いただけます。
どのセッション内容も非常に興味い内容でしたが、PKSHA に SRE プラクティスを実施していく上でヒントになったセッションのサマリーと感想を以下に記載します。
「Becoming SRE・SRE って何から始めればいいの?」
登壇者
・LINEヤフー株式会社:maru さん
・株式会社スーシェイク:吉田 拓真さん
・株式会社LayerX:星 北斗さん
・株式会社サイバーエージェント:柘植 翔太さん
このセッションでは、SRE プラクティスを実践していくための準備や方法が議論されました。
また、SREがプロダクトをどこまで理解すべきかといった議論もされていました。
私も 2024 年 7 月から「PKSHA Voicebot」の 1 人目 SRE としてジョインしたばかりなので、今回のセッションはこれから SRE プラクティスを実践していく上でいいヒントになりました。
「プロダクトのスケールによって顕在化するリスクをどう対応するか」
登壇者
・株式会社dinii:浦山 裕史さん
こちらのセッションでは、プロダクトがスケールしていく中で顕在化するリスクへの対応に関するプラクティスをお話しいただきました。エラー対応や怪しいメトリクスの対応について、プロダクトが成長していく中で、以下の課題が出てきます。
潜在的なリスクに対する対応が埋もれがち
属人化
優先度がわからない
それらを解決するための「SystemRiskRecord」というドキュメント・運用フローを用いて、下記を可視化し、優先度をつけます。
現状のインパクト
潜在的インパクト
インシデントが発生しうる可能性
また、各レコードの中には概要、ログ、原因、対応方針、NextAction などがドキュメント化されているそうです。これによって、属人化を防ぐことができ、プロダクトがスケールしていく中でのリスクを潰していくことができると発表されていました。
PKSHA もプロダクトがどんどん拡大していく中で、リスク管理にはより気を遣っていかなければいけません。さっそく「SystemRiskRecord」の運用を試して、プロダクトのスケールに負けないリスク管理を探求していきたいです。
「SREの技術トレンド 2024 」
登壇者
・一般社団法人SRE NEXT:代表理事 / 株式会社スタディスト 北野 勝久様
・株式会社Topotal:rrreeeyyy さん
・さくらインターネット株式会社:yuuk1 さん
・株式会社メルカリ:deeeet さん
このセッションでは、運用における LLM 活用に関する議論が出ており非常に興味深かったです。例えば以下のような話が議論されていました。
現段階ではまだ LLM で代替できることは限られています。しかし、ポストモーテムの自動作成や障害訓練で足りないロールを LLM エージェントで代替するなどは現段階で実現可能であり、既にサービスも出てきている認識です。
セッションの中でも SRE のプラクティスはどんどんサービス化していき、developer がそれを享受していくと仰っていました。私自身も、運用での LLM 活用に関しては探索していきたいと考えています。
「Enabling SRE Guide Map」
登壇者
・株式会社日本経済新聞社:清水 赳様
このセッションでは SRE プラクティスを各プロダクトに普及させるために Guide Map を作成/運用した内容についてお話しいただきました。
現在 PKSHA の AI SaaS 事業では横断 SRE 組織を立ち上げたばかりで、これから各プロダクトに対してベースラインとなる SRE プラクティスの実施を検討していますし、これからもプロダクト数がどんどんスケールしていく想定なので、各々が信頼性の高いプロダクトとなるようガイドマップ運用に取り組みたいと思います。
また、このセッション内では SRE プラクティスの普及にフォーカスした内容でしたが、成熟したプロダクトでも SRE プラクティスの普及率が低下してないかのチェック事項に利用できうる内容だったので、どのフェーズのプロダクトにおいても活用できると感じました。
最後に
PKSHA は現在、横断 SRE 組織の立ち上げに伴い、様々なことにチャレンジしている最中です。今回の SRE NEXT 2024 では、今後 PKSHA がチャレンジしていく中での大きなヒントがたくさん得られました。この学びを活かし、より信頼性の高いプロダクトを目指していきたいと思います。
PKSHA では、ともに AI の社会実装を加速させる仲間を募集しています。
採用サイトや Wantedly から応募が可能ですので、是非ご覧ください!
カジュアル面談も大歓迎です!
▼SRE【AI SaaS】
▼その他採用職種一覧
▼Wantedlyはこちら