Incident Response Meetup#1(2024/01)に参加した

maru
·

この勉強会にオフラインで参加した。資料もわかりやすく、また登壇者の方の実体験ベースの話が聞けたので非常に満足でした。運営の皆様、登壇者の皆様、ありがとうございました。

さて、本来なら各セッションに対して、一言ずつ感想を書いた方が良いかもしれないのですが、うまくセッションごとの感想をまとめるのが苦手なので、聞いてみて私が思ったことを率直に書いていきたいと思います。

(今、生成AI x インシデントレスポンスが私のマイブームなので、その偏見が多量に含まれています)

多くの人が回答を欲しがってそうな部分

1. 理想はわかった。でも現実は?

  • 作業担当者とインシデントコマンダーはスキルセットが異なるけど

  • インシデント自体少ないので実地で覚える機会は万人にはない

  • 「早く復旧したい」と思っている人が多く、障害を学習機会にしにくい

  • 障害が発生した時に居合わせる人数がそもそも分業できるほど多くない

  • 対応手順を規定しても、緊急時に守れないことがある

質疑や登壇、懇親会の中であった主な回答

  • 体系的に座学も含めて教育する(木村さん)

  • 規定した対応手順から外れた「応用」をすることはある(上司さん)

    • でも、事前の読み物として作っておいて入社時に読み合わせし、対応時も上から順番に行うことを徹底しているので、基本的には手順通りに進む

  • 開発環境で過去の障害を再現して訓練する(白鳥さん)

    • でも、この訓練のあとの実際の障害で、訓練通りにいかないこともあった

maruの意見

TRPG形式の障害訓練を生成AIとやるのが一つの回答になるかなって思っている。前準備はいらない。一人で始められる。ファインチューニングやRAGを組んでうまいことやれば、自社の過去の障害を再現できるかもしれない。たぶん近い将来的に、「Waroom」とか「PagerDuty」が公式機能で出してくれると思うので、それを待っても良い。

例として、私がゲーム感覚で暇なときに遊んでるプロンプトを紹介する。slack botとしてChatGPTを使ってる組織であれば、slackでみんなでワイワイやるのも楽しいと思う。

---

あなたはこれからTRPGのGM(ゲームマスター)を務めます。このTRPGは、実際に発生する可能性のあるシステム障害をテーマにした模擬訓練であり、プレイヤーはWebサービスを開発するバックエンドのソフトウェアエンジニアの役割を演じます。シナリオは、担当しているWebサービスの予期せぬシステムダウンからスタートし、プレイヤーは原因特定、影響範囲の評価、修復作業、そして事後対策までのプロセスを通じて問題を解決します。ゲーム終了時には、プレイヤーの対応を振り返り、その簡潔なまとめと改善点の提案を行うことで、次回の訓練へのフィードバックを含めた総括をします。始めてください。

---

2. 障害対応、精神衛生上辛いんだけど

  • 心拍数が上がるし、単純にストレスが辛い

  • でも、障害対応を常に特定の人が行うことが多い

質疑や登壇、懇親会の中であった主な回答

  • 実際、心拍数ぶち上がるし、元気になることがある(安藤さん)

    • ので、パニックにならない範囲でそうなることは自然

  • 誰かと一緒にやるだけで違う(白鳥さん)

    • 常に複数人でやると、精神的負担も減る

maruの意見

完全に同意で、ただ私のやっているライフハックでいうと、一瞬空白を作ることを意識してます。たぶんアンガーマネジメントとやりたいことは似てるはず。

  • 障害が発生したらコーヒーを入れ直す(一瞬席を立つ)

  • 今開いているブラウザのタブを全部一度消す

  • 飴やガムを食べる

3. 作業担当者を邪魔せずに、ステークホルダー向けのストック情報を作るには?

  • 作業担当者は作業に集中して欲しいので、進捗をフロー情報で流したい

  • インシデントコマンダーはそのフロー情報を解釈して、定期的にストック情報として要約してレポートを更新したい

  • 要約する際に、作業担当者に説明のための負担を最小限にしたい

質疑や登壇、懇親会の中であった主な回答

  • インシデントコマンダーは、最低限作業担当者の言っていることを理解できる程度の技術力(元エンジニア上がりなど)は必要そう(安藤さん)

    • 解釈のための技術力が必要であって、既存のアーキテクチャへの理解が必須ではない

maruの意見

フロー情報をストック情報に要約する部分はかなり生成AIの得意分野でもあるので、もし障害対応のログをslackに残すようなWork Out Loudを実現できてるなら、一度chatgptなどで要約してもらって、要約内容の確認だけ作業担当者にお願いしても良いと思う。

というか、たぶんこれもWaroomとかPagerDutyとかが近い将来に対応するのでは?と勝手に思っている。既にあったらすいません。

[追記] Waroomは既にこの機能があり、PagerDutyもEarly Accessが始まっているそうです。

以上、感想ブログなのか、意見表明ブログなのかわからない記事になってしまいましたが、非常に学びの多い勉強会でした。ありがとうございました。