・昨日の日記、"2024-01-02"っていうタイトルにしていた。まだ、2025年がこの体に馴染んでいないようだな...。
・David N. Blank-Edelman『SREをはじめよう』読了。
Webシステムの信頼性は、いまや企業と組織の信頼性にも大きな影響を及ぼしています。そのシステムの信頼性を確保するのがSRE、つまり「サイトリライアビリティエンジニア」と呼ばれる職種、あるいは「サイトリライアビリティエンジニアリング」という技能、活動です。本書は、自身もSRE/DevOps/システム管理の分野で40年のキャリアを持つ筆者による、個人がSREになるための、また組織がSREを導入し、発展させるための指針を平易かつコンパクトにまとめた書籍です。「SREとはどのようなものか」「SREになるには何をすればよいのか」「SREを導入するにはどのように始めればいいのか」「するべきこと、避けるべきこと」といった、SREにまつわるさまざまなトピックを幅広く解説します。SREという技能/概念をゼロから学びたい人、SREを目指すエンジニア、またSREを組織に導入することを検討している、導入したけれど思ったより上手く行っていない組織や企業にとって、多くの発見のある書籍となるでしょう。
・内容としては上記の通り。SREとはなにか、個人レベルでSREとして振る舞うには、SREを組織の中に組み込むには、そしてSREを成長させていくのか等のノウハウ、知見が綴られていた。
・個人的に驚くような視点や知見等はあまりなかったんだけれど、インシデント発生後のレビュー/ポストモーテムに関する内容は興味深かった。「なぜなぜ分析」は場合によっては状況が発生した複数の要因を無視してしまう可能性を孕んでいること、何が起こったかにフォーカスすること、何が起こったのかを明確にするミーティングとそれに対する対処は別のミーティングにすることによって冷静な視点でアクションを決めることができること、など。