初めてSLOを運用する時に気をつけておきたいこと

mizukmb
·

教科書的な運用方法は「エラーバジェットを使い切ったらSLOの回復のために新規機能の開発をSRE権限でストップさせる」ことだけど、いきなりこれをやるのはまあ無理。よほどそのエンジニアが組織で信頼されていない限りはビジネスサイドも巻き込んでSLOを運用するのは難易度高いと思う。

SREという文化が組織に根付いてないとこの運用は大体失敗すると思う。

SLOを設定するよりも、これを運用に乗せる方がよっぽど難しい。出来たばかりの目標に対して、エラーバジェットが切れたら開発止めるんで!!っていきなり宣言しても困ると思う。

じゃあどうするか、というとSLOを気持ち低めに設定するところから初めるとよさそう。型にはまった運用を始める事よりも、まずはみんなにSLOの雰囲気を知ってもらう事が重要だと思う。

あとはビジネスサイドにも共有する機会を設ける事。定例があればそこに5分だけもらえますかと断っていれてもらうとか。

SRE本に書かれているようなプラクティスを実践してみると、定着させる方が難しい事に気付かされる。SLO自体も微妙な指標を選択すると機能しないし、機能しないSLOをみんなで見てても「はいそうですか」と思って終わってしまうので、簡単ではないよなあと感じる。


SLOに関しては、CUJをしっかりと定義しておくとちゃんと機能してるな~という感触のあるものが出来上がってくる。SLOという手段を目的化せず、しっかりとお客様のための信頼性に向き合うことを常に考えて仕事をしたい。