2024-01-24 思い込み

mizue
·

今日は朝早くからアラートが上がっていた。クリティカルなものではないが、今後のパフォーマンスに影響する可能性があるので調査が必要なものだ。

アラートは上がっているものの、いつもセットで出てくる警告ログが出ていなかった。何でだろう。ログを頼りに調べていたので、ログがでない状態では調査が進まない。今回は別の何かが起因しているもだろうか。

調査が長引きそうだったので、一旦お昼休憩にした。そこで、ふと気がついて、午後から調べてわかった。

一定の条件でログが出なくなっていたのだ。

ログが出ないから問題がないのではなく、ログが出ないという問題だった。

こういうことはよくある。最近アラートが出ないと思ったら実は止まっていた、という感じのやつだ。問題ない状態であることも定期的にWatchしなければならない。

今回は、ログではなく、オブザーバビリティツールのデータから情報を取得して調査は無事に終わった。

ログはとても有効な情報だが、依存しない運用にしていきたいなあ。

@mizue
Healthy Programmer