今日は朝早くからアラートが上がっていた。クリティカルなものではないが、今後のパフォーマンスに影響する可能性があるので調査が必要なものだ。
アラートは上がっているものの、いつもセットで出てくる警告ログが出ていなかった。何でだろう。ログを頼りに調べていたので、ログがでない状態では調査が進まない。今回は別の何かが起因しているもだろうか。
調査が長引きそうだったので、一旦お昼休憩にした。そこで、ふと気がついて、午後から調べてわかった。
一定の条件でログが出なくなっていたのだ。
ログが出ないから問題がないのではなく、ログが出ないという問題だった。
こういうことはよくある。最近アラートが出ないと思ったら実は止まっていた、という感じのやつだ。問題ない状態であることも定期的にWatchしなければならない。
今回は、ログではなく、オブザーバビリティツールのデータから情報を取得して調査は無事に終わった。
ログはとても有効な情報だが、依存しない運用にしていきたいなあ。