先日、監視しているサーバでアラートが発生しました。内容はディスクの容量不足です。
容量不足の対応は、原因を突き止めて容量を確保することになります。基本的な対応マニュアルは準備されているので難しい対応ではありません。今回、若手に任せてどのように対応するか見ることにしました。
誰かが大きなファイルを保存したんじゃないかな。
サーバを使用している全ユーザーに連絡してファイルを整理してもらおう。
いや、まずはサーバの状況を確認しよう。
監視ツールで直近のディスク利用率の推移を見てみよう。
1週間の推移を見るとある日から徐々にディスクの使用率が上がっているね。
誰かが何か作業しているのでは?
ディスク使用率はある日を境に一定のペースで増えている。
土日も増え続けているので人手によるものではないだろう。
恐らく自動的に何かしらのログが書き出されているのでは?
何のログかわからないし、さっさと全ユーザーに連絡した方が良いのでは?
まず何のファイルが増えているのかタイムスタンプやファイルサイズで検索して突き止めよう。ファイルから障害かどうか判断できるかも。あと、計画作業の影響があるのでディスク容量が増え始めた日に誰が何の作業をやっていたのかも調べよう。
対象ログを突き止めたよ。
作業予定表を見ると数日前に実施した作業が怪しいね。
作業していたのは先輩のTさんだから確認してくるわ。
ディスクの容量不足は計画作業が原因でした。
先輩のTさんが一時的にデバッグログを有効にしていて無効にするのを忘れていたとのこと。その結果、大量のログが書き出されて容量不足になっていました。
さて、担当者A君とB君のやりとりを簡単にまとめてみましたが、どちらが優秀かすぐにわかると思います。「仕事ができる」というのは良い大学をでているとか、偏差値が高いとかはあまり関係ありません。アラートを解決するために「今、何をすべきか」「これからどうすれば良いのか」を最短で導き出す必要があります。
論理的な考え方ができれば対応は難しくはないのですが、このような考え方自体が苦手な人は結構多いです。一般的にロジカルシンキングといわれますが、気になった人は調べてみましょう。これを意識しておくだけでも、考え方や取るべき行動が変わってきますので覚えておくと良いです。
コメント