担当者としての責任。

 そして今日はもうひとつ問題が起きた。
 早く帰って眠っていた俺の携帯に、職場の妻から電話があった。月末に実行している定例バッチ処理の進捗が異常に遅いという。妻と同僚が保守業者に問い合わせたが、それほど重要な不具合とは思われない事象だったらしく真剣に取り合ってもらえないという不満も混じっていた。
 電話で聞く限り、確かに原因が特定しにくい。バッチ用サーバがあり、そこで複数部門のバッチ処理が並行して走っている。だから状況によっては負荷が高くなりスループットが落ちることは普通に有り得るはずだ。しかし妻曰く終了までこんなに時間がかかることは今までになかったという。
 こちらからも保守業者に連絡したが、バッチ用サーバ上でアプリケーションが停止しているなどの可能性を挙げてきたが、だからといってどう対応していいか返事に困っている風だった。確かに聞き様によっては、それくらい自分で何とかできない?という様に聞こえるニュアンスの話し方でもある。
 それはともかく、実際のところ打つ手といえばサーバの再起動が手っ取り早い。多分俺がその場にいたならもっと早くそうしていたはずだ。
 妻はかつてこのシステム管理の仕事をしていたことがあるのでサーバ再起動くらいなら対応できる。こちらから電話リモートで作業をさせて、起動完了したところで様子を見るように伝えた。
 サーバの再起動に前後して、停止しているように見えたバッチがひとまず完了したとの報告があった。
 
 以前から、他の者に出来る作業はなるべく分担可能なようにせよとの指示を受けていた。24時間稼働のシステムを運用している以上、障害対応などはいつ発生するか分からない。実際に起きるのは稀だが、後年の人事異動の制約にもつながるので、誰かに特殊な業務が集中してしまうのは避けるということだ。
 自分も意識して軽易な作業は人間への電話リモートやクライアントリモート操作で簡単に片付けるようにしていた。今回のサーバへの作業も、電話で可能だと思ったのだ。
 担当者として前後の挙動の確認なくサーバの停止と再起動を無関係の者にやらせたことは失敗だった。それは翌日痛感することになる。