信用ならないL3スイッチ。

 監査の後始末。言ってしまえば返還金だ。どうすんだこれ。
 
 みんなで残業しようかしまいかと話しているところ、前の職場からTEL。俺が作った災害時のメール配信システムのサーバのうち1台が正常動作しないという。帰りに寄って支援することに。
 その作業を終えてアパートに戻り、そろそろ寝ようかどうしようかと思っていた01:00に職場からTEL。なんと電子カルテが停止しているとの衝撃の連絡だった。
 しかも連絡網が正しく働かず、システム停止から既に1時間以上経過しているらしい。
 とにかく保守業者に通報して直ちにブリットを飛ばして病院に戻った。
 調べると全病棟で電子カルテ端末が停止していた。稼働中だったものは電子カルテアプリケーションがフリーズし、停止しているものを起動すると電子カルテにログインできない。
 ところが、サーバは正常に稼働しており、テスト用の端末の一部では電子カルテが動作することがわかった。どうもネットワーク上のある特定のIP範囲が見えなくなっているようだ。しかも、たとえば同じ病棟内の端末でも動作するもの・しないものがある。どうも原因はネットワークのループにも見える。俺とY君以外の職員がネットワークの変更を行うことはない。とするとネットワーク機器が誤動作してループ状の過負荷を発生させているのではないか。
 発生源はネットワーク最上位かもしくは病棟ごとにあるL3スイッチ、あるいは病棟に多数設置されたNs端末向けの無線APだろう。たいてい電源再投入で復帰するものだが、こんなレベルで動作不良を起こす機材は信用できない。
 それはそれとして、多数ある機器のどれに電源再起動を行うか。うかつな位置のものを停止すれば、今まともに動いているサーバにまで影響が出てしまう。やってきた保守業者の保守員に状況を説明し特定を依頼した。現在の当院の主任電算担当者であるY君にも連絡。彼は生まれたばかりの子供を抱えていて大変なのでこんな時刻に出てくる必要はないと伝えていたが、律儀に出勤してきた。
 保守員はサーバ室に入ってL3スイッチのログ採取を始めたが、ひどく時間がかかる。2時間経っても報告がない。こういう時に相手を急かしても悪いプレッシャーを与えるだけなので、できそうな手助けをしながら待つ。
 3時間経過するころ、待ちきれなくなってこちらから提案。もう病棟の端末は生き残っているものも全て停止して、サーバ室から病棟の間にあるL3とAP全てを再起動してほしいと依頼。ところが、L3はいずれもリモート操作ができず一台ずつ電源ケーブルを抜くしかなく、無線APにいたってはリモート操作機能を備えていないという。天井に取り付けられた無数のAPに脚立を使って一台ずつ作業しなければならないというのか。
 現在当院の主任であるSEがこちらに急行中との連絡が入ったが、既に午前4時近くになり日勤帯の業務に不安が出てきている。
 彼の到着を待たずに作業することにして、我々の手で病棟のL3スイッチの電源再投入を開始。するとわずか2台目の再投入で状況が改善し、その後10分ほど待機していると停止していた全端末が正常動作するようになった。
 
 最後にやってきたSEに、発生原因の特定と再発防止を確実に行うよう強く伝えて作業終了とした。
 よりによって電子カルテが計5時間使用不能となった、院内の規定でいけば最悪レベルのシステム障害である。
 今回の発生原因として疑われているのはD-LinkのxStack。同一型番のものは、前の職場でも半年に一度くらいの割合で停止し手動で電源再投入を行っていた代物だ。
 アライドテレシスの製品だったらこういう事態は経験がないのだが…。