こんにちは、にゃんさんです。
今日は京都大学で運用しているスパコンのデータが消失したことついて、取り上げていきたいと思います。
何が発生したのか
2021年12月28日に日本HPE(日本ヒューレット・パッカード合同会社)が作業中にスパコンのデータ77TB削除してしまったということで、ネットニュースになりました。京都大学といえば日本を代表する国立大学の1つであり、様々な研究も行なっている機関です。
※日本HP(日本ヒューレット・パッカード)と日本HPE(日本ヒューレット・パッカード合同会社)は別会社になります。
以下、ニュース記事の引用です。
具体的にどんな内容か
以下のURLにあるとおり、京都大学のページでも報告があがっております。
報告の記事によると、バックアッププログラムの機能改修作業で、不用意なプログラムの修正と適用手順の誤りが原因と記載されております。不要になった過去のバックアップログファイル削除するはずが,ディレクトリ配下を削除してしまったようです。
運用保守作業も行ったことのある筆者からしたら、胃が痛くなりそうな記事です。笑
作業を行っていた人は、かなりやばかったでしょうに・・・
HPEは年末ドタバタだったでしょう・・・作業した方々お疲れ様です。
作業者であるHPEの報告は
以下のURLより、HPEが報告した報告書を確認することができます。
https://www.iimc.kyoto-u.ac.jp/services/comp/pdf/file_loss_insident_20211228.pdf
記載してある内容の通り、”ファイル消失は 100% 弊社の責~”と記載があります。
外資系の企業でここまでストレートに報告したところは、なかなかないのではないでしょうか。作業ミスとはいえ、京都大学へのダメージが大きそうです。
今回の原因は
バックアップスクリプト内にfindコマンドが含まれているようで、削除処理箇所の変数設定を行ったようです。このスクリプトのリリース手順ミスで事象が発生したようです。
リリース手順のミスの内容ですが、実行中のスクリプトが存在している状態で、スクリプトを上書きしリリースを行ったようです。また、bashを使っているシステムのようで、途中から修正したスクリプトの再読み込みが発生し、異なる動作が発生したようです。
気になる点としては、実行しているスクリプトの時間帯(スクリプトが起動する時間帯)とかは考慮しないで作業していたってことですかね?基本的には実行時間帯を避けてリリースすると思うのですが、忘れてしまっていたのでしょう。絶対起こしたくないミスですね。
おわりに
このようなニュースを聞くと考えさせられる内容だと思います。私もSEという立場ではあるので、作業手順のチェックやレビューなどの重要性を感じました。今後はこのあたりもチェックしていくようにしていきたいと思います。