radio1ban(ラジオ1番) > 知的電子実験 > コンピュータ・インターネット > 恐怖のインターネット・サーバ保守~こんなつもりではなかった..~

恐怖のインターネット・サーバ保守~こんなつもりではなかった..~

radio1ban

ご無沙汰ぶり~インターネット・サーバ機器の保守作業


5年以上無事故運転を続けているインターネット・サーバ、NS.SYSTEMUSE.COM(219.163.75.210)の保守作業を行った。
......が、しかし、大変恐ろしい目に遭うハメに.....トホホ。

1ヶ月ほど前からサーバから異音がして耳障りになっていた。どうも冷却ファンがおかしいらしい。時々「グヲ~~ン」と誠いう実に耳障りな音を発するようになった。それが止まったり突然鳴り出したりするから始末が悪い。

私はソフトウェア開発技術者であるが、典型的な零細企業なので、プロとして商売を維持していくにはハードでも何でもこなさければ務まらない。もっとも色のデザインセンスはお客さんもあきらめてくれているが...

パートナーの先輩に頼んでいたが、先輩は強烈なインフルエンザに襲われてダウン。仕方がない。自分でやるしかない。
19日土曜日18時。ASPのお客さんは休日で他のお客さんからの電話もないし、昼寝もした。いよいよ作業開始...
所要1.5時間の作業だ。

問題のサーバは、NS.SYSTEMUSE.COMドメインと、グローバルIPアドレス219.163.75.210の割当てを持つインターネットサーバ。

DNS,WWW(IIS),FTP,DBMSとお客様の会員管理サイト(ASP)を365日24時間休み無く運転している。

メールサーバはSPAMの徹底対策(SPAMの虐待)の為、昨年別サーバにした。
MX.SYSTEMUSE.COM(219.163.75.213)。LINUX

だから保守等で停止する場合は、お客様の休日か早朝にささっと行うことにしている。

冷却ファンは4個あった。
後面、電源ユニット、CPU、RAIDにひとつずつ。

問題はカンタンだった。とりあえずハズした後面のファンが耳障りな異音の犯人だった。
(↑上の写真)

写真は新品のファンに交換したところ。

新品の冷却ファンは、とても静かで心地良い風を出してくれている。やっぱCOOLING-FANはこれでなきゃね(^^)

不良のファンを別電源につないでみた。
回転はするが、少しでも傾けると異音を発したり止まったりする。プロペラもガタガタだった。回転軸の機構部が摩耗しているのだろう。それにしてもキタナイなあ...

本体内部もクモの巣やフン(^^;;やホコリがスゴイ。ウチは禁煙室ではないのでタバコも混ざってホコリが黒くなっている。逆にニコチンで殺虫効果はあるのかな?...

せっかくだから掃除をすることにする。
先輩からの強いご指導で、ホコリは決して吹き飛ばすのではなく吸い出すことにする。

小型掃除機とペンキ塗り用ハケでホコリを吸い取っていく。ご機嫌だ。

ついでに心臓部であるRAID装置(RAID-1
ミラーリング)もクリーニングしてやろう。

右の写真はキレイになったRAID装置。
ここにはサーバシステムやユーザデータベースのすべてが記録されている。

これで保守作業もほぼ終盤だ。
まだ19時。今日は早く帰って芋焼酎でも飲むべえか。

それはそうと、しばらく本体を開けていないとホコリってたまるんですねえ。まあこれでPCもしばらくは気持ち良く働いてくれることでしょうよ。

ケースの横フタがきっちり閉まらない。どうも噛み合わせが悪い。上のケースをハズしたからかなあ?まあいいや。ネジ締め無しでいこう。大勢に影響はない。それよりも、早く「黒霧」が飲みたいのだ。

RAID装置を元のさやに収め、ケーブルをつないで電源投入っと。

「.....」

「ピィ~~~~~~~~~~~~~ィ」
「磁気ディスクには起動可能なシステムが存在しません。フロッピーでも入れてみろ」という英文。

「アレッ?」

ケーブル、BIOSの設定を確かめて電源入。

「ピィ~~~~~~~~~~~~~ィ」
「磁気ディスクには起動可能なシステムが存在しません。フロッピーでも入れてみろ」という英文。

「エエエッ...ウソやろ.....」 (@ . @;;;

よく見ると、RAIDのパイロットLEDがオレンジ色だ。それもHDD-1もHDD-2も両方...
うろたえながらマニュアルをむさぼると「リビルド中」とある。(?O?)
なんでやねんな???
HDDなんか交換してないよ...それも2台も...

REMOVEキーを解除してユニットをはずしてみる

「ピィ~~~~~~~~~~~~~ィ」 (@ o @;;;
「磁気ディスクには起動可能なシステムが存在しません。フロッピーでも入れてみろ」という英文。

「あかんわ..」

「デ・イ・ス・ク・ハ・ソ・ン」
「ユ・ー・ザ・デ・ー・タ・シ・ヨ・ウ・シ・ツ」
「マ・・ズ・・イ・・」
Windows2000くらいならまだしも。ユーザデータ消失はマズイ。非常にマズイ。
ユニット(3つある。上がRAIDコントローラ、中がHDD-1、下がHDD-2)を抜き差ししてみる。

「ピィ~~~~~~~~~~~~~ィ」
「磁気ディスクには起動可能なシステムが存在しません。フロッピーでも入れてみろ」という英文。

(T oT;;;
締まりの悪い横フタをあわてて取り去り内部を確認IDEケーブルを再度抜き差し。電源コネクターも。

「ピィ~~~~~~~~~~~~~ィ」(@ O @;;;
「磁気ディスクには起動可能なシステムが存在しません。フロッピーでも入れてみろ」という英文。

「どうもうちょうがない」 #シャレてる場合か!!

オレは本職だ。ここは落ち着いて(実はかなり狼狽している)遭遇している今の状況を整理しよう...

時計を見ると19時30分を過ぎている。

あー今夜は徹夜かあ~
酒が飲めない..トホホ

「今日はここまで」ってできないのがこの仕事のツラいところ。
トラブルは、自己の体調や気分ややる気度とは全く関係無くやってくる。同業の仲間もそれで苦労している。
一にも二にも「体力」と「気力」が肝心。三、四が無くて「知力」とは良く言ったものだ。こんなことを年がら年中やってるから「人並」な人生を送れないのだ。なあんちゃって。

「ピイ~ピイ~」うるさいので、というか、とても恐いので電源を切った。

RAIDメーカのサポートに電話をかけてみる。
出ない。そりゃそうだ。

リカバリー策を考えてみる。
・Windows2000サーバ+インターネット環境は速攻で構築可能だ。クリーンセットアップだったら所要3時間か。
・ASPのユーザデータは最新のが無い。7世代(7日)自動バックアップをしているが、問題のRAIDの中だ...
くやしい..RAIDを過信しすぎたわい...
・ヤフオクの終了時間が迫っている。DNSが落ちているとメールサーバも電気を喰うただの箱だ。終了アラートや落札者のメールが迷子になる。

ミネラルウオータをガブ飲みする。タバコを一服。

・22日は大阪の得意先アポを延期してASPの得意先に謝りに行かないと。月額費用はストップやろなあ..トホホ
・ユーザデータをどこから戻す?以前のDBバックアップは?ASP(Active
Server Page)のソースコードは?
・最近ASPコード(VBS Visual Basic Script)は触ってないしなあ...
・RAIDを撤去して再構築。でもHDDの在庫がゼロ。去年4基も交換したからなあ...最悪。

ミネラルウオータをガブ飲みする。

20時30分..

「なむさん」
ふと、この言葉を思い出した。小さい頃、「サブマリン707」だったか「サブマリン777」だったか、潜水艦もののマンガが面白くて読みふけったことがある。主人公の艦長が、敵の魚雷を避ける時やここぞって時の土壇場の時、目をつむって「なむさん」という言葉を発して、いくつもの危機を乗り越えていた。「ナムサン」という言葉の意味は知らないが、こういうどん底の状況によく合う言葉だ。いつもそう思う。

冷静に考えてみると、
・ホコリを取っただけで2台ものHDDがそろって昇天するかな?
・とすれば、コントローラ基板の故障か?
・それにしても、通常以上の注意力でクリーニングしたくらいでこわれるかな?
・もう一度マニュアルを読めば、HDD障害の場合は、「赤LEDが点滅」とあるが、どのユニットも「消灯」している。
・いつも先輩に注意されている、基板の接触不良...
・単なる基板、コネクタの接触不良の可能性がある!

というわけで、

もう一度RAID装置を完全に分解した(泣)

今度は慎重に、特に接触部を念入りにクリーニングした。電子工作で愛用している「接点洗浄剤」を各部に吹きかけて完全に乾燥するのを待った。

人によっては、接触不良の時に「接点復活剤」を大量に吹き付けたり、「556」を局部に吹いたりする人がいるが、私はどちらも賛成できない。特に接触不良に「556」のような「万能オイル」を塗りたくってどうするのか?ラジオの修理で「556」まみれにしている人がいたが、これはラジオにとったら致命傷を受ける可能性が高い。

今度は特に慎重に組み立てた。
でも、横フタは噛み合わせが悪いままだ。
この際、フタの噛み合わせなぞはどうでもよい。

動作確認をする。

「なむさん」

電源を入れても警告音は無い。
正常を示す、緑LEDが3つ点灯した。

腰が抜けた。

しばらく緑LEDに見入っていた。

イスに横たわってやっとお目覚めのRAID装置。

よかった。

BIOSもRAIDをちゃんと認識している。

IDE Primary Masterに接続している。

最愛の恋人にやっと会った心境です。ホント。

“Windowsを起動しています...”
はいはい。

お~~
なつかしい画面が...

今回のトラブルは、小さい柔らかい会社の責任は全く無かった。それにしてもできそこないOS、XPを何とかしろ。バ~ロ。

無事Windowsが起動した。
何の変わりの無いスタート画面を見て感激した。

NSLOOKUPで確認。
Localhost 127.0.0.0 ???
エラー?
LANケーブルをつなぐのを忘れてた。

NSLOOKUP確認。
OK

PING確認。
OK

他のサーバ、PCから確認。
すべてOK

お客様のサイトの動作確認。
すべてOK

20時45分正常確認

ヤフオク(5商品出品している)の出品終了時刻なので、すべてのメールを受信するまで仮組み立てのままそのままにすることにする。その間、別媒体のMOに、最新のユーザデータとソースコードなど一式をバックアップ中。

メールの送受信テスト
OK

サーバー停止中に迷子になっていたメールも遅延しながら入ってきた。

後片付けをはじめる。

22時50分

サーバを停止し、数回起動テストを行った後、すべて組み立てる。
横フタの噛み合わせが悪い..もういい。

元のサーバラックに設置しUPSをつないで作業完了。

結局、破損、消失はゼロだった。
首がつながった。

24時00分
帰宅

作業完了後..

作業予定時間:1時間30分
実際の作業時間:6時間0分
破損・消失:なし
サービス停止:6時間(ユーザに未承諾で隠密でやるつもりだった)

歳を喰って、最近能力が落ちた、と吹聴しておりますが、イザとなれば、この集中力と耐久力。丈夫な身体に生んでくれた両親に感謝。

疲れました。
(kazu)

radio1ban

カテゴリー: コンピュータ・インターネット タグ: , ,