特集、その他

「長持ちするHDD選び」から「徐々に進行するHDDの病」まで、データ復旧のプロにHDDの神髄を聞いてきた

高信頼HDDとしてプロが「WD Red」を業務に採用する理由も text by 石井英男


震災によるダメージは後から出てくる?熊本地震が原因となったHDDの障害とは

熊本地震によって崩れた熊本城の石垣
復元工事が始まった熊本城の様子
今も熊本ではそこかしこに地震の生々しい爪痕が残っている

――2016年4月に、震度7が2回記録された非常に大きな熊本地震が起こり、被害もいろいろ大きかったと思いますが、地震が原因でHDDが壊れたこともあったと思いますが、普段に比べて御社へのHDD復旧依頼は増えたのでしょうか?

[浦口氏]震災後、単純に数として見た場合は、急に受付が増えることは無かったというのが本当のところです。皆さん当時はデータの復旧よりも事業の立て直しのほうが先決だったはずですし、最終的には例年並みといった状態でしたね。

そうは言っても震災によって故障するHDDは出てくるので、そうしたお客様を受け入れられるように、4月14日の前震の後に業務の立て直しを行って備えていたのですが、4月16日に本震が起こり、14日以降にスタッフ一同で立て直したものは水の泡になるくらい台無しにされ、什器関連も散乱する状態となりました。

ただし、お預かりしていたHDDなどは余震に備え衝撃を受けないよう社内の安全な場所に保管していたので、そちらは問題はありませんでした。また、弊社のシステムも停電などに備えてスタッフが不在となる時間は全てのPCの電源を落としていたので、データが失われるといった損害はありませんでした。

震災の時に壊れたのはサーバーやNASといった常時稼働のシステムがほとんどで、動作中に棚から落ちたとか、サーバールームの中で転がり回ったとか、通電状態でダメージを受けてしまったものが持ち込まれました。そうしたものに保存されているデータの性質上、急ぎの診断を希望されることが多いのですが、物理的なダメージを受けたHDDに対して、データを取り出すために一気に負荷をかけると状態がより悪化してしまい、取れるデータも取れなくなるということがあります。

過去の経験から、「今急ぎのものを1つ取り出すために残り全てを失うリスクを背負うか、今までの会社の成果を1つでも多く復元するのではどっちがいいでしょうか」、「HDDに負荷をかけずに、ゆっくりと1つでも多くのデータを取り出し、事業を継承する方がお勧めです」とお話しすると、早さよりも安全にデータを復旧する方を選択されるお客様が多く、こういった提案ができるのはこれまでの経験やノウハウの蓄積が効いているところだと思います。

――熊本地震後、持ち込まれたHDDは普段よりダメージが大きいものが多かったのでしょうか

[浦口氏]地震が原因でダメージの大きいHDDが多く持ち込まれるようになったということは無いのですが、地震が原因ではないかと思われる特徴的な症例が1年後くらいから見られるようになりました。

お客様に「過去に落下とか強い衝撃を受けたことはありませんでしたか」と伺うと、「地震の時に落下したけど、電源を入れたら動いたから大丈夫だと思ってそのまま使い続けていた」と。地震の時に何らかのダメージを受けたのでしょうが、そのエリアが普段アクセスしないところだと気づかないんです。デフラグをしたとか、大量のデータを書き込むとか、普段とは違う負荷がかかったときにその箇所にアクセスが有り、障害に陥ってしまうケースがあります。HDDのコンディションや動作中の状態はS.M.A.R.T.で確認できますが、○月○日に落下したとか、どの程度のダメージを受けたのかといったログはないため確認のしようがなく、時間が経ってから問題が表面化してくるというのが地震後の傾向ですね。


データ復旧は、取り出せるデータ全てをクローニングすることがスタートHDDメーカー独自のコマンドを用いて障害が起きたHDDを制御

くまなんピーシーネットのクリーンルームの内部の様子
クリーンルームに入るには服を着替えてエアシャワーを浴びる必要がある

――では、HDDのデータ復旧というのは、実際にはどのような手順で行なわれているのかを教えていただけないでしょうか。

[浦口氏]技術室は機密上お見せできませんが、手順としては、お客様からお預かりしたHDDを初期診断として通電し、発生する音などを確認します。物理的な異常がないと判断されたものは、装置に接続して解析を行ないますが、そのときにファームウェアの障害がある場合は、その問題を一時的に解決して機能を回復させます。これで読み書きができる状態になりますので、障害があるHDDのLBA上に残っている磁気情報をすべてコピーし、クローンHDDを作ります。

クローンを作る理由としては、障害が起きたHDDへの負担を最小限にするためです。障害が起きたHDDをそのまま使用し、復元や解析を続けるとさらに症状が進行し、復元が完了する前に完全に壊れてしまう可能性もあります。そうなってしまうと全てのデータが失われてしまうので、安全性を確保するためデータの解析や復元などはクローンを取ったHDDで行う必要があります。ちなみに、その時に使うクローン用HDDは信頼性などの観点から全てWD Redを使用しています。


クリーンルーム内にあったスピンドルを軸ごと抜くための装置
パーツ交換や分解が可能な世代のHDDに関しては、このように復旧が試みられる(画像提供 くまなんピーシーネット)

HDDから異音が発生するような場合は、クリーンルームに持ち込んでHDDを開封し、原因を調べます。プラッタ上に磁性体剥離と呼ばれる傷がないかとか、ヘッド自体が変形していないかなどを確認します。プラッタの消耗によってサーボ情報が読めなくなり、ヘッドが暴走してしまう状態や、特定のヘッドが機能を停止したためにスピンアップ後、キャリブレーションが完了せず、ひたすら繰り返しているとか、そういう場合は制御できる問題なので、弊社の解析装置に接続し、HDDメーカー固有のコマンドを用いてデータの復旧を試みます。

例えば、ウエスタンデジタルのHDDであれば、メーカー独自のコマンドで「下から2番目のヘッドが壊れていて読めないようなので、そのチェックをキャンセルするように」と命令を送るんですね。すると、下から2番目のヘッドが壊れていても、キャリブレーションを終えて、正常な部分は読み書きができる状態になります。

その後、LBAの磁気情報のクローンに入るんですが、異常がある部分の読み取りはできないので、下から2番目のヘッドが読み書きしていたLBA空間の磁気情報は取得しないというコマンドを送って、残りのLBA空間の磁気情報を取得します。例えば1TBを4本のヘッドで読み書きしている場合、そのうち1本のヘッドが使えないと、磁気情報は1TBの75%で、750GB分とれることになります。では復元率が75%なのかというとそうではなくて、この750GB分の磁気情報の中にユーザーが本当に必要なデータがあれば、そのユーザーにとって復元率は100%になります。逆に1TB中750GB分のデータがとれたとしても、その中に必要なデータが含まれていなければユーザーにとって復元率は0%になってしまいます。このことから、すべての作業を終えないと復元率など判るはずがないので、この点も業者選びのポイントになると思います。


パーツ交換でのデータ復旧が難しい現在のHDD、プラッタ・モーターは1セットで分解不能

プラッタに全く障害がなくても壊れ方によってはデータが取り出せないこともあるそうだ

――先ほど、クリーンルームで分解するという話がありましたが、損傷を受けたHDDで、一番上のプラッタは完全に駄目だけれど、2枚目、3枚目とか、ほかのプラッタは使えるみたいな状況のとき、そのプラッタを取り外して他の装置に装着して読むとか、そういったことはできるのでしょうか。

[浦口氏]過去、容量が小さかった時代は、プラッタを外して対応する施術もありましたが、今の時代はもう無理ですね。

使用できる容量などにばらつきはありませんが、HDD内部のプラッタ、ヘッド、モーターには微妙な個体差があり、それらの組み付け方によってできた製造後のフォーマットで個体差が生まれます。この状態でHDDはスピンアップ後に個体特有のキャリブレーションが行われているため、プラッタごと交換しても製造後のフォーマットにズレが生じ、記録されていたデータを取り出すことはできません。プラッタを固定しているネジを緩めただけでも致命的な状態になります。

ですから、基本的にはプラッタを外してデータ復旧を試みる方法は現状アウトです。また、モーターの軸がロックして回らなくなってしまってもほとんどアウトですね。落下などの影響で、流体軸受が軸ごと焼き付いてロックするというケースもありますが、そういう場合も対処できない状態になります。

――では、プラッタがきれいな状態でも、全くデータを救い出せないときもあるわけですね。

[浦口氏]ありますね。昔のHDDはモーターが壊れた時はプラッタを支えているモーターの軸ごと抜き、交換することができました。現在のHDDは進化した分、人が介在できる部分が減ってきているという感じですね。また、現在の3.5インチHDDの多くには気流を整えるための整流板がプラッタとプラッタの間に入っていたりします。こうしたものは構造的にモーターの軸ごと取り外せなくなっていたりします。