【カッパドキア】memories 2.0建造委員会2【過去ログ倉庫】
■ このスレッドは過去ログ倉庫に格納されています
2ちゃんねるの過去ログを一手に引き受けている
oyster902.peko.2ch.net+sumaもデビューから3年。
1.5TBのストレージはそろそろ満杯だし、フロントエンドも結構いっぱいいっぱい
そろそろ次の過去ログ倉庫を作らないとまずいなぁ・・・・
ってことで、RAID 6 8TBのbanana3000.maido3.comを作ってるんです
開発日記
http://www.maido3.com/server/zousan/
お姿
http://www.maido3.com/server/ebanana/
転送量グラフ
http://traffic.maido3.com/jfj1/McNh/nXAg/
■ ぞうさんからのお知らせ part1
http://qb5.2ch.net/test/read.cgi/operate/1197634004/l50
--------------------------------------------------------------
ここまでのお話
いよいよその姿を現した「ぞうさん(花子)banana3000.maido3.com」
しかし、過酷な試験に花子はくじけてしまいそうなのだった。
負けるな花子、がんばれ花子! http://www.asahi-net.or.jp/~UE3T-CB/spa/gunai/gunai.htm
これは円山動物園→旭山動物園の花子
どうか無事終了しますように(^_^;)100%で止まったりしませんように
99%〜(^_^;) 100%達成(^_^;)冗長性+1に移行したことを確認! いやー(^_^;)危機は脱した
つーか、やっぱこういう実践的な試験は大切やね。
心構えを体験できるし。
付き合ってくれたみなさん、おつでしたー(^_^;) 残り作業(^_^;)
1 デッキのラベリングとRAIDカードのポート番号が一致しているかの確認
2 15本体制へのリビルド
3 ホットスペアの回復
ってことで、明日10時くらいに、1をやるために一旦電源が落ちるかもー(^_^;)
目視点検やるー キタ━━━━━━(゚∀゚)━━━━━━!!!!
さぁ、寝るか^^ 俺はXOだかで(^_^;)がHDD引っこ抜いてるかと思ったんだ
所が洗濯物を引っこ抜くのを忘れてたんだ ホットスペアREADY(^_^;)冗長性+2に
そして15本体制にリビルド中(^_^;) >>126
先にホットスペアが増えるんですか。
つまり、
RAID6 2本欠損 (角番)
↓
HDD挿入
↓
リビルド始まる
↓
RAID6 1本欠損
↓
HDD挿入
↓
リビルドしないでそのままホットスペアに
↓
RAID6 1本欠損 + ホットスペア
↓
HDD挿入
↓
リビルド始まる
↓
RAID6 欠損なし + ホットスペア (完全状態)
ということなのかな。 >129
こんな感じです(^_^;)
RAID6 2本欠損 (角番) ←昨日18:00頃
↓
HDD挿入
↓
リビルド始まる ←昨日18:20頃
↓
RAID6 1本欠損 ←本日01:30頃
↓
HDD挿入 ←本日11:00頃
↓
リビルド始まる→現在も進行中
↓
HDD挿入
↓
即時ホットスペアに ←いまここ
↓
RAID6 欠損なし + ホットスペア (完全状態) >>130
なるほど、第二回の*リビルド中に*もうひとつHDDを挿入したと。
それならわかります。
第一回のリビルド中にもう一本挿入したらどうなったのかしら。
あと、昨日ばたばたしてたようですが、
結局ぶち抜きテストはどんな結果になったんでしたっけ。 無事に済んだらVIPの再引越しか?
またVIPPER達はギャースカ騒ぐんだろうな 引っ越しの時は、先にyutoriを落としてください そりゃまあ、自分の常駐板でやられりゃ騒ぐ気持ちもわからんでも
しかし、素直?なぐらい反応するなあ・・・面白いw >>132
> VIP落ちた
がなぜか、は、ちょっと気になるところかも。 >>131
即時ホットスペア
リビルド終了
またリビルド始まる
RAID6欠損無し >>8だけど、こんなのどうかな?
「smartmontools」によるハードディスクの監視
「MRTG」による温度のグラフ化
http://www.crimson-snow.net/tips/unix/smart.html
S.M.A.R.T.情報の取得
http://www.medias.ne.jp/~nagata/xeon/smartmontools.htm
-d オプションで3wareポート毎情報を取得出来るみたい >>137
実験開始直後に板にアクセスできなくなったから
cgiがとまったか、データ防護で止められたか
セッティングと看板、LRが飛ぶのは予想外でした >131
昨日のテストはかなり長い話になります(^_^;)
というか、現在昨日の出来事は結局どういうことだったのかを整理中ー
>>142
了解です。
板設定 (>>141) は、元に戻したんでしたっけ。 >>143
おちる少し前のセッティングを流し込んでもらえた模様
それまで、任意IDやら連投規制がゆるかったり名無しが「名無しさん」になったり祭に
ちゃんと確認はしてませんが、1001のAAが1世代前(ずれたままのAA)に戻ったらしいというのを
afox運用で見かけましたね
あれって、直ったんですかね どこかに排他処理の緩い部分があるんだろうね。
落ちる前のリクエストがバッファリングされているだろうしー
冗長性0になったらロックしてリカバリー処理に専念した方が安全なのかもしれない。
でも、0になる前に対処するのが運用管理ってもんだよな。
保守管理作業でのミスまで考慮したら冗長性+1の時にロックすべきか、、、キリが無い。 んーと(^_^;)わかりやすいようにHDDを次のように書きます
1-2-3-4-5-6-7-8-9-10-11-12-13-14-15-16
7がホットスペアです。○付き数字は故障しているとかそういうドライブです。
昨日の試験開始前の初期状態は検証した結果
1-2-3-4-5-6-F-8-9-10-11-12-13-14-15-16
でした。つまりホットスペアは機能していなかった(昨日見てた人、この先の悲劇はもうわかるよね?(^_^;))
ここからドライブを生きたまま3本引き抜き始めます。
(すでに悲劇は確定的です(^_^;)) VIPのSETTING.TXT等が飛んだのは
現在VIPがジンギスカンだということと関係あるのかも、、、
/md/ がらみと思うなぁ >>147
そうやって並べるなら、ホットスペアは単にHでいいんじゃないかなと。 まず1を抜きます
@-2-3-4-5-6-F-8-9-10-11-12-13-14-15-16
ここでは、表面上なにも起こらず、サービスは維持されています
冗長性は+1です
さらに2を抜きます
@-A-3-4-5-6-F-8-9-10-11-12-13-14-15-16
これでも表面上は何も変化はなく、サービスは維持されていました。
*冗長性は0です*
さて、ホットスワップが機能していないことに気がついていないおいらは
いよいよ*冗長性0*を試すために3番を抜きます・・・・ で、説明の続きをおながいします。
なんとなくわかった気がしますが、まずは整理整頓をば。
>>148
なるほど、今回のHDDとは別事情ということで。 @-A-B-4-5-6-F-8-9-10-11-12-13-14-15-16
ディスクアレイは停止し、サービスが止まりました(^_^;)
なぜ止まったのかわからないまま、試験を続行しました。
次に3を刺します。
@-A-3-4-5-6-F-8-9-10-11-12-13-14-15-16
この時点で、ステータス上は正常(冗長性0)とされ、リビルドなどは発生しませんでしたが
ここでサービスが再開したかあるいは停止したままだったか、現在不明。 >153
サービスが再開しなかったことが今、確認された。 >>154
(^_^;)がないと真面目っぽく見えるよ>< 更に、2を挿入しました
結果、リビルドが開始されました。
@-R-3-4-5-6-F-8-9-10-11-12-13-14-15-16
このリビルド中に1を挿入しました
すると、1はunit 1に組み込まれ、レイドアレイの外に出てしまいました。
2番のリビルドが終わった時点で
[1]-2-3-4-5-6-F-8-9-10-11-12-13-14-15-16
という状態になりました(ちなみにホットスペアの7番はunit2になっていて、やはりレイドアレイの外です) >>153-154
なるほど、状況よくわかりますた。
データが吹っ飛ばなかったのは、運がよかったですね、、、。
で、
サービスが再開しなかった
↓
リブートかけた
んでしょう。きっと。
それで、リブートした時に、
「前に一時的にドライブが見えなくなったけど、
同じドライブがまた見えるようになったみたい。
データも残っているから、とりあえずよしとしよう、そうしよう」
となったんですね、きっと。 この時点で、サーバをリブートし(リビルドが終わるのを待った)た結果
サービスが再開しました。
これが、昨日の16:00頃です。 >>159
つまり洗濯物が干されていない状態(前日のが洗濯槽に入ったママ)でzzz... 第二部(^_^;)
さて、ここで現象を振り返って色々考えたわけですが
まだホットスペアが機能していなかったこと(つまりレイドアレイが破綻したこと)について気がついていません。
第二部の開始状態は以下のとおりです。
[1]-2-3-4-5-6-[7]-8-9-10-11-12-13-14-15-16
ホットスペアも別ユニットになっているので[7]としますね。 >>163
これは、「RAID6 で一本欠損していて、ホットスペアなしの状態」
でいいのかしら。 次になにをしようとしたかというと
[1]を抜いて、再度刺してリビルドが行われるかどうかを確かめようとしました
しかし・・・・ここで間違えて4を抜いてしまったのです
(おいらがラベリングとポートの対応を間違えた。これは人為的ミス)
この結果
[1]-2-3-C-5-6-[7]-8-9-10-11-12-13-14-15-16
となります。
冗長性は0です。
ここで初めてホットスペアが機能していないという事実に気がつきます(^_^;)
しかし、実はまだ第一部の検証が終わっていなかったため
レイドが破綻した事実には気がついていません(^_^;)とほー (^_^;)はようやく、のぼりはじめたばかりだからな
この、はてしなく遠い鯖坂をよ… さて、間違えて引き抜いたことは、引き抜いた直後に気がつきました(^_^;)
しかし、サービスは継続しています。
冗長性0である認識はあったので、まず復旧を行います
4番を刺しました。
[1]-2-3-R-5-6-[7]-8-9-10-11-12-13-14-15-16
サービスを継続したまま4番のリビルドが行われ
午前01:30頃無事リビルドが完了。冗長性は+1になりました。 第三部(^_^;)
いよいよ全体像がつかめてきました(^_^;)
あとは[1]と[7]を復旧させるだけです。
当初の考えどおり、1を抜いて再度刺しましたが、状況は変わらず。
そこで[1]を再度抜いた状態で、unit 1を削除しました。
で、全体をリスキャンして、状態を再確認すると
@-2-3-4-5-6-[7]-8-9-10-11-12-13-14-15-16
・1はディスクがないよ
・7はunit1だよ
と認識するようになりました。 マァヴ(^_^;) はRAID6より強かった。すげー!
最小被害で抑えたぞうさんもすげー! そこで1に新品のディスクを挿入しました。
リビルドが始まりました。
R-2-3-4-5-6-[7]-8-9-10-11-12-13-14-15-16
更に、7を抜いて、unit1(7が属しているunit)を削除。
7にリスキャンをかけて7に新品を刺したら
刺した瞬間からホットスペアが機能しはじめました。
現在の状況は
R-2-3-4-5-6-7-8-9-10-11-12-13-14-15-16
1のリビルドが終われば完了の予定です(^_^;)ふう >>177
完走したら再度、
【カッパドキア】memories 2.0建造委員会【過去ログ倉庫】
http://qb5.2ch.net/test/read.cgi/operate/1190270743/910
の情報を貼っていただけるとうれしいです。
マァヴさんの説明によれば、
上記は、ホットスペアが機能してなかった状態のもののはず。 ■ このスレッドは過去ログ倉庫に格納されています