X



トップページ運用情報
609コメント185KB
【カッパドキア】memories 2.0建造委員会2【過去ログ倉庫】
■ このスレッドは過去ログ倉庫に格納されています
0001マァヴ ◆jxAYUMI09s
垢版 |
2007/12/19(水) 18:42:38ID:qhIAlqBy0
2ちゃんねるの過去ログを一手に引き受けている
oyster902.peko.2ch.net+sumaもデビューから3年。
1.5TBのストレージはそろそろ満杯だし、フロントエンドも結構いっぱいいっぱい
そろそろ次の過去ログ倉庫を作らないとまずいなぁ・・・・

ってことで、RAID 6 8TBのbanana3000.maido3.comを作ってるんです

開発日記
http://www.maido3.com/server/zousan/

お姿
http://www.maido3.com/server/ebanana/

転送量グラフ
http://traffic.maido3.com/jfj1/McNh/nXAg/

■ ぞうさんからのお知らせ part1
http://qb5.2ch.net/test/read.cgi/operate/1197634004/l50
--------------------------------------------------------------
ここまでのお話
いよいよその姿を現した「ぞうさん(花子)banana3000.maido3.com」
しかし、過酷な試験に花子はくじけてしまいそうなのだった。
負けるな花子、がんばれ花子!
0109動け動けウゴウゴ2ちゃんねる
垢版 |
2007/12/20(木) 01:23:15ID:uvXaeN2X0
>>107
ぱぉーーん!
0110マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 01:25:01ID:Su8s+lRt0
いやー(^_^;)危機は脱した
つーか、やっぱこういう実践的な試験は大切やね。
心構えを体験できるし。

付き合ってくれたみなさん、おつでしたー(^_^;)
0113マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 01:25:33ID:Su8s+lRt0
残り作業(^_^;)
1 デッキのラベリングとRAIDカードのポート番号が一致しているかの確認
2 15本体制へのリビルド
3 ホットスペアの回復

ってことで、明日10時くらいに、1をやるために一旦電源が落ちるかもー(^_^;)
目視点検やるー
0119動け動けウゴウゴ2ちゃんねる
垢版 |
2007/12/20(木) 01:56:50ID:pIpdqosQ0
超乙
0126マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 13:04:49ID:Su8s+lRt0?PLT(25001)
ホットスペアREADY(^_^;)冗長性+2に
そして15本体制にリビルド中(^_^;)
0129root▲▲ ★
垢版 |
2007/12/20(木) 13:15:54ID:???0?PLT(80222)
>>126
先にホットスペアが増えるんですか。

つまり、

RAID6 2本欠損 (角番)

HDD挿入

リビルド始まる

RAID6 1本欠損

HDD挿入

リビルドしないでそのままホットスペアに

RAID6 1本欠損 + ホットスペア

HDD挿入

リビルド始まる

RAID6 欠損なし + ホットスペア (完全状態)

ということなのかな。
0130マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 13:33:37ID:Su8s+lRt0?PLT(25001)
>129
こんな感じです(^_^;)

RAID6 2本欠損 (角番) ←昨日18:00頃

HDD挿入

リビルド始まる ←昨日18:20頃

RAID6 1本欠損 ←本日01:30頃

HDD挿入 ←本日11:00頃

リビルド始まる→現在も進行中

HDD挿入

即時ホットスペアに ←いまここ

RAID6 欠損なし + ホットスペア (完全状態)
0131root▲▲ ★
垢版 |
2007/12/20(木) 13:37:39ID:???0?PLT(80222)
>>130
なるほど、第二回の*リビルド中に*もうひとつHDDを挿入したと。
それならわかります。

第一回のリビルド中にもう一本挿入したらどうなったのかしら。

あと、昨日ばたばたしてたようですが、
結局ぶち抜きテストはどんな結果になったんでしたっけ。
0136動け動けウゴウゴ2ちゃんねる
垢版 |
2007/12/20(木) 13:53:35ID:ItljbY1s0
そりゃまあ、自分の常駐板でやられりゃ騒ぐ気持ちもわからんでも
しかし、素直?なぐらい反応するなあ・・・面白いw
0141動け動けウゴウゴ2ちゃんねる
垢版 |
2007/12/20(木) 14:16:23ID:qDRK0MKF0
>>137
実験開始直後に板にアクセスできなくなったから
cgiがとまったか、データ防護で止められたか

セッティングと看板、LRが飛ぶのは予想外でした
0142マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 14:25:31ID:Su8s+lRt0?PLT(25001)
>131
昨日のテストはかなり長い話になります(^_^;)
というか、現在昨日の出来事は結局どういうことだったのかを整理中ー
0144動け動けウゴウゴ2ちゃんねる
垢版 |
2007/12/20(木) 14:33:10ID:EbA3A8U30
板設定は元に戻ってるよ。狐がやってくれたみたい
0145動け動けウゴウゴ2ちゃんねる
垢版 |
2007/12/20(木) 14:37:39ID:qDRK0MKF0
>>143
おちる少し前のセッティングを流し込んでもらえた模様
それまで、任意IDやら連投規制がゆるかったり名無しが「名無しさん」になったり祭に

ちゃんと確認はしてませんが、1001のAAが1世代前(ずれたままのAA)に戻ったらしいというのを
afox運用で見かけましたね
あれって、直ったんですかね
0146動け動けウゴウゴ2ちゃんねる
垢版 |
2007/12/20(木) 14:44:06ID:uvXaeN2X0
どこかに排他処理の緩い部分があるんだろうね。
落ちる前のリクエストがバッファリングされているだろうしー
冗長性0になったらロックしてリカバリー処理に専念した方が安全なのかもしれない。

でも、0になる前に対処するのが運用管理ってもんだよな。
保守管理作業でのミスまで考慮したら冗長性+1の時にロックすべきか、、、キリが無い。
0147マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 14:44:35ID:Su8s+lRt0?PLT(25001)
んーと(^_^;)わかりやすいようにHDDを次のように書きます

1-2-3-4-5-6-7-8-9-10-11-12-13-14-15-16

7がホットスペアです。○付き数字は故障しているとかそういうドライブです。
昨日の試験開始前の初期状態は検証した結果

1-2-3-4-5-6-F-8-9-10-11-12-13-14-15-16

でした。つまりホットスペアは機能していなかった(昨日見てた人、この先の悲劇はもうわかるよね?(^_^;))
ここからドライブを生きたまま3本引き抜き始めます。
(すでに悲劇は確定的です(^_^;))
0148FOX ★
垢版 |
2007/12/20(木) 14:44:52ID:???0
VIPのSETTING.TXT等が飛んだのは
現在VIPがジンギスカンだということと関係あるのかも、、、

/md/ がらみと思うなぁ
0149root▲▲ ★
垢版 |
2007/12/20(木) 14:45:30ID:???0?PLT(80222)
>>147
そうやって並べるなら、ホットスペアは単にHでいいんじゃないかなと。
0150マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 14:47:43ID:Su8s+lRt0?PLT(25001)
まず1を抜きます

@-2-3-4-5-6-F-8-9-10-11-12-13-14-15-16

ここでは、表面上なにも起こらず、サービスは維持されています
冗長性は+1です
さらに2を抜きます

@-A-3-4-5-6-F-8-9-10-11-12-13-14-15-16

これでも表面上は何も変化はなく、サービスは維持されていました。
*冗長性は0です*
さて、ホットスワップが機能していないことに気がついていないおいらは
いよいよ*冗長性0*を試すために3番を抜きます・・・・
0151root▲▲ ★
垢版 |
2007/12/20(木) 14:47:57ID:???0?PLT(80222)
で、説明の続きをおながいします。
なんとなくわかった気がしますが、まずは整理整頓をば。

>>148
なるほど、今回のHDDとは別事情ということで。
0153マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 14:52:22ID:Su8s+lRt0?PLT(25001)
@-A-B-4-5-6-F-8-9-10-11-12-13-14-15-16

ディスクアレイは停止し、サービスが止まりました(^_^;)
なぜ止まったのかわからないまま、試験を続行しました。
次に3を刺します。

@-A-3-4-5-6-F-8-9-10-11-12-13-14-15-16

この時点で、ステータス上は正常(冗長性0)とされ、リビルドなどは発生しませんでしたが
ここでサービスが再開したかあるいは停止したままだったか、現在不明。
0154マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 14:53:19ID:Su8s+lRt0?PLT(25001)
>153
サービスが再開しなかったことが今、確認された。
0156マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 14:56:32ID:Su8s+lRt0?PLT(25001)
更に、2を挿入しました
結果、リビルドが開始されました。

@-R-3-4-5-6-F-8-9-10-11-12-13-14-15-16

このリビルド中に1を挿入しました
すると、1はunit 1に組み込まれ、レイドアレイの外に出てしまいました。
2番のリビルドが終わった時点で

[1]-2-3-4-5-6-F-8-9-10-11-12-13-14-15-16

という状態になりました(ちなみにホットスペアの7番はunit2になっていて、やはりレイドアレイの外です)
0157root▲▲ ★
垢版 |
2007/12/20(木) 14:57:09ID:???0?PLT(80222)
>>153-154
なるほど、状況よくわかりますた。

データが吹っ飛ばなかったのは、運がよかったですね、、、。
で、

サービスが再開しなかった

リブートかけた

んでしょう。きっと。

それで、リブートした時に、

「前に一時的にドライブが見えなくなったけど、
同じドライブがまた見えるようになったみたい。
データも残っているから、とりあえずよしとしよう、そうしよう」

となったんですね、きっと。
0158マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 14:57:39ID:Su8s+lRt0?PLT(25001)
この時点で、サーバをリブートし(リビルドが終わるのを待った)た結果
サービスが再開しました。
これが、昨日の16:00頃です。
0159マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 14:58:25ID:Su8s+lRt0?PLT(25001)
第一部 -完- (^_^;)
0163マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:01:13ID:Su8s+lRt0?PLT(25001)
第二部(^_^;)

さて、ここで現象を振り返って色々考えたわけですが
まだホットスペアが機能していなかったこと(つまりレイドアレイが破綻したこと)について気がついていません。
第二部の開始状態は以下のとおりです。

[1]-2-3-4-5-6-[7]-8-9-10-11-12-13-14-15-16

ホットスペアも別ユニットになっているので[7]としますね。
0165root▲▲ ★
垢版 |
2007/12/20(木) 15:03:20ID:???0?PLT(80222)
>>163
これは、「RAID6 で一本欠損していて、ホットスペアなしの状態」
でいいのかしら。
0166マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:04:33ID:Su8s+lRt0?PLT(25001)
次になにをしようとしたかというと
[1]を抜いて、再度刺してリビルドが行われるかどうかを確かめようとしました
しかし・・・・ここで間違えて4を抜いてしまったのです
(おいらがラベリングとポートの対応を間違えた。これは人為的ミス)
この結果

[1]-2-3-C-5-6-[7]-8-9-10-11-12-13-14-15-16

となります。
冗長性は0です。
ここで初めてホットスペアが機能していないという事実に気がつきます(^_^;)
しかし、実はまだ第一部の検証が終わっていなかったため
レイドが破綻した事実には気がついていません(^_^;)とほー
0167マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:04:56ID:Su8s+lRt0?PLT(25001)
>165
そうですそうです(^_^;)
0170マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:06:52ID:Su8s+lRt0?PLT(25001)
さて、間違えて引き抜いたことは、引き抜いた直後に気がつきました(^_^;)
しかし、サービスは継続しています。
冗長性0である認識はあったので、まず復旧を行います
4番を刺しました。

[1]-2-3-R-5-6-[7]-8-9-10-11-12-13-14-15-16

サービスを継続したまま4番のリビルドが行われ
午前01:30頃無事リビルドが完了。冗長性は+1になりました。
0171マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:07:19ID:Su8s+lRt0?PLT(25001)
第二部 -完- (^_^;)
0174マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:15:14ID:Su8s+lRt0?PLT(25001)
第三部(^_^;)

いよいよ全体像がつかめてきました(^_^;)
あとは[1]と[7]を復旧させるだけです。
当初の考えどおり、1を抜いて再度刺しましたが、状況は変わらず。
そこで[1]を再度抜いた状態で、unit 1を削除しました。
で、全体をリスキャンして、状態を再確認すると

@-2-3-4-5-6-[7]-8-9-10-11-12-13-14-15-16

・1はディスクがないよ
・7はunit1だよ

と認識するようになりました。
0176マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:18:14ID:Su8s+lRt0?PLT(25001)
そこで1に新品のディスクを挿入しました。
リビルドが始まりました。

R-2-3-4-5-6-[7]-8-9-10-11-12-13-14-15-16

更に、7を抜いて、unit1(7が属しているunit)を削除。
7にリスキャンをかけて7に新品を刺したら
刺した瞬間からホットスペアが機能しはじめました。
現在の状況は

R-2-3-4-5-6-7-8-9-10-11-12-13-14-15-16

1のリビルドが終われば完了の予定です(^_^;)ふう
0177マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:19:21ID:Su8s+lRt0?PLT(25001)
ささやいたー(^_^;)チェック開始
0181マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:33:33ID:Su8s+lRt0?PLT(25001)
あい(^_^;)
Unit Maintenance (Controller ID 0)
------------------------------------
Unit 0 15 drives RAID 6 5.91 TB OK
Port 14 ST3500630AS 465.76 GB OK
Port 13 ST3500630AS 465.76 GB OK
Port 12 ST3500630AS 465.76 GB OK
Port 11 ST3500630AS 465.76 GB OK
Port 10 ST3500630AS 465.76 GB OK
Port 9 ST3500630AS 465.76 GB OK
Port 8 ST3500630AS 465.76 GB OK
Port 15 ST3500630AS 465.76 GB OK
Port 6 ST3500630AS 465.76 GB OK
Port 5 ST3500630AS 465.76 GB OK
Port 4 ST3500630AS 465.76 GB OK
Port 3 ST3500630AS 465.76 GB OK
Port 2 ST3500630AS 465.76 GB OK
Port 1 ST3500630AS 465.76 GB OK
Port 0 ST3500630AS 465.76 GB OK
------------------------------------
Unit 1 15 drives RAID 6 5.91 TB INOPERABLE
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
Port 7 ST3500630AS 465.76 GB OK
-- -- -- NOT PRESENT
------------------------------------
0182マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:34:22ID:Su8s+lRt0?PLT(25001)
banana3000# date
Wed Dec 19 22:31:26 PST 2007
banana3000# tw_cli
//banana3000> info c0

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache
AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 64K 6053.47 ON OFF
u1 RAID-6 INOPERABLE - - 64K 6053.47 OFF OFF

Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 6QG15YS8
p1 OK u0 465.76 GB 976773168 6QG0TLHT
p2 OK u0 465.76 GB 976773168 6QG11Z7M
p3 OK u0 465.76 GB 976773168 6QG15ZP5
p4 OK u0 465.76 GB 976773168 6QG16SGK
p5 OK u0 465.76 GB 976773168 6QG15EYR
p6 OK u0 465.76 GB 976773168 6QG16SAM
p7 OK u1 465.76 GB 976773168 6QG15DFL
p8 OK u0 465.76 GB 976773168 6QG12MYG
p9 OK u0 465.76 GB 976773168 6QG12NSB
p10 OK u0 465.76 GB 976773168 6QG15YP4
p11 OK u0 465.76 GB 976773168 6QG14N7G
p12 OK u0 465.76 GB 976773168 6QG10SS5
p13 OK u0 465.76 GB 976773168 6QG14N66
p14 OK u0 465.76 GB 976773168 6QG14N34
p15 OK u0 465.76 GB 976773168 6QG10PGX

//banana3000>
0183マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:38:25ID:Su8s+lRt0?PLT(25001)
現在の状態

1-2-3-4-5-6-[7]-8-9-10-11-12-13-14-15-16

7は別ユニット(^_^;)
0184root▲▲ ★
垢版 |
2007/12/20(木) 15:38:29ID:???0?PLT(80222)
>>181
微妙に出力形式が違うような、、、。

show unitstatus

とかすればいいのかしら。
0185root▲▲ ★
垢版 |
2007/12/20(木) 15:40:03ID:???0?PLT(80222)
>>182-183
了解です。

man してみた。
やはり show unitstatus でわかるみたい。

(以下引用)
/cx show unitstatus
This command presents a list of units, their types, capacity and status cur-
rently managed by the specified controller /cx.

Example:

//localhost> /c2 show unitstatus

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 OK - - 64K 596.004 ON OFF
u1 RAID-0 OK - - 64K 298.002 ON OFF
u2 SPARE OK - - - 149.042 - OFF
u3 RAID-1 OK - - - 149.001 ON OFF
0187マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:41:38ID:Su8s+lRt0?PLT(25001)
>185-186
おー(^_^;)了解
0188マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 15:53:58ID:Su8s+lRt0?PLT(25001)
>185-186
そういう表示にならなかった(^_^;)

//banana3000> /c0 show unitstatus

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache
AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 64K 6053.47 ON OFF
u1 RAID-6 INOPERABLE - - 64K 6053.47 OFF OFF

//banana3000>

これはホットスペアとして機能してないってことなのか?(^_^;)
0189root▲▲ ★
垢版 |
2007/12/20(木) 15:55:04ID:???0?PLT(80222)
で、、、。

>>182 をみると、なっていないような肝。


/c0 add type=spare disk=7
/c0 show

でどうかな。

で、マァヴさんのここまでの説明は、よく見るとちょっとどきどきですね。
>>182 とかはドライブを「0から数えている」のに、
マァヴさんは1から数えている。

しかも、別ユニットのは番号が7で一致している、、、。
0191root▲▲ ★
垢版 |
2007/12/20(木) 15:58:28ID:???0?PLT(80222)
>>188
してませんね、、、。

u1 の設定がおかしい気がします。

まだマニュアルを5分ぐらいしか読んでませんが、
このRAIDカードは、

・物理 port 0 - port 15 に HDD がつながる
・論理ユニット u0 とか u1 単位で、RAID 設定や spare 設定ができる
・u0 を RAID 6 にして、u1 を spare にする、という感じで設定する

みたいなので、

u0 は 0-6, 8-15 で RAID 6
u1 は 7 で spare

になっていないとおかしいと思います。

で、例えばシステムディスクもここに入れたければ、

u0 0-1 で RAID 1
u1 2-14 で RAID 6
u2 15 u0 u1 共通の spare

とかいうのも可能みたい。
0194root▲▲ ★
垢版 |
2007/12/20(木) 15:59:09ID:???0?PLT(80222)
といったところで本業の会議。
そのあと締め切り物の原稿(これはもう今やっているが、、、煮詰まるとここに)。

んでは。
0196マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 16:00:30ID:Su8s+lRt0?PLT(25001)
>189
あー(^_^;)経緯説明内の番号は、0から15のところ、間違えて1-16で書いちゃいました
操作したドライブの番号は間違ってないけど、あの図の
1の前に0を加えて、最後の16を削ったのが正しい情報になります。
0198マァヴ ◆jxAYUMI09s
垢版 |
2007/12/20(木) 16:01:45ID:Su8s+lRt0?PLT(25001)
>194
どもです(^_^;)
ホットスペアまわりはもうちっと調べて、必要があれば実験するですー
0205動け動けウゴウゴ2ちゃんねる
垢版 |
2007/12/20(木) 16:32:13ID:pKQmb9jz0
coming soon に一致する日本語のページ 約 529,000 件中 1 - 50 件目 (0.08 秒)

comming soon に一致する日本語のページ 約 83,000 件中 1 - 50 件目 (0.29 秒)

もしかして: coming soon
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況