X



【Project peko】2ch特化型サーバ・ロケーション構築作戦 Part15

■ このスレッドは過去ログ倉庫に格納されています
1▲:/usr/local/bin/ch2 -o i686 ◆P8fXJj6wwo
垢版 |
04/08/21 15:04ID:hJLR4nfQ
peko作戦について語るスレです。
サーバロケーションPIEに関する話題もこちらで。
現在の主要なテーマはpeko/cobraおよびtigerサーバが
特定条件下における突然死の原因究明です。
9月にrootさんが現地へ渡米して作業するそうです。

<関連サイト>
レンタルサーバー maido3.com 2ちゃんねるの転送量: http://server.maido3.com/pie/
MRTGによる統計情報: http://mumumu.mu/mrtg/
2ちゃんねる/PINKちゃんねる 稼動中のサーバ一覧: http://mumumu.mu/serverlist.html

<運営板PINKちゃんねる関係>
【Project ama】PINKちゃんねる特化型サーバ構築作戦 Part2
http://qb5.2ch.net/test/read.cgi/operate/1082721809/l50
【PINKちゃんねる】新サーバ獲得会議☆3
http://qb5.2ch.net/test/read.cgi/operate/1080295660/l50

<携帯電話特化型サーバ構築作戦関係>
【Love Affair】携帯からのアクセスに対する考察・次の一手 Part2
http://qb5.2ch.net/test/read.cgi/operate/1088657713/l50

<前スレ>
【Project peko】2ch特化型サーバ・ロケーション構築作戦 Part14
http://qb5.2ch.net/test/read.cgi/operate/1087666806/l50
234root▲ ★
垢版 |
04/10/18 15:05:08ID:???
oyster902 の件

/home (Sumaストレージ) を mount しないようにしてリブート。
リブート & background fsck 終了後、手で fsck 中。
235root▲ ★
垢版 |
04/10/18 15:05:35ID:???
なお念のため、>>234 の前に Suma ストレージをリセット。
236root▲ ★
垢版 |
04/10/18 16:29:06ID:???
Phase 1通った。< fsck
Phase 2実行中。
237root▲ ★
垢版 |
04/10/18 17:14:28ID:???
** Phase 2 - Check Pathnames
** Phase 3 - Check Connectivity
** Phase 4 - Check Reference Counts
** Phase 5 - Check Cyl groups
17755430 files, 317374114 used, 391390393 free (6742033 frags, 48081045 blocks, 1.0% fragmentation)

***** FILE SYSTEM MARKED CLEAN *****

無事通りました。
これから 902 を復活させます。Sumaストレージにもエラーログはない模様。
238root▲ ★
垢版 |
04/10/18 17:16:50ID:???
復活させました。これで様子見ということで。< 902
04/10/18 17:23:21ID:FFKJeuGa
>>238
乙ですー
04/10/18 17:34:11ID://vbaRKt
>>238
乙ですです。
241root▲ ★
垢版 |
04/10/18 19:57:17ID:???
いやん。

Oct 18 02:48:08 <0.2> oyster902 kernel: aac0: **Monitor** NMI ISR: NMI_MEMORY_CONTROLLER_ERROR
04/10/18 20:19:59ID://vbaRKt
>>241
うぉ・・・
メモリーコントローラ周りがヤバメなんでしょうか?
これが原因で不安定なんでしょうかねぇ・・・

memtestあたりで故障しかけかって分からんもんなんでしょうか?
#エラーでてる時点でヤバメなんだろうけど
04/10/19 09:31:03ID:VOigsXyL
>>242
ということは、

C P U 換 装

ですか?
# Pentium系とちがってマザボ換装しなくていいのがメリットw
244root▲ ★
垢版 |
04/10/19 11:48:47ID:???
その後 >>241 のエラーは起こっていません。その他の挙動も今のところ異常なし。

ところで、「aac0:」が気になるわけですが。

# aac0 = システムディスクがつながっているほうのRAIDコントローラ。
# Sumaはaac0ではなく別のFCカード(isp0)に接続。
245root▲ ★
垢版 |
04/10/19 16:56:16ID:???
oyster902、また落ちているすね。うーん。
246root▲ ★
垢版 |
04/10/19 17:02:41ID:???
何が起きているのか。症状はこの間と同じ。

・pingには答える
・httpdは応答しない(connection refused)
・sshはつながる、しかしログインできない

ちゃんとコンソールから調べてもらった方がよさそうなので、
今日はリブート要請をせず(コンソールのメッセージがわからなくなる)、
今夜にでも現地の中の人と別途調整することにします。

# 902はSumaの制御でシリアルポートを使っているので、リモートコンソールではないのです。

なお、Sumaストレージにはリモートログインできて、異常なく動いていることは確認しました。
いまのところ 902 側のハードウェア不良の可能性が大きいか。
247root▲ ★
垢版 |
04/10/19 17:04:54ID:???
> ・httpdは応答しない(connection refused)

今はConnection timed outします。ううむ。
248root▲ ★
垢版 |
04/10/19 17:06:48ID:???
サービスがいないポート(10)はちゃんとrefused
サービスがいるポート(80)は固まる

%telnet oyster902.peko.2ch.net 10
Trying 206.223.151.230...
telnet: connect to address 206.223.151.230: Connection refused
telnet: Unable to connect to remote host
%telnet oyster902.peko.2ch.net 80
Trying 206.223.151.230...
^C

で、>>244 のシステムエラー、そしてSuma側には異常がないことからすると、
システムディスクがつながっている、AdaptecのRAIDコントローラがいまいちな予感。
249root▲ ★
垢版 |
04/10/19 17:13:47ID:???
さて、これで連日、3回目のダウンなので、何らかの問題が生じたことは明らかかと。

・今日の深夜に現地の中の人と連絡をとり、状況を伝える
・システムコンソールのメッセージを見てもらう
・場合によっては入院・加療か

ちなみに902のRAIDコントローラは、Adaptec 2120Sです。
OSはFreeBSD 5.2.1/amd64。

>>244 のエラーも含め、何か情報があればここに書いていただけると。
04/10/19 18:09:05ID:Zbx0wOVo
ちょっと覗かせて頂いたものです。関係あるかは分かりませんがAdaptec 2120Sといえば・・・
http://ask.adaptec.co.jp/cgi-bin/adaptec_japan.cfg/php/enduser/std_adp.php?p_sid=RumNikoh&p_lva=&p_faqid=1215&p_created=1064535857
&p_sp=cF9zcmNoPTEmcF9ncmlkc29ydD0mcF9yb3dfY250PTEmcF9zZWFyY2hfdGV4dD0xMjE1JnBfc2VhcmNoX3R5cGU9MjpmYXFzLmZhcV
9pZCZwX3Byb2RfbHZsMT02NSZwX3Byb2RfbHZsMj1_YW55fiZwX2NhdF9sdmwxPX5hbnl_JnBfc29ydF9ieT1mYXFzLmZhcV9pZDpEJnBfcGFnZT0x&p_li=
251root▲ ★
垢版 |
04/10/19 18:16:38ID:???
>>250
どうもです。

シーゲートファーム問題すか。
いちおう、2台のディスク(RAID 1で運用)が最新ファーム(6)なことは前に確認しているです。
252root▲ ★
垢版 |
04/10/19 18:19:37ID:???
>>251 補足
渡された当日の古い dmesg。

http://mumumu.mu/oyster902/dmesg-freebsd52-i386.txt
253root▲ ★
垢版 |
04/10/19 23:45:48ID:???
というわけで、今日あたり対応を。

今のところはたぶん、2120Sコントローラがいまいちになったものというのがわたしの推測。
Jimさんに連絡とって、作業のスケジューリングをぼちぼちと。
254root▲ ★
垢版 |
04/10/20 01:26:26ID:???
Dear Mumumu,

I will take this machine to Polywell this morning if it is ok to take it offline.

Your friend,

Jim
255root▲ ★
垢版 |
04/10/20 01:26:47ID:???
私の返事:

Ok, please do it.

I think Suma is completely no problem, so you can bring only 902 itself to
Polywell.

-- Mumumu
256root▲ ★
垢版 |
04/10/20 01:29:04ID:???
というわけで、902はPolywellに入院の方向で。
こんなメール出してあるので、その筋での調査&検査入院かと。

Jim-san,

In the several days, oyster902 is encountered suddenly system downs.
And today, 902 has been down since today's evening in Japan.

We dare to suspend rebooting 902 for checking system console message.
So, if you can, please go to PIE and check system console message of
902.

I checked the details of Suma storage the day before yesterday, and
they works fine and I cannot detect any errors. So, there are no
problem on Suma.

And yesterday, I detected strange system message as seen below:

Oct 18 02:48:08 <0.2> oyster902 kernel: aac0: **Monitor** NMI ISR: NMI_MEMORY_CONTROLLER_ERROR

This means Adaptec RAID 1 controller (aac0) on board memory is wrong,
so fixing the card is needed, I think.

Anyway, please check current system console message of 902.

Yoroshiku-Onegai shimasu.
04/10/20 01:45:42ID:nEnaij2K
過去ログはしばらくお預けということだろうか。
04/10/20 01:48:05ID:QvHYrvoY
>>256
英語がスラスラ書ける人ってのはカッコよく見えるんだよなァ。
rootさんかっこえぇ
259root▲ ★
垢版 |
04/10/20 02:00:59ID:???
>>257
ですね、、、。

過去ログが入っている外付けディスクそのものは正常なので、
本体が直れば復活かと。

>>258
痛い目になんどもなんどもあって少しずつおぼえたです。
100%現場のみ。
04/10/20 02:21:15ID:QdovSaAU
最期がローマ字なのは何か意味があるのだろうか・・・
261root▲ ★
垢版 |
04/10/20 02:27:16ID:???
Jim (02:18 AM) :
this is error right now
aac0: Command 0xfffffff8ed5990 timeout after 3184 seconds
Me (02:19 AM) :
Oh, I think my guess is correct. aac0 is Adaptec 2120S RAID controller driver name of FreeBSD.
Me (02:20 AM) :
So, I think we need to fix the wrong card.
Jim (02:21 AM) :
this just happened? how can the card become wrong after it was right for many months?
Jim (02:22 AM) :
I am going to turn oyster902 off now
Me (02:23 AM) :
Hmm... Surely, this card is correct during about 8 months.
Me (02:23 AM) :
Ok, please do it.
262root▲ ★
垢版 |
04/10/20 02:29:08ID:???
やはりシステムディスクを接続しているSCSIカードに問題が出た模様。
ということで 902 は入院となりました。

>>260
あいてがJimさんだから、そのへんは呼吸で。
263root▲ ★
垢版 |
04/10/20 02:37:17ID:???
Jim (02:34 AM) :
ok, I will go to polywell now. I will leave oyster902 there for the whole day.
Me (02:35 AM) :
Thank you for your work. Otsu-desu.
264root▲ ★
垢版 |
04/10/20 02:39:31ID:???
Jim (02:36 AM) :
dai jobu mata atode friend
Me (02:36 AM) :
Ok, mata atode.

ということでJimさんは902を持ってPolywellに向かいました。

これからFreeBSD 5.3R-RC1化したlive8のセットアップの続きを少しやって、ねるとするか。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況