X


2ch特化型サーバ・ロケーション構築作戦 Part21

レス数が900を超えています。1000を超えると表示できなくなるよ。
1root▲ ★
垢版 |
NGNG
2ch特化型サーバ・ロケーション構築作戦のスレッドです。

・2ちゃんねるのサーバロケーション、PIEに関する関連作業・調整事項
・DNS登録・変更関連の各種作業や調整事項
・2ちゃんねるのサーバで採用しているOS、FreeBSDに関する情報・調整事項
・各種作戦・プロジェクトとの連携、プロジェクト間の連携

等を取り扱います。

現在、複数サーバによる連携により、
サーバ能力のさらなるスケールアップをめざすための「雪だるま作戦」が進行中です。
しかし、問題はあらゆる意味で山積の状態です。

また「2ちゃんねる証券取引所」をはじめとする「株」関連や「Be」の機能強化、
あるいは、次世代の携帯アクセス環境をめざした「べっかんこ作戦」の状況など、
気候も暖かくなり、そろそろ気になりだす季節にさしかかりつつある今日この頃、
あいかわらず2ちゃんねるは、刻一刻と確実に変化し続けています。
832ピロリ
垢版 |
2006/06/11(日) 02:48:19ID:eXwO+GZN0
>>831
done
833root▲ ★
垢版 |
NGNG
確認しました。>>832

これで、今回の移転作業は終了かと。
oyster901 のハードウェア手当てについては、雪だるまスレあたりでわいわいと。
834ピロリ
垢版 |
2006/06/11(日) 02:58:53ID:eXwO+GZN0
はいー
2006/06/11(日) 03:57:12ID:3AnMscpZO
お疲れ様でし
2006/06/11(日) 05:14:16ID:YJ4EUbrO0
ど疲れさーん。。
2006/06/11(日) 09:17:18ID:k93MfDLb0
http://qb5.2ch.net/test/read.cgi/operate/1149952652/34
live23b -> 当面は保守的に 32-bit カーネル
news20b -> デバッグシンボル付き 64-bit カーネルで様子見

とか......
NGNG
とりあえず、live23bの鯖落ちの原因は、logを見ないと分かりませんから
まずは状況を把握してから、考えてもいいかも。。
839root▲ ★
垢版 |
NGNG
>>838
ログが残らないんですよね。いきなりガッと止まってしまって
強制リブート入れるのって。

前に FreeBSD 5.2.1R (例のgame6とかがちゃんと動かなかった時)にも
ちょっと調べたんですが、
カーネルデバッガ機能ありのカーネル作って、
リモートコンソールから強制的にカーネルデバッガに落とすとかいう
操作が必要になるです。

また、試行錯誤する日々か。
あるいは、最新の stable に上げてみるとか。
NGNG
>>839
そういうことですか。。
うーむ。。
2006/06/11(日) 11:34:35ID:k93MfDLb0
ひょっとすると,NFS の soft mount での timeout はデフォルトでは infinite になってて,
-s オプション指定しても -x とかも併せて指定しないと無意味になってるとか......
842root▲ ★
垢版 |
NGNG
>>841
ありえますね。

あとは、フロントの自動切り離しと自動再接続か。
うーむ、まだまだすることが多いなと。
843root▲ ★
垢版 |
NGNG
で、/etc/fstab に書くパターンでは -x とかは指定できない気がするので、
/md の mount と同じで、mount のためのスクリプトを別に書く必要がありそうですね。
これはそんなに難しくなさそうだけど。
844root▲ ★
垢版 |
NGNG
FreeBSD/amd64 なバックエンドは2台あるので、
1台をとりあえず現在の stable にしてみる方向で。
845root▲ ★
垢版 |
NGNG
うーむ。
make -j 4 buildworld で死ぬとは。

というかたぶん、負荷は関係ないっぽいですね。
踏むか踏まないかというか。
846root▲ ★
垢版 |
NGNG
%uname -a
FreeBSD cobra2244.maido3.com 6.1-STABLE FreeBSD 6.1-STABLE #1: Sat Jun 10 20:14:59 PDT 2006 root@cobra2244.maido3.com:/var/src/sys/amd64/compile/AMD64_COBRA_61_NOKBDMUX_NOPREEMPTION amd64

live23b カーネル更新。

これで live23b がしばらくハングしなければ、news20b も同じのに更新の方向で。
847root▲ ★
垢版 |
NGNG
6.1R (news20b)
-mpt0: MPI Version=1.2.9.0
-mpt0: Unhandled Event Notify Frame. Event 0xa.

6.1-STABLE (live23b)
+mpt0: MPI Version=1.2.12.0
+mpt0: Capabilities: ( RAID-1E RAID-1 SAFTE )
+mpt0: 0 Active Volumes (1 Max)
+mpt0: 0 Hidden Drive Members (6 Max)

SCSI コントローラのドライバが更新されているですね。
848root▲ ★
垢版 |
NGNG
>>847

うーん、でも、
私の記憶に間違いがなければ、この更新って 6.0R で入ったもののような気が
しないでもなかったり。
849root▲ ★
垢版 |
NGNG
…いや、>>847 はかんちがいっぽいですね。

SCSI コントローラ側のバージョンだった。
もう1回比較してみるか。
850root▲ ★
垢版 |
NGNG
dmesg 的には変化ない模様。< 6.1R と 6.1-STABLE
851root▲ ★
垢版 |
NGNG
とりあえず新カーネルで make -j4 buildworld 完走。

一度、リブート入れる予定。
852root▲ ★
垢版 |
NGNG
ユーザランドも 6.1-STABLE にした。< live23b (cobra2244)

NFS の設定の詰めは、急務ということで。
853root▲ ★
垢版 |
NGNG
mount_nfs -R 1 -D 1 -x 1 -s -a 4 -b -i -o ro,nosuid live22:/path /path

こうかな。
2006/06/11(日) 14:38:13ID:k93MfDLb0
>>853 timeout は秒なのか別の単位なのかはわかりませんが,秒だとすればそんなところですかね.
まぁとりあえずじっk(ryで.
855root▲ ★
垢版 |
NGNG
フロント5台の NFS を、>>853 の設定に全面的に変更した。
2006/06/11(日) 14:51:57ID:k93MfDLb0
つうか,秒ってより回数ですね<-R, -x

マウント時に -R 回リトライして,その後の NFS リクエストでは -x 回再送信すると.
で,再送信の間隔はデフォルトでは自動決定されるらしい(けれどもデフォルト値は不明).
2006/06/11(日) 15:35:51ID:k93MfDLb0
まだ read.cgi へのアクセスが固まる(NFS が刺さる)みたいですね......

>     mount retries the request up to the count specified in the
>     retry=n option. (Note that the default value for retry
>     differs between mount and automount. See the description
>     of retry, above.) Once the file system is mounted, each
>     NFS request made in the kernel waits timeo=n tenths of a
>     second for a response.  If no response arrives, the
>     time-out  is  multiplied by 2 and the request is
>     retransmitted. When the number of retransmissions has
>     reached the number specified in the retrans=n option, a
>     file system mounted with the soft option returns an
>     error on the request; one mounted with the hard option
>     prints a warning message and continues to retry the request.

↑は Solaris での解説ですが

>   mount_nfs [-23NPTUbcdiLls] [-D deadthresh] [-I readdirsize] [-R retrycnt]
>        [-a maxreadahead] [-g maxgroups] [-o options] [-r readsize]
>        [-t timeout] [-w writesize] [-x retrans] rhost:path node

という FreeBSD のオプションを当てはめると↓でいいのかなぁ......

retry=n -> -R retrycnt
timeo=n -> -t timeout
retrans=n -> -x retrans
858root▲ ★
垢版 |
NGNG
うーむ、

原因切り分けのため、
SMP やめて、single CPU モードにしてみる予定。< live23b/news20b
2006/06/11(日) 15:51:21ID:k93MfDLb0
http://qb5.2ch.net/test/read.cgi/operate/1149989815/221
1 CPU で 64-bit と,SMP で 32-bit と,どっちがいいか......
860root▲ ★
垢版 |
NGNG
フロント 強制リブート中。

いったん NFS はずします。
861root▲ ★
垢版 |
NGNG
>>859
32bit にするのは、OS の再インストールとか
各種設定しなおしとか、ちと面倒かなと。

それよりは、原因究明したいですね。
将来を考えた場合。
862root▲ ★
垢版 |
NGNG
tiger507 上がってこない。

NFS が影響を受けて止まっていて(フロントのF22がささっていた)、
強制リブートで上がってこなくなった。

例の KVM との相性(tiger5xx はリブート時にたまに止まることがある)、
による影響か。
863root▲ ★
垢版 |
NGNG
負荷で落ちてるんじゃないってのがなぁ。

5.2.1R の時の悪夢再びか。
2006/06/11(日) 16:22:35ID:k93MfDLb0
NFS は,どこかで localhost 上でマウントしてじっk(ryするとか.
865root▲ ★
垢版 |
NGNG
>>864
家の環境でやってみようかなと。
866root▲ ★
垢版 |
NGNG
amd64 問題は、手元に amd64 なサーバが1台もないので、
ちと、苦しいですね。

リブートしたら、作業の運びで。
867root▲ ★
垢版 |
NGNG
…しかし Google してもヒットする事例がないっぽい、というのも、
5.2.1R の時とよく似ている、とは言えるんだが。

今度は i386 では問題ない、というのも、どうも。
868root▲ ★
垢版 |
NGNG
優先度の高い、解決すべき問題は2つ:

1) NFS の設定を詰める

これは、テスト環境を自宅に確保する方向で。

2) FreeBSD 6.1R/amd64 の不安定動作(突然のハングアップ)の原因究明と解消

最新のstableにするも効果なし。
まずは SMP をやめてみる方向で。
2006/06/11(日) 16:54:41ID:UsvTfuS00
>>868
うちのFreeBSD+amd64は特に不安定になること無いですよ。
負荷のかかり方が違うからなんともいえませんが。。。
870root▲ ★
垢版 |
NGNG
1台自宅に確保して、 FreeBSD 6.1R を入れた。

CPU: Intel Pentium III (754.71-MHz 686-class CPU)

これで、自宅に環境作れそうなので、NFS の試験と詰めを急ぎ実施予定。
871root▲ ★
垢版 |
NGNG
>>869
構成を教えてもらえると、助かります。

motherboard
CPU
OS Version
memory
HDD

特に、
・dual CPUかどうか
・ディスクがSCSIかどうか

あたり。
2006/06/11(日) 17:00:55ID:UsvTfuS00
>>871
motherboard:Gigabyte GA-7A8DW
CPU : Optron240 × 2
OS Version FreeBSD 6.1R-p1 (SMP)
memory : 512 × 4
HDD : SCSI HITACHI HUS157336EL3600(U320、15000rpm、3.6G) × 2

です。
2006/06/11(日) 17:03:35ID:24rlcZ2Y0
いい鯖だなぁ
2006/06/11(日) 17:06:43ID:k93MfDLb0
なんかありますかねぇ......
http://docs.freebsd.org/cgi/getmsg.cgi?fetch=6129+0+archive/2006/freebsd-amd64/20060521.freebsd-amd64
875root▲ ★
垢版 |
NGNG
>>872
なるほどです。

SCSI controller は、、、。
2006/06/11(日) 17:21:12ID:UsvTfuS00
>>875
SCSIはadaptecの39320を使っています
877root▲ ★
垢版 |
NGNG
>>876
ahd ですか。

つまり、cobra のと違うっすね。(mpt)
2006/06/11(日) 17:25:00ID:UsvTfuS00
>>877
そうですね。
879root▲ ★
垢版 |
NGNG
/usr/src/sys/nfsclient/nfs_socket.c

うわーん、この#if 0 〜 #endif はなんだよぉ。

if (nmp->nm_tprintf_initial_delay != 0 &&
(rep->r_rexmit > 2 || (rep->r_flags & R_RESENDERR)) &&
rep->r_lastmsg + nmp->nm_tprintf_delay < now.tv_sec) {
rep->r_lastmsg = now.tv_sec;
nfs_down(rep, nmp, rep->r_td, "not responding",
0, NFSSTA_TIMEO);
#if 0
if (!(nmp->nm_state & NFSSTA_MOUNTED)) {
/* we're not yet completely mounted and */
/* we can't complete an RPC, so we fail */
nfsstats.rpctimeouts++;
nfs_softterm(rep);
continue;
}
#endif
}
880root▲ ★
垢版 |
NGNG
nfs_socket.c って、current と stable/release でかなり手が入っているのね。

HEAD は 1.141 で、RELENG_6 や RELENG_6_1 は 1.125.2.9 とか言っているし、
>>879 にあった不可解な #if 0 〜 #endif は、なくなっている。
881root▲ ★
垢版 |
NGNG
NFS まわりの、ソースの diff (RELENG_6 と CURRENT)を眺め中。>>880

mutex 系の lock/unlock とかが恐ろしく変わっていますね。
NFS 部分だけ、そのまま current のを持ってくるというわけにはいかない予感。

で、これだけ mutex 系のところで手が入っているということは、
NFS 部分に amd64/SMP だとおかしくなるバグがいる可能性も、考えられるなと。

…これだと、現状では、

1) 過去ログは offlaw.cgi や 2ちゃんねるプロバイダ用プログラム、
公式 p2 用プログラムを一式バックエンドに proxy で転送することにして、
まずは妥協する。(= 削除の呪文と同じ取り扱いにする)

ことにして、

2) バックエンド側の NFS の設定をやめて、SMP 設定のままでまずは動かしてみる(amd64も)

ことにし、

3) 次に、SMP を切る等の別のアクションを起こす方向で考える(amd64)

で、いくことにしようかと。
882root▲ ★
垢版 |
NGNG
ちなみに自宅での NFS の実験ですが、
いろいろ試行錯誤しているものの、いまだ not responding から
そのまま異常終了してくれる状況になるには至らず。
883root▲ ★
垢版 |
NGNG
で、そうなると、read.cgi での過去ログの検出を
直接ファイルを検索することで実現しているので、
ここの部分を、なんとか解決する必要があると。

(つまり read.cgi では「datがない」になってしまう)
884root▲ ★
垢版 |
NGNG
で、以前はここを、

過去ログを全フロントに転送する

ことで乗り切っていました。

しかしこれは、過去ログが溜まってくるとシステムのコストが加速度的に上がってしまい、
だめだということが既に判明している

と。

さて、どうするのがいいのか。
885root▲ ★
垢版 |
NGNG
>>884 はもちろん、フロントの数がスケールしない、
という意味でも、筋が悪いと。
2006/06/11(日) 19:13:19ID:???0
と言うことは雪だるま特化型のread.cgiを考えないといけないんですね
まずは直接検索から間接検索に切り替える方向とか
887root▲ ★
垢版 |
2006/06/11(日) 19:34:20ID:???0
>>886
既に read.cgi はフロントで動いているわけです。
特化型というか、過去ログ部分もきちんと雪だるま対応したバージョンってことですね。
888root▲ ★
垢版 |
2006/06/11(日) 19:46:00ID:???0
雪だるまサーバの過去ログ部分の現状:

・offlaw.cgi 経由での入手: 可能。offlaw.cgi はバックエンドで動作(設定変更した)
・2ちゃんねるプロバイダでの入手: 可能なはず(未確認)。プログラムはバックエンドで動作(同上)
・公式 p2 / モリタポ利用での入手: 同上

・read.cgi での表示: 「dat が存在しません」になってしまう(実際には存在している)

なお、live23b は現在設定変更中。
変更でき次第、上記になる予定。
889root▲ ★
垢版 |
NGNG
live23b / news20b 工事完了のはず。>>888
890root▲ ★
垢版 |
NGNG
NFSについて:

フロントからの NFS は全面的にオフの状態。
ex15 もオフにする設定は入れたので、次はオフの状態で立ち上がる予定。
2006/06/11(日) 20:05:11ID:???0
>888-889
まだ「datが存在しません。」になります。
反映されてないのかなぁ?
892root▲ ★
垢版 |
NGNG
>>891
んーと、落ち着いて >>888 を再度、読んでいただけると。
2006/06/11(日) 20:13:31ID:???0
>892
了解しました。
それで正解なんですね
2006/06/11(日) 20:17:55ID:uW4NY6x6P
live23落ちた
895root▲ ★
垢版 |
NGNG
>>894
ううむ、、、。

リブート要請出します。
single CPU modeへの以降手配を。
2006/06/11(日) 20:20:37ID:uW4NY6x6P
誤爆スマソ
897root▲ ★
垢版 |
NGNG
cobra2244 は上がったら、

1) 6.1R に戻す
2) single CPU mode への移行

のてはずで。
898root▲ ★
垢版 |
NGNG
cobra2244 は、立ち上がってこない状態になった模様。

-stable にして、カーネルを 6.1R に戻したのが悪かったのかも。
899root▲ ★
垢版 |
NGNG
514 名前:root▲ ★[] 投稿日:2006/06/11(日) 20:55:44 ID:???0 ?#
live23b は、立ち上がらない状態になった模様。

数度リブートしてもらいましたが、立ち上がらないです。
リモート KVM が使えるようになるまで、復旧作業ができない状態。

ううむ、、、。
2006/06/11(日) 21:05:17ID:B+yli6Za0
いつもおつかれさまだお。
( ^ω^)つt■  コーヒーどーぞだお
901root▲ ★
垢版 |
NGNG
で、現在の状態で http://live23.2ch.net/livetbs/ とかをアクセスすると、
結構な時間、待つ模様。

httpd のスロットが、ふさがってくるかも。
902root▲ ★
垢版 |
NGNG
そうか、一度 503 になれば大丈夫なのかな。>>901

そういう仕様か、、、。< mod_proxy
903root▲ ★
垢版 |
NGNG
…見ていると、live23b は起きようとして
たまに ping かかる状態になっていますね(それでまた落ちてしまう)。

これが、>>902 の原因かも。
904root▲ ★
垢版 |
NGNG
現状:

・tiger507 = ex15: ダウンしたまま。
現地に状況調査 & 確認依頼中

・cobra2244 = live23b: たまにping通るものの、ssh通るまでに至らず、
再度落ちる。

現地に状況確認 & 状況確認中。
KVM 経由でのシングルユーザオペレーションが必要な予感。

・上記2台にリモートアクセスするための remote KVM へのアクセスが支障中。

現地に状況確認 & 復旧依頼中。
905動け動けウゴウゴ2ちゃんねる
垢版 |
2006/06/11(日) 21:43:29ID:uylAozCN0
いやああああああああああああ
2006/06/11(日) 21:57:02ID:PTvwH5UU0
rootサソ お疲れ様です。
907root▲ ★
垢版 |
NGNG
live23b これからの展開:

>>897 を実施
・安定するなら、それで運用
・力(処理能力)が足りないようなら、涙を飲んで 6.0R に戻し、dual CPU へ

あたりかと。

stable 版を使うのは、特に amd64 ではリスクが大きいと。
2006/06/11(日) 23:39:01ID:tSszimok0
6.0-Rにすると、Apacheのバグがでるんじゃないの?
909root▲ ★
垢版 |
NGNG
>>908
出る可能性ありますね。

あと、ex14 で起こっていたような、
ping かかるけれども他のサービスが全部死ぬ、
というパターンになることがありえます。

(6.1R/amd64 の場合、ping もかからなくなるのが違う)
910ピロリ
垢版 |
2006/06/12(月) 00:02:07ID:fkwVt5Ry0
1) offlaw.cgi のための転送はやめる
2) その上で offlaw.cgi をどうするか考える。
3) read.cgi をどうするか考える。

な手順かと、

まずは転送&同期を止めましょう。
911root▲ ★
垢版 |
NGNG
>>910
それ(過去ログのための転送&同期)は、NFS にした時点で既に全廃しているです。
912ピロリ
垢版 |
2006/06/12(月) 00:05:45ID:T4H0CPgK0
>>884- 以下あたりは解決しているということ?
2006/06/12(月) 00:05:46ID:w7L0x0xG0
>>910
転送&同期?
offlaw.cgiはすでにバックエンドで動作してるけど
914ピロリ
垢版 |
2006/06/12(月) 00:06:28ID:T4H0CPgK0
んで
それは事の原因じゃないということ?
915ピロリ
垢版 |
2006/06/12(月) 00:07:07ID:T4H0CPgK0
>>911
when ?
916root▲ ★
垢版 |
NGNG
今、同期とっているのは、

・板名/SETTING.TXT (更新されてなければ取り直さない)
・板名/kakolog.html (同上)
・キャップデータ等

になります。

>>912 は、NFS にする以前の設定です。

で、ちょっと前に NFS の設定に変えた。
この時点で転送&同期を全廃したわけです。(>>911 >>915)

現在、>>910 の状態になっていると理解しています。

…とここまで書いてわかった。

>>910 は、 offlaw.cgi のリクエストをバックエンドに転送するのも、やめるべし、
と言っていますか。
917root▲ ★
垢版 |
NGNG
今の設定のまとめ。上のほうにもあるけど。

1) 過去ログのデータはバックエンドにある。フロントへのデータ同期はしていない。
2) バックエンドにある過去ログデータの NFS での共有は、今日やめた。
3) フロントで受け付けた offlaw.cgi のリクエストは、バックエンドにフォワードされ、
バックエンドで offlaw.cgi が実行され、フロント経由で結果が戻る。
4) フロントで動く read.cgi は dat 落ちしたデータについては「dat が存在しません」エラーになる。
918ピロリ
垢版 |
2006/06/12(月) 00:13:47ID:T4H0CPgK0
>>916
言ってマース。

付け焼刃はやめよう作戦。
多数の選択肢を用意して検討し一番良いと思われるのを
少々(時間的、人的)コストはかかってもやろうよ作戦。

それまでは offlaw.cgi は動かない read.cgi もいまいち
もいたし方がないかと、
2006/06/12(月) 00:16:32ID:w7L0x0xG0
付け焼刃にしてから多数の選択肢を用意して検討し一番良いと思われるの
やっても問題はないでしょ
920root▲ ★
垢版 |
NGNG
>>918
そういうことですか。
把握しました。

とりあえず*今は*、過去ログは致し方がないということにすると。
921ピロリ
垢版 |
2006/06/12(月) 00:17:29ID:T4H0CPgK0
決してそうは思いません
最悪手

>>919
922root▲ ★
垢版 |
NGNG
>>919 もありかもですが、このへんは、
判断のしどころなのかなと。
923ピロリ
垢版 |
2006/06/12(月) 00:19:38ID:T4H0CPgK0
>>920

よろしくです。

さすがに十数人不眠不休で実況サーバのおもりをすることの意義を見出せません
かといって動かしたいのは山々で、

不安定要素は全部排除。
最小限の機能だけ動かす。
924ピロリ
垢版 |
2006/06/12(月) 00:20:45ID:T4H0CPgK0
>>922
絶対無いです。

offlaw.cgi @live22
offlaw.cgi @live23b
offlaw.cgi @news20b

止めてきます。
925root▲ ★
垢版 |
NGNG
>>923
納得したです。

offlaw.cgi をはじめとする過去ログ関連の転送、
止める作業に入ります。
926ピロリ
垢版 |
2006/06/12(月) 00:26:56ID:T4H0CPgK0
offlaw.cgi @live23b はサーバが落ちていたりするのかな?

offlaw.cgi @live22
offlaw.cgi @news20b
は止めました。
2006/06/12(月) 00:28:00ID:w7L0x0xG0
offlaw.cgiが不安要素だなんて初耳。
おじちゃんあんまり最近の動き理解してないんでしょ。
「過去ログ」って言葉を不安定要素と決め付けてるように見えるぜ。
928ピロリ
垢版 |
2006/06/12(月) 00:29:17ID:T4H0CPgK0
理解していないのはあ・ん・た。

有無を言わせません。
指令です。

929root▲ ★
垢版 |
NGNG
>>925
フロントからの offlaw.cgi の転送を止めました。

live23b = cobra2244 は、現在サーバダウン中です。
930ピロリ
垢版 |
2006/06/12(月) 00:31:05ID:T4H0CPgK0
この場合のとるべき戦略は、
「引けるとこまで引く」です。

つまり 雪だるまサーバを止める。

しかし・・・
あとは自分で考えてちょ
いちいち説明してなんかいられません。

>>927
931ピロリ
垢版 |
2006/06/12(月) 00:33:08ID:T4H0CPgK0
ちなみに、

cobra2244
tiger507
はリブート挑戦していますけど上がりません。
レス数が900を超えています。1000を超えると表示できなくなるよ。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。