X



2ch特化型サーバ・ロケーション構築作戦 Part22

■ このスレッドは過去ログ倉庫に格納されています
1root▲ ★
垢版 |
NGNG
2ch特化型サーバ・ロケーション構築作戦のスレッドです。

・2ちゃんねるのサーバロケーション、PIEに関する関連作業・調整事項
・DNS登録・変更関連の各種作業や調整事項
・2ちゃんねるのサーバで採用しているOS、FreeBSDに関する情報・調整事項
・各種作戦・プロジェクトとの連携、プロジェクト間の連携

等を取り扱います。

現在、複数サーバによる連携により、
サーバ能力のさらなるスケールアップをめざすための「雪だるま作戦」が進行中です。
しかし、問題はあらゆる意味で山積の状態です。

特に、成熟度を高めたリリースであるはずの FreeBSD 6.1R において、
amd64 アーキテクチャでの突然のハングアップの不具合が、深刻な問題となっています。
134root▲ ★
垢版 |
NGNG
>>133
ええ、6.1R で em のドライバが再度よくなったらしいというのは、
知っているです。

ということで、バージョンアップでしのげるのかもなと。
135root▲ ★
垢版 |
NGNG
フロントの負荷が超でかくなると、httpd が signal 11 で死にますね。
で、起動しなおす負荷が、つらいかんじみたい。

ちなみに signal 11 で死ぬのは、普段でもぱらぱらは起きている模様。
136root▲ ★
垢版 |
NGNG
で、今 1 process 16 threads ですが、
もっとでかい時は、いきなりボンと死ぬのが、つらいと。

16 でも高負荷時には、つらいわけですが。
137root▲ ★
垢版 |
NGNG
でもフロントは基本的には「増やして乗り切る」方向性なので、
現状なら、こんなかんじなのかなと。
2006/06/18(日) 23:40:56ID:lQUZdvGc0
SEGV は......core 解析したりして原因をつぶすのが正攻法ですが,
(Solaris でいうところの)0@0.so.1 という邪悪な手も......
139root▲ ★
垢版 |
NGNG
read.cgi の人大杉装置(LA=20 で発動 @ tiger サーバ)を発動させたら、
(デバッグ用に雪だるまだけ切っていた設定が残っていた)
だいぶ楽になりましたが、やはり signal 11 で落ちる状況は、
変わっていないみたいです。
140root▲ ★
垢版 |
NGNG
>>138
それは、どういう手法かしら。
2006/06/19(月) 00:17:23ID:ZHeaF6an0
>>140 0@0.so.1 っていうライブラリを LD_PRELOAD すると NULL ポインタ踏んでも
コケないようになる,と.中身ではこんなことやってるようですが.

-> 0@0:_init()
  -> 0@0:__zero_at_zero()
open("/dev/zero", O_RDWR)                       = 3
mmap(0x00000000, 1, PROT_READ, MAP_PRIVATE|MAP_FIXED, 3, 0) = 0x00000000
close(3)                                        = 0
  <- 0@0:__zero_at_zero() = 0
<- 0@0:_init() = 0

まぁ SEGV になる原因を取り除いてるわけではないので,邪道そのものですが.
142root▲ ★
垢版 |
NGNG
>>141
うひゃー。

なるほどです。
ぬるぽしてもガッされないようにしてると。
2006/06/20(火) 22:34:26ID:lGYwc5jc0
ふむ......
http://meta.wikimedia.org/wiki/Squid_performance_tuning
144root▲ ★
垢版 |
NGNG
>>143
おっ。

で、これ読もうと思うんだけど、今日はもう頭がまわらないや。

Dual Opteron system will not run SMP
http://lists.freebsd.org/pipermail/freebsd-stable/2006-June/026003.html
145root▲ ★
垢版 |
NGNG
そう言いながらも、、、。

dwhite はこんなことを言っているわけだけど、
BIOS かぁ。

http://lists.freebsd.org/pipermail/freebsd-stable/2006-June/026148.html

PIE で BIOS 更新したのは、2004年の9月だったかな。
最新の BIOS が出てるかどうか、もう1度確認してみるか(あとで)。
2006/06/20(火) 23:46:50ID:???0
今はVer2.13ですね。

ttp://www.rioworks.co.jp/bios/hdama.html
147root▲ ★
垢版 |
NGNG
>>146
当時の作業メモを見ると、私は当時、
2ちゃんねるで使っている cobra サーバ全部、Ver.1.89 にバージョンアップしています。

やる意味はあるのかも。
2006/06/20(火) 23:57:22ID:???0
BIOSアップの実験台は実際に落ちた実績のあるlive23が無難ですか
(SMPで落ちてる鯖でないと再現できないだろうし)
149root▲ ★
垢版 |
NGNG
>>148
同じバージョン・同じハードウェア構成の news20b も落ちまくりでした。
他のサーバは 6.1R ではないので、未確認と。
2006/06/21(水) 00:01:40ID:???0
>149
と言うことはこの2台のどちらかが人柱確定ですね
どっち落ちても祭りになりそうだけど
2006/06/21(水) 07:42:13ID:seKTsci80
WC を考えれば消去法で news20b でしょうけど,WC が落ち着いたらむしろ live23b かな......
152root▲ ★
垢版 |
NGNG
前にも書きましたが、
5F→2F の引越しが無事終わるまでは、
ウルトラ技がない限り、なしかなと。
2006/06/24(土) 23:57:22ID:0/C79yGR0
bbsd.c 更新しますた.

・ -m64 でのコンパイル時の warning 潰し(処理そのものには影響はないと思いますが).
・ race condition 潰し(久々にローカル環境で bbs_load.pl ブン回して遊んでみたら
  顕在化して気付いた).
・ autopurge(sage 復帰)で ENOENT 以外のエラーが発生した際に syslog に記録
  (これで syslog 見てもらえれば sage 復帰の際の問題の手がかりが得られるかも).
154root▲ ★
垢版 |
NGNG
>>153
live22, live23b, news20b, live22x1, snow 更新しました。

race condition が起こると、どうなる、、、のかしら。
# recvok がなんたらかんたら、、、みたい。
2006/06/25(日) 08:06:25ID:bzKMRvNX0
>>154 乙です.

>race condition が起こると、どうなる、、、のかしら。

まぁ,Solaris 9 の時は気付かず Nevada にしてから気付いたんですが,
worker スレッドが条件変数待ちにならず mutex をホールドしたまま recvfrom()
でパケット待ちする状態になっちゃうことがある,ってことですね.その状態でも
パケットは受け付けて一応動きはするんで致命的な問題ではないかも知れませんが,
SIGTERM 送っても終了してくれなかったりします......
2006/06/28(水) 23:13:00ID:???0
いつもお疲れ様です。

>>153-154
それで、今日もlive23で何度かsage復帰を失敗していましたが、何か記録されていましたでしょうか?
2006/06/28(水) 23:56:56ID:df/O7cub0
>>156 乙です.“多分”記録されてると思います.むむむさん待ちってことで.

で,原因がわかったら対策へ,と......
158ピロリ
垢版 |
2006/06/29(木) 15:38:13ID:RwVnEDS40
oyster901 完成いたしました。


・OSはご指示通り以下のバージョンをインストールしています。
FreeBSD 6.0-RELEASE (amd64)

・APCによる遠隔リブートテストは今回実施しておりません。
 (後日APCに接続します。)

・HDDは発注通りのSCSIドライブが2つ搭載されています。
 搭載されているHDDのスペックは以下の通りです。

 製品名:Seagate Cheetah 15K.4
 型番:ST373454LW
 容量:73 GB
 回転数:15K rpm
 シークタイム:3.5 ms avg
 インターフェース:Ultra320 SCSI

・NIC(bge0、bge1)2枚のうち、一方(bge0)がスイッチと
 接続されています。
 転送速度は 100Mbps full-duplex に設定しています。
 (速度チェック実施済です。)
159root▲ ★
垢版 |
NGNG
>>156-157
みてみます。

>>158
ログイン情報は、本日直接渡しかしら。
160root▲ ★
垢版 |
NGNG
うーん、syslog に何もないということは、
bbsd に行く前に何かまずいところがあるのか、、、。

ちと今アクセス事情が良くないので、あとで落ち着いて見てみます。
2006/06/29(木) 21:35:27ID:5bvbZVQc0
>>158 戦線復帰ですか.

>>160 bbsd 側のロジックを見直してみたら,「スレの残骸が subject.txt 上で
連続して存在している場合,一度で消し切れない」って虫がいたのを発見したので
(これはこちらのミスですね,すみません),その点は修正しますた.
ただ,スレの残骸が1個だけでも sage 復帰失敗するってのはその虫では
説明できないので,まだ別に問題がありそうですね......

syslog.conf で user.err が記録されないようになってるか
(別の部分では warning や info もありますが),
あるいは bbsd の呼び出し自体が正常に行われていないのか,
果てまた別の何かか......
162root▲ ★
垢版 |
NGNG
>>158
ログイン情報を受け取りました。

概ね問題なさげなので、たんたんと設定へと。
163root▲ ★
垢版 |
NGNG
>>158
ひとつ質問です。

> ・APCによる遠隔リブートテストは今回実施しておりません。
>  (後日APCに接続します。)

これですが、APC に接続する際に電源が一度落ちるような気がしますが、
どうなんでしょうか。
164root▲ ★
垢版 |
NGNG
>>163 の件について、連絡をもらいました。

必要なのは、PIE 側でのソフトウェア設定の作業のみになるようです。
私のほうでは、たんたんと作業継続するということで。

# もしいったん電源断が必要になるなら、その場合は別途対応というかんじかなと。
165root▲ ★
垢版 |
NGNG
oyster901.peko.2ch.net = ex16.2ch.net
DNS 登録いきます。

以下の登録をよろしくです。

(新規登録)
+ex16.2ch.net:206.223.151.225
2006/07/01(土) 21:42:45ID:IWCIcvgv0
bbsd の更新もお願いします(>>161).
sage 復帰の問題,完全解決まで至らずとも部分的には改善されるかと思うんで.

# 自分で仕込んだ虫以外では,ローカルで試しても再現しないんですが......
167御法川将貴
垢版 |
2006/07/01(土) 22:05:17ID:M62Hz3ID0
内容がごちゃごちゃ 数日後につぶれるな ザコスレが
168ピロリ
垢版 |
NGNG
>>165
done
169root▲ ★
垢版 |
NGNG
>>166
live22, live22x1, live23b, news20b, snow 更新済み。
170root▲ ★
垢版 |
NGNG
>>168
確認しました。

アカウント情報は別送で。
2006/07/01(土) 22:42:17ID:RPOnd9jp0
>>168
夜勤さん
http://qb5.2ch.net/test/read.cgi/sakukb/1151635877/
に来てくらさいな
2006/07/01(土) 22:47:30ID:IWCIcvgv0
>>169 乙です.


http://aa5.2ch.net/test/read.cgi/nanmin/1150886750/989
# ノンブロック逆引き

use Net::DNS;

sub gethostbyaddr_nb {
    my $res = Net::DNS::Resolver->new(tcp_timeout => $_[1], udp_timeout => $_[1]);
    my $ans = $res->send($_[0]);
    return undef if (!$ans);
    foreach ($ans->answer) {
        return $_->ptrdname if ($_->type eq 'PTR');
    }
    undef;
}

# my $name = gethostbyaddr_nb($addr, 2);
173root▲ ★
垢版 |
NGNG
>>172
おぉー、仕込んでみるか。

しくったら、undef が返るですか。
このへんは適当に改変で。
174ピロリ
垢版 |
NGNG
>>171
あっしにはかかわりのねーことでござんす。

I will go my own way.
2006/07/01(土) 23:12:33ID:n3bixt2Z0
>>174
まってっからねー?
削除ガイドライン変更に伴って、わいわいがやがや話し合うスレ
http://qb5.2ch.net/test/read.cgi/sakukb/1151635877/
2006/07/01(土) 23:18:12ID:InHpuzAM0
>>174
かかわらないんだったらかかわりたい人を募集してください。
2006/07/01(土) 23:18:55ID:2gsQUJHy0
>174

"ピンク丼"さん、1名ご招待〜♪
2006/07/01(土) 23:21:48ID:dBMtxw2f0
>>175-177
2ch特化型サーバー・ロケーションと関係ない話を持ち出すな
179root▲ ★
垢版 |
NGNG
>>168
ex16 で動作する read.cgi と offlaw.cgi は、私のほうで作成して、
ログインディレクトリに置いてありますです。
180ピロリ
垢版 |
NGNG
>>179
はいー
181root▲ ★
垢版 |
NGNG
>>179 補足
(offlaw.cgi はソースのありかが(りゃ なので、ex13 のを単にコピりました)
182root▲ ★
垢版 |
NGNG
HDD 交換前と全く同じ症状でダウン。

/home を触ったプロセスが、軒並みハングアップ。
ハードかソフトかは、別途検証で。
2006/07/02(日) 07:41:12ID:???0
6.1絡みですが嫌なレポートが

Problem Report amd64/99561 : system hangs in FreeBSD AMD64 when writting ext2fs
ttp://www.freebsd.org/cgi/query-pr.cgi?pr=amd64/99561

Problem Report kern/99588 : UFS2 filesystems hang when doing "fsck -B" or "dump -L" or "mksnapffs" in a moderated I/O filesystem with many file locks/unlocks
ttp://www.freebsd.org/cgi/query-pr.cgi?pr=kern/99588
2006/07/02(日) 09:29:54ID:8qElqrJX0
>>183 ext2fs はとりあえず無視できるとして,UFS2 云々がマズー?
185root▲ ★
垢版 |
NGNG
>>183
> Release
> FreeBSD 5.4p12

ですね。< 下のやつ

ex13 は 5.4 ですが、今日で 402 日連続稼動です。
ex13 って、決して負荷低くないはず。
186root▲ ★
垢版 |
NGNG
っていうか、これ、既知の問題ですね。

深夜の定期バックアップでハングしてたのは、これです。
dump -L で dump するのをやめてからは、定期バックアップでハングしたことはないです。
187root▲ ★
垢版 |
NGNG
あと、fsck -B も確かにたまに挙動不審になったので、

# for fsck customizing
background_fsck="NO"

って、やってあるです。これももう、設定して1年以上にはなると思う。
2006/07/02(日) 16:35:55ID:8qElqrJX0
>>185-187 なるほど,ってか確かにそんな話あったような.
で,上の方で mpsafenet 云々って話もありましたが,5F->2F の引っ越しも
終わったんで,news20b か live23b のどちらかを人b(ryってのもそろそろ......

あと,スペシャルデータセンタ(仮称)のめどが立つのなら,
oyster901 は別の用途を考えてもいいのかも?
189御法川将貴
垢版 |
2006/07/02(日) 21:15:49ID:qQErDhIX0
俺が言った途端 復活しやがったか
190root▲ ★
垢版 |
NGNG
oyster901、負荷試験中。

%jobs
[1] + Running ./du.sh
[2] - Running ./du.sh
[3] Running ./du.sh
[4] Running ./du.sh
[5] Running ./du.sh
[6] Running ./du.sh
[7] Running ./du.sh
[8] Running ./du.sh
[9] Running ./du.sh
[10] Running ./du.sh
[11] Running ./du.sh
[12] Running ./du.sh
[13] Running ./du.sh
[14] Running ./du.sh
[15] Running ./du.sh
[16] Running ./du.sh
[17] Running ./du.sh
[18] Running ./du.sh
[19] Running ./du.sh
[20] Running ./du.sh
[21] Running ./du.sh
[22] Running ./du.sh
[23] Running ./du.sh
[24] Running ./du.sh
[25] Running ./du.sh
[26] Running ./du.sh
[27] Running ./du.sh
[28] Running ./du.sh
[29] Running ./du.sh
[30] Running ./du.sh
[31] Running ./du.sh
[32] Running ./du.sh
191root▲ ★
垢版 |
NGNG
du -a /home 無限ループ中。

22:00 まで、この状態で動かす予定。
192root▲ ★
垢版 |
NGNG
>>191 の後は、書き込み系のテスト。

/md と /home で実施予定。
193root▲ ★
垢版 |
NGNG
22:00 まで問題なし。

書き込みテストへと。
194root▲ ★
垢版 |
NGNG
書き込みテスト中。

何か、書き込み中に ^C した時の「戻り」が、なんか微妙におかしいかも。
195root▲ ★
垢版 |
NGNG
>>194 は、気のせいかも。

いずれにせよ、調べ中。
196root▲ ★
垢版 |
NGNG
/home/.snap を rm -rf して、umount / mount してテスト中。
197root▲ ★
垢版 |
NGNG
さっきのテストしながら、dd で bs=512 なファイル作っては消し、
作っては消すのを 10 多重で動かし中。

23:00 まで。
2006/07/02(日) 22:47:38ID:8qElqrJX0
HDD の負荷試験なら sync もバシバシかけた方がいいのかしらん?
199root▲ ★
垢版 |
NGNG
>>198
bufdaemon さんが sync することになっているけど、
確かに、それはありですね。
200root▲ ★
垢版 |
NGNG
ううむ、/home/.snap がないと、
動作が普通っぽくなるみたい。^C に対する反応とか。

rm する前と後で sync するようにして、再度動かす予定。
201root▲ ★
垢版 |
NGNG
>>200
再度動かし始めた。
概ねこんなのを。

dd if=/dev/random of=$$.dat count=512 2> /dev/null
sync
rm -f $$.dat
sync
202root▲ ★
垢版 |
NGNG
もうしばらくやって問題なかったら、、、。

次は、vipper の人にでも協力してもらうかな。
2006/07/02(日) 23:10:45ID:8qElqrJX0
>>202 最速1000ですか.まぁ HDD だけじゃなくネットワーク I/O との相互作用ってのもありえますし.
204root▲ ★
垢版 |
NGNG
>>203
やっぱり、実地試験がいいのかなと。
205root▲ ★
垢版 |
NGNG
23:15 までめいっぱい負荷テスト。
/home 握り 再現せず。

23:30 に向けて、前準備へと。
206動け動けウゴウゴ2ちゃんねる
垢版 |
2006/07/02(日) 23:56:42ID:SrvCykZI0
新鯖には中韓弾きを常時稼働をキボンw
2006/07/02(日) 23:59:39ID:Tny14b330
中姦弾きいいね
2006/07/03(月) 00:49:31ID:gmB7fCmp0
しかし,このまま祭りが平穏に終わるとすると,昨晩のフリーズは何だったのかという疑問が......
209root▲ ★
垢版 |
NGNG
>>208
/home/.snap をはずしています。

つまり、UFS snapshot を無効にした状態。
2006/07/03(月) 00:59:48ID:gmB7fCmp0
>>209 なるほど,OS の虫は 6.0R にも住み着いてたかも知れない,と......

それが live23b や news20b の落ちの原因にもなってたのかどうか......
211root▲ ★
垢版 |
NGNG
>>210
落ち方が 5.4R におけるそれと全く同じなので、
それなんじゃないかなということで、テストしてみたっていう感じです。

6.1R / live23b や news20b では症状が微妙に違う(ping もできなくなる)ので、
あたりかどうかはわかりませんが、試してみる価値はあるのかなと思いました。

そんなわけで、ex16 は再移転可能になったという認識でいますです。
212root▲ ★
垢版 |
2006/07/03(月) 12:10:38ID:???0
ex15 の思い出を、memories に収容中。
今日中には、DNS 申請へと。
213root▲ ★
垢版 |
NGNG
>>212
収容完了しました。

DNS 変更をお願いします。

(現在)
+ex15.2ch.net:206.223.150.42

(変更後)
+ex15.2ch.net:206.223.151.230
214ピロリ
垢版 |
2006/07/03(月) 14:23:47ID:uF0AOfSq0
>>213
done
215root▲ ★
垢版 |
NGNG
>>214
確認しました。

これで、収容完了と。
http://ex15.2ch.net/kakolog.html
216root▲ ★
垢版 |
NGNG
まずは、tiger507 (旧ex15) をフロントに再投入(done)。
2006/07/03(月) 15:39:36ID:zVnLSBW50
これはVIPにもう一波乱有るで解釈おk?
NGNG
逆引き
206.223.151.225 -> oyster901.peko.2ch.net(ex16)
は昔からなされていなかったのでしたっけ?@かなり朧
219root▲ ★
垢版 |
NGNG
【pepsi?】負荷監視所_20060627
http://live14.2ch.net/test/read.cgi/liveplus/1151344022/232

やはり、Apache じゃないのを試してみる感じ?

>>218
oyster901, oyster902, oyster243 は、確か昔から逆引きなかったです。
設定してもらうか。
2006/07/03(月) 22:59:09ID:jHOl+AFdO
頑張ってこれからも2chをウゴウゴさして下さい。
2006/07/04(火) 00:03:17ID:nDmywAzH0
>>219 まぁ手はいくつかあると思いますが(もちろん排他的な選択肢ではなく
やれるのなら全部やればいいのでしょうけど)

・ 軽量版 httpd
・ 生 dat に mod_cache
・ read.cgi 出力も mod_cache (まぁこれはどっちかというとフロントを楽にするって感じかな)

逆引きといえば,live22x, live23, news20 の受付アドレス (206.223.150.96) も NXDOMAIN ですね.
222root▲ ★
垢版 |
NGNG
>>221
> 逆引きといえば,live22x, live23, news20 の受付アドレス (206.223.150.96) も NXDOMAIN ですね.

それ(代表アドレスではないやつ)は s2ch.net 同様、
こちらから設定をお願いしないと、設定されない仕様のはず。

逆に、s2ch.net のように一言言えばたんたんと設定されるかんじ。
2006/07/05(水) 00:14:19ID:cvqV65eTO
携帯電話でのネット利用者がPCを逆転
http://news18.2ch.net/test/read.cgi/bizplus/1152023749


ヾ(゚∀゚)ノ アヒャヒャヒャヒャヒャヒャ
224root▲ ★
垢版 |
NGNG
>>223
ついにというか想定の範囲内、ってかんじですね。

あとはいつ「PC並みにどばどば転送量が出る」携帯が出回るかってところかしら。
つまり例の「リッチコンテンツ」が、携帯にも押し寄せると。
225動け動けウゴウゴ2ちゃんねる
垢版 |
2006/07/05(水) 01:43:52ID:TgGEVOsz0
>>224
携帯鯖強化しなくていいの?
226root▲ ★
垢版 |
NGNG
>>225
よくないですよ。

でも、むげに入れればいいってもんでもないと思うわけです。

「スケールする仕組み」がないといかんですね。
なんていうか、テクニカルだけではなくて、フィナンシャルっていうか、
キャッシュフローっていうか、スケーラビリティのある調達というか、
そういった話です。

端的に言えば●みたいなものなわけだけど、
携帯だと、どんなのが考えられるんですかね。
2006/07/05(水) 02:26:59ID:qVaUU4as0
携帯で過去ログ読む機会ってあまりなさそう。少なくとも自分はないですね。
議論系のスレで過去ログ参照しつつレスとかになると
PCでタブ表示してじっくり考えてレスだし。。。

携帯から書き込みの場合、5秒程度のフラッシュ広告流すとか。
で、それスルー用の●とか。
んー、弱いな。
モニタの大きさと言う制約をどうするか次第でしょうねぇ。。。


●の利用者数ってどれくらい居るんだろう?
2006/07/05(水) 02:31:33ID:uzFer1iE0
●で導入された2ch鯖数えてみ
2006/07/05(水) 02:34:43ID:43TQkwgg0
●なしならレス表示は多少ディレイがあります(カキコもディレイします,ってのもあり?),
リアルタイムでレスを読みたい(カキコしたい)場合は●をどうぞ,とか?
2006/07/05(水) 02:36:46ID:43TQkwgg0
>>229 ん〜でもカキコのディレイはかえって仕組み作るのが面倒かな.
231root▲ ★
垢版 |
NGNG
>>229
やっぱり、それが第一候補なのかな。

でも「快適さ」を売るのが、どこまでうまくスケール・ペイするのかは、
考慮しないといけないのかも。

快適さの維持には、それなりの資源も必要になるわけで。
232root▲ ★
垢版 |
NGNG
>>230
書き込みのディレイは、
掲示板っていうメディアには、ちとそぐわないかもですね。
2006/07/05(水) 02:41:20ID:43TQkwgg0
あとは,「資源の消費にコスト負担を」という観点からすると,load avg. が一定水準になったら
●なしユーザにはお引き取り願う,とか......
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況