X



トップページ運用情報
1001コメント239KB
【野鳥の会】 BBS.2ch.net 全発言統計の巻 part1
■ このスレッドは過去ログ倉庫に格納されています
0001FOX ★
垢版 |
04/05/03 04:30ID:???
2ちゃんねるの全発言の統計を取ろうに挑戦

bbs.cgi に一個DNS問い合わせの処理を追加
発言バイト数.スレッドkey.板.サーバ.CGI名.BBS.2ch.net をlook up
この方法でやるとかなり低コストで出来る予感。

まずは現在空いている oyster138(旧game5)ではじめてみよう計画
0101root ★
垢版 |
04/05/04 04:58ID:???
>>99
呼び出し側でバッファフラッシュのコードを入れてみた。
これでほぼリアルタイムになったはず。

# 今日はもうねます。
0103FOX ★
垢版 |
04/05/04 05:06ID:???
>>101
おっ

うまく行っているようです
0104root ★
垢版 |
04/05/04 05:06ID:???
>>80
log/main/currentの出力を、ほぼそのままFOXさんのプログラムにくべています。
某bbsgather.plみたいなかんじ。

# 呼び出し部分を作る際に、あのコードを参考にさせていただきました。どもです。
0105FOX ★
垢版 |
04/05/04 05:11ID:???
>>104
質問です

各サーバからのlook up時、時刻データは載せていませんが
(つまり ひばり君が受け取った時刻を基準に全部動作している)

日付境界での挙動は・・・

1) かにりずれるので look up 時日付もデータとして載せたほうが良い
2) たいして気にする必要は無い

どんなもんでしょ?
0106root ★
垢版 |
04/05/04 05:15ID:???
>>105
2)でいいと思います。たぶん、1秒もずれてないでしょう。
0107root ★
垢版 |
04/05/04 05:16ID:???
1秒も、というのは「ぜんぜん」いう意味ではなくて、
遅延は多く見ても1秒未満だ、という意味です。
0108FOX ★
垢版 |
04/05/04 05:17ID:???
ほほーい
んじゃ 2) で
0109root ★
垢版 |
04/05/04 05:18ID:???
もちろん日付を乗せても無害だとは思います。

で、このプログラムは日付境界と関係なく動き続けるようになっていて、
ログローテートとかの影響を受けることはありませんです。
0110動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 05:18ID:A5sVUGfg
すみません関係ない質問ですが削除依頼はどこにだせばいいですか?
0111root ★
垢版 |
04/05/04 05:19ID:???
もうねなきゃ。

しかし、暴論を承知で言うと、
2ちゃんねるの全体の1割がmorningcoffeeでできているのか、、、。
0112 ◆BFzK/mtqM2
垢版 |
04/05/04 05:22ID:Pj7f0UXH
>>111
たしかに。。。。
0114FOX ★
垢版 |
04/05/04 05:54ID:???
まずは一定間隔おきにデータ取りの感じでやってみますか
0119▲:/usr/local/bin/ch2 -o i686 ◆P8fXJj6wwo
垢版 |
04/05/04 07:51ID:yvoV0Ae2
連投スマソです。

>>111
もしそうならば、●による書き込み規制を
morningcoffeeにいれるだけで以下の可能性が予想できますなw

・書き込みたいがゆえに●が馬鹿売れ
・該当板の書き込みが減少
・該当板が廃れる
・その他の事象が発生
0125動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 11:50ID:njNboplL
IPアドレスをデータに含めると、板別人口ランキングが分かる。
IPアドレスは繋ぎ変え等で変わるが、統計的に見れば人口とほぼ比例するはず。

板の常駐率みたいなのも分かるかも。
常駐率=発言数/IPアドレス数 のように求める。
0126▲ 某ソレ511
垢版 |
04/05/04 13:00ID:/glRN505
あとすずめに出てこないのはsports2上の5板と
2ch規制情報[sec2ch]なので漏れはなさそうですね。

>>125
いちおうsamba24でクリアされた時間ごとのIPアドレスの数っていうデータはあるけどねぇ、
カウントされるのがどういう基準なのかよく分からないからなぁ
http://etc.2ch.net/_service/IPnum-2004-5-4.txt
0127動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 13:30ID:HiEE2Dve
引きこもりランキングだなあ
0128動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 14:25ID:18i/pJOV
板が23あるgame6より板が1つのtv5が多いっつうのも
0130動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 14:51ID:Hrfq64Ek
実況板の書き込み数がたいしたことないなと思ったが、
あそこはゴールデンタイムにならないと上がってこないか

つーか、モー板には時間は関係ないのねw
0131_
垢版 |
04/05/04 15:34ID:5POVpaVr
要望:

ちゃっかりカウンター(http://count.2ch.net/?operate)のように、
昨日のデータを保存するようにして下さい
0134▲ 某ソレ511
垢版 |
04/05/04 18:08ID:/glRN505
なんかlive系の板だけ、書き込み数が3分の1くらいになってる気がする。。
(スレッドランキングの「過去6時間の投稿数」より少ないのはどうかと
http://www6.big.or.jp/~beyond/bbsnews/bbs-post-6h.html)
あと、フジテレビ板を見てきたら朝の10時から本スレを少なくとも10本は使ってるっぽいのに
すずめで見れるレス数が5000程度だったりするしなぁ、
0136FOX ★
垢版 |
04/05/04 18:12ID:???
処理の入り口部分で www. を取らなきゃね
0137root ★
垢版 |
04/05/04 18:29ID:???
>>134
ネガティブキャッシュが動いてしまっているのかも。

一応ネガティブキャッシュが効かないようにはしてあるつもりだけど(SOA TTL=0)
うまくいってないのかな。

キャッシュが効いてしまうと、全く同じ問い合わせだとDNSに聞きに来てくれないんで。

避けるためには、何かランダムな文字列を一つ付与するようにしてもらえるとうれしいかも。
つまり、

> 発言バイト数.スレッドkey.板.サーバ.CGI名.BBS.2ch.net をlook up

を、

毎回変わるランダム文字列.発言バイト数.スレッドkey.板.サーバ.CGI名.BBS.2ch.net

とかにするということです。
0138root ★
垢版 |
04/05/04 18:33ID:???
今自宅で試しました。ううむ、どうも>>137みたいだなぁ。

つまり、全く同じバイト数で全く同じスレッドに発言すると、とられないことになる。

ランダム文字列じゃなくて、>>105みたいに時間でとってもいいかも。
ただし秒単位ではたぶんだめで、もっと細かいやつ。
0141root ★
垢版 |
04/05/04 18:35ID:???
>>140
というわけで、秒より細かいのを入れないと。
Perlだとどうやってとるんでしたっけ。
0142◆baila6uPTo
垢版 |
04/05/04 18:35ID:2DOEwHTG
「発言番号」ってのはうまくいくのかな?
0144▲:/usr/local/bin/ch2 -o i686 ◆P8fXJj6wwo
垢版 |
04/05/04 18:37ID:yvoV0Ae2
>>140
あうすれ違いですた、スマソ。

たしかに秒単位じゃあliveあたりはきついですね。
unixtime@$RAND.〜などとしてみますか?

$RAND=4文字程度のランダム文字
0145▲ 某ソレ511
垢版 |
04/05/04 18:38ID:/glRN505
なるほど、、どーりで他の板も微妙に少ない気がしたんだよなぁ、
って、この処理っておそらくcgiの一番最後でやってるんですよね?
だったら>>142でもいい気がする
0146◆baila6uPTo
垢版 |
04/05/04 18:39ID:2DOEwHTG
あ、$$(プロセスIDを格納しているスカラー変数)だと被りにくいかもですね(^-^)
0147root ★
垢版 |
04/05/04 18:40ID:???
これでいいのかな。

$uniqid = time . "." . $$;
0151root ★
垢版 |
04/05/04 18:43ID:???
>>150
なるほどです。
私はPerl初心者なんで。
0152root ★
垢版 |
04/05/04 18:45ID:???
で、live系がなぜ特に少なくなったかというと、みんなで同じバイト数の発言を同じスレでしてるからか。
0154◆baila6uPTo
垢版 |
04/05/04 18:47ID:2DOEwHTG
>>150
でもって無精だから、、、
gethostbyname sprintf qq|%d.%d.%d.%d.%s.%s.%s.bbs.2ch.net|,
 time, # epoctime
 $$, # PID
 length $FORM{message}, # 長さ
 $FORM{key}, # datナンバ
 $FORM{bbs}, # bbs名
 $ENV{HTTP_HOST}, # 鯖名
 $ENV{SCRIPT_URI}; # cgi名
(^ー^;;;)
0157FOX ★
垢版 |
04/05/04 19:11ID:???
>>141

C で書いてたりして、
Perl よくわかんないし
0159FOX ★
垢版 |
04/05/04 19:34ID:???
なにぼけたこと言ってるんだ >>157

bba.cgi は Perl でしょ
0160動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 19:37ID:oQRaYUcD
>>157
>>159
FOX ★の中の人が入れ替わった━━━━ヽ(゚∀゚ )ノ━━━━!!!!
0163FOX ★
垢版 |
04/05/04 19:42ID:???
time.$$.bytes. -----

にした。

peko サーバコンパイルお願いしますー
0164 ◆BFzK/mtqM2
垢版 |
04/05/04 19:56ID:Pj7f0UXH
>>157
>>159
誰も突っ込まなかったんで、自分で突っ込みを入れたのかな?
0166FOX ★
垢版 |
04/05/04 20:04ID:???
この時間ってのも作ってみるか、

今はまだ試行錯誤の段階ですので

あら捜し、アイデア出しって事で
0168外野ァァン
垢版 |
04/05/04 20:13ID:AfF+geJh
基本の部分が完成されてしまえばアウトプットの形はいろんな人がそれぞれ作ってくれるのではないかと
0172動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 20:22ID:AZIx/j9H
>>169
とんびを見ると、
プロ野球板baseで実況しているのが、
わかるねぇ・・・
0173▲ 某ソレ511
垢版 |
04/05/04 20:24ID:/glRN505
ところで、バイト数や鯖名がたまに紛れ込んでますが、
これはすぐになおるかな、

>>172
いやあの、デーゲームだった試合も3試合ほどありますよ、、
とは言っても確かに実況してそうなスレはありますがね、
0174FOX ★
垢版 |
04/05/04 20:24ID:???
データを蓄積していく上で必要なのは

毎日 0:01 に呼ばれる処理 (一日の集計 & お掃除)
毎時 N:01 に呼ばれる処理
N分毎に呼ばれる処理

この三つかしら、(これらはPerlで書くか、)
0177FOX ★
垢版 |
04/05/04 20:26ID:???
>>173
データ形式を変更したので・・・

お掃除しました

4649 575 801
のデータもしっかり消えてしまった。
0179▲ 某ソレ511
垢版 |
04/05/04 20:36ID:/glRN505
>>176
いや、してるって分かるけどね、審判スレとか劇場スレとか。
0180動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 20:39ID:GEVQ7hIH
>169
とんびのこの時間って、過去何分ですか?

それとは別に、要望としては過去10分の投稿数+投稿IP数キボン。
0181root ★
垢版 |
04/05/04 20:43ID:???
というわけでフォーマットが変わったので、
Wikiのほうを更新いただけると。

@40000000409781ca359406bc 26729091:3c1e:db37 + 0001 1083670976.63248.21.1083670501.livebase.live12.2ch.net.bbs.bbs.2ch.net
@40000000409781ca382279cc d8dad9b3:e038:b61a + 0001 1083670975.754.62.1081403915.siki.hobby3.2ch.net.bbs.bbs.2ch.net
@40000000409781ca38a8824c 26729091:77ae:3372 + 0001 1083670976.63238.76.1083670763.livebase.live12.2ch.net.bbs.bbs.2ch.net
@40000000409781ca3aeab9bc 267289eb:50df:8729 + 0001 1083670976.56043.129.1083670787.liveanb.live8.2ch.net.bbs.bbs.2ch.net
@40000000409781cb002bcce4 267289e9:468b:e816 + 0001 1083670976.45872.38.1083668481.livecx.live10.2ch.net.bbs.bbs.2ch.net
@40000000409781cb01b0e25c d8dad9b3:2020:f4fe + 0001 1083670976.20567.16.1083196120.football.sports4.2ch.net.bbs.bbs.2ch.net
0183▲ 某ソレ511
垢版 |
04/05/04 21:02ID:/glRN505
クリアされたけどうまく切り替わってないみたいね、
0184動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 21:02ID:GEVQ7hIH
この時間の発言数 95,709 (2004/05/04 20:59:40 現在)
この時間の発言数 0 (2004/05/04 21:00:08 現在)
この時間の発言数 0 (2004/05/04 21:02:08 現在)

クリアされて2分、発言0。ありえない〜
0185FOX ★
垢版 |
04/05/04 21:04ID:???
毎回時間取得しなきゃだめなのかー

つまり毎回呼ばれるんじゃなく
ずーと常駐していると、

なおしてきますー
0186root ★
垢版 |
04/05/04 21:06ID:???
>>185
bbyと違って毎回呼び出すようにするとコストがとても高くなるので
(何せ全サーバのbbs.cgi起動数分)、
パイプ型でずっと常駐するように設定してますです。
0188FOX ★
垢版 |
04/05/04 21:07ID:???
>>186
了解ですー

毎回時刻とるように改造したつもり
0190FOX ★
垢版 |
04/05/04 21:13ID:???
なんか落ちているような。。。
0194root ★
垢版 |
04/05/04 21:15ID:???
>>190
しょっちゅうネットワーク詰まるです。昨日も詰まりました。
例のHE問題と思われ。
0195FOX ★
垢版 |
04/05/04 21:16ID:???
なんだ便秘か、
0196root ★
垢版 |
04/05/04 21:16ID:???
上がったかな。マシンは落ちてないすね。

%uptime
5:15AM up 15:44, 2 users, load averages: 0.05, 0.06, 0.06
0197FOX ★
垢版 |
04/05/04 21:20ID:???
この数値の跳ね上がりは
誰かがどこかの段階で自動的にリトライかけるからですかねぇ

書き込む人もリトライするし・・・
0198動け動けウゴウゴ2ちゃんねる
垢版 |
04/05/04 21:24ID:GEVQ7hIH
10分くらいリロードしないと、総発言数が万単位で増えているのが、怖いよなぁ。
GWのゴールデンタイムだから?
ついでに、baseの増え方みていると、とも子入れられないか、よけいな心配してみたり。
0199▲ 某ソレ511
垢版 |
04/05/04 21:29ID:/glRN505
この時間は秒速25レスくらい(1分で1500レス相当)ついてるね。
0200◆baila6uPTo
垢版 |
04/05/04 21:30ID:JQptqLuo
そして常に最下位な板は自然消滅するガクブル
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況