【野鳥の会】 BBS.2ch.net 全発言統計の巻 part1
■ このスレッドは過去ログ倉庫に格納されています
2ちゃんねるの全発言の統計を取ろうに挑戦
bbs.cgi に一個DNS問い合わせの処理を追加
発言バイト数.スレッドkey.板.サーバ.CGI名.BBS.2ch.net をlook up
この方法でやるとかなり低コストで出来る予感。
まずは現在空いている oyster138(旧game5)ではじめてみよう計画
突貫工事で酒飲みながら作ったから
今日の昨日きここまで
ご要望はこのスレに書いておいてね
本格的に飲む !! >>70
単に有効時間内に書き込みがないだけじゃない? あれ? sec2chd@qb2に書き込んだのに反映されない……。
反映されるのにどれくらいかかるの? 今はほとんどリアルタイムと思うが
パイプがどうのこうの言っていたので
その辺の遅延に関しては root★さんの解説が必要と思われ、 2ch運用情報 operate@qb3
すずめの表示をこんな感じにキボンヌ。
検索しやすくなると思うので。
>>72
あんた、遊びなはれ。酒も飲みなはれ。
ていうか乙カレー。 log/main/current へのシンボリックを、httpd で参照できるところに置いておくとか、
毎分自動更新 HTML 吐き出しの方が良さそうな?
もうねるぽ。 >>71 >>80
まずは全部隠蔽して作ってみた。
ぼつぼつかと ・時間別で分けると住民の生活の流れが分かって面白いかも。
特定板は日曜休みの人がアクセスする割合が多い…とか出来るとマーケティングにも使えるかも知れない。
・テレビ覧とシンクロ参照機能とか付けるとテレビ局から視聴率データとして●ノが出来るかも知れない。
歌番組でなっち登場シーンでカキコが倍増現象とか関連付けられたとしたら…
・板の中のスレッド別回覧、発言ランキング
特定の話題の(板)の特に何に興味が集まっているか、一目で参照出来るとマーケ(ry
・祭り抽出
機能の進化が進めば、株のアナリストみたいな奴が出てきて、情報に意味を持たせ物語を作る奴が出てくる予感。
と、実装する技術知らないので適当に言うだけ言ってみるテスト。 >>83
どうなんだろう。。。
qb2 の bbs.cgi 上書きしてもいいならすぐ出来るんだけど、、、
ちょっと危険な匂いが ぷんぷん 72 名前:FOX ★[] 投稿日:04/05/04(火) 03:46 ID:???
突貫工事で酒飲みながら作ったから
今日の昨日きここまで
ご要望はこのスレに書いておいてね
本格的に飲む !!
↑
ここらへんが危険 >>75
確かに、、、
honobono ってサーバどこだろ? >>89
human4 でしたっけ?
もしかして human4 って、、、
bbs.cgi 更新されていないのか? すこしだけスクリプトいじってみたいと思うのはやはり・・・中毒?
というのはどうでもいいのでおいといて、、、もう5万すか、、、 おぉ、進んでいる、、、。
>>78
バッファを1行ごとにフラッシュしてあげれば、ほぼ完全にリアルタイムになるのかしら。 >>98
>至福゜のひとときってやつです。
↑
一瞬これが気になった。まさか本当にかな入力(ry
板名表示のほうがいいなー。>suzume >>99
呼び出し側でバッファフラッシュのコードを入れてみた。
これでほぼリアルタイムになったはず。
# 今日はもうねます。 >>80
log/main/currentの出力を、ほぼそのままFOXさんのプログラムにくべています。
某bbsgather.plみたいなかんじ。
# 呼び出し部分を作る際に、あのコードを参考にさせていただきました。どもです。 >>104
質問です
各サーバからのlook up時、時刻データは載せていませんが
(つまり ひばり君が受け取った時刻を基準に全部動作している)
日付境界での挙動は・・・
1) かにりずれるので look up 時日付もデータとして載せたほうが良い
2) たいして気にする必要は無い
どんなもんでしょ? >>105
2)でいいと思います。たぶん、1秒もずれてないでしょう。 1秒も、というのは「ぜんぜん」いう意味ではなくて、
遅延は多く見ても1秒未満だ、という意味です。 もちろん日付を乗せても無害だとは思います。
で、このプログラムは日付境界と関係なく動き続けるようになっていて、
ログローテートとかの影響を受けることはありませんです。 すみません関係ない質問ですが削除依頼はどこにだせばいいですか? もうねなきゃ。
しかし、暴論を承知で言うと、
2ちゃんねるの全体の1割がmorningcoffeeでできているのか、、、。 まずは一定間隔おきにデータ取りの感じでやってみますか http://stats.2ch.net/
なんか切なくなって、夜中に泣き叫びそうになるので、
「実験中」とか書いてやって下さい・・・ 連投スマソです。
>>111
もしそうならば、●による書き込み規制を
morningcoffeeにいれるだけで以下の可能性が予想できますなw
・書き込みたいがゆえに●が馬鹿売れ
・該当板の書き込みが減少
・該当板が廃れる
・その他の事象が発生 >119
・その他の事象が発生
に
(´・ω・´)ノ〓 100オレオ http://dra.zive.net/gao/
何でか差が大きい。(gao:6000超え 雀:2000超え)
うちのバグかな。。。 >>60から集計し始めたからじゃないかな?
つまり0時〜3時まではすずめではカウントされてないとか お、なるほど。
本日稼動開始だったのか(w
さすが、▲持ちですねー。 IPアドレスをデータに含めると、板別人口ランキングが分かる。
IPアドレスは繋ぎ変え等で変わるが、統計的に見れば人口とほぼ比例するはず。
板の常駐率みたいなのも分かるかも。
常駐率=発言数/IPアドレス数 のように求める。
あとすずめに出てこないのはsports2上の5板と
2ch規制情報[sec2ch]なので漏れはなさそうですね。
>>125
いちおうsamba24でクリアされた時間ごとのIPアドレスの数っていうデータはあるけどねぇ、
カウントされるのがどういう基準なのかよく分からないからなぁ
http://etc.2ch.net/_service/IPnum-2004-5-4.txt 板が23あるgame6より板が1つのtv5が多いっつうのも morningcoffee>game6全部>>(越えられない壁)>>その他 実況板の書き込み数がたいしたことないなと思ったが、
あそこはゴールデンタイムにならないと上がってこないか
つーか、モー板には時間は関係ないのねw 要望:
ちゃっかりカウンター(http://count.2ch.net/?operate)のように、
昨日のデータを保存するようにして下さい > 58 www.hobby4 1
> 59 www.that2 1
これってなんですか? なんかlive系の板だけ、書き込み数が3分の1くらいになってる気がする。。
(スレッドランキングの「過去6時間の投稿数」より少ないのはどうかと
http://www6.big.or.jp/~beyond/bbsnews/bbs-post-6h.html)
あと、フジテレビ板を見てきたら朝の10時から本スレを少なくとも10本は使ってるっぽいのに
すずめで見れるレス数が5000程度だったりするしなぁ、 >132
http://鯖名.2ch.net/板名/ と http://www.鯖名.2ch.net/板名/ は同一だったような。 >>134
ネガティブキャッシュが動いてしまっているのかも。
一応ネガティブキャッシュが効かないようにはしてあるつもりだけど(SOA TTL=0)
うまくいってないのかな。
キャッシュが効いてしまうと、全く同じ問い合わせだとDNSに聞きに来てくれないんで。
避けるためには、何かランダムな文字列を一つ付与するようにしてもらえるとうれしいかも。
つまり、
> 発言バイト数.スレッドkey.板.サーバ.CGI名.BBS.2ch.net をlook up
を、
毎回変わるランダム文字列.発言バイト数.スレッドkey.板.サーバ.CGI名.BBS.2ch.net
とかにするということです。 今自宅で試しました。ううむ、どうも>>137みたいだなぁ。
つまり、全く同じバイト数で全く同じスレッドに発言すると、とられないことになる。
ランダム文字列じゃなくて、>>105みたいに時間でとってもいいかも。
ただし秒単位ではたぶんだめで、もっと細かいやつ。 投稿者のIP.発言バイト数.スレッドkey.板.サーバ.CGI名.BBS.2ch.net >>137
unixtime.bytes.theadkey.boardname.servername.cginame.BBS.2ch.net
でどうでしょう。 >>140
というわけで、秒より細かいのを入れないと。
Perlだとどうやってとるんでしたっけ。 >>141
use Time:HiRes;
標準では入っていないかもです(泪) >>140
あうすれ違いですた、スマソ。
たしかに秒単位じゃあliveあたりはきついですね。
unixtime@$RAND.〜などとしてみますか?
$RAND=4文字程度のランダム文字 なるほど、、どーりで他の板も微妙に少ない気がしたんだよなぁ、
って、この処理っておそらくcgiの一番最後でやってるんですよね?
だったら>>142でもいい気がする あ、$$(プロセスIDを格納しているスカラー変数)だと被りにくいかもですね(^-^) これでいいのかな。
$uniqid = time . "." . $$; >>146
GAの予感。
unixtime$$.bytes.theadkey.boardname.servername.cginame.BBS.2ch.net また名前入れ忘れた上に、GAじゃなくてGIだったし orz
逝ってきます。 >>147
個人的には、
$uniqid = sprintf qq|%d.%d|, time, $$;
(^-^;) >>150
なるほどです。
私はPerl初心者なんで。 で、live系がなぜ特に少なくなったかというと、みんなで同じバイト数の発言を同じスレでしてるからか。 逝ってきました。
>>152
キタ━━━!!
とかのオンパレードですからねえ。 >>150
でもって無精だから、、、
gethostbyname sprintf qq|%d.%d.%d.%d.%s.%s.%s.bbs.2ch.net|,
time, # epoctime
$$, # PID
length $FORM{message}, # 長さ
$FORM{key}, # datナンバ
$FORM{bbs}, # bbs名
$ENV{HTTP_HOST}, # 鯖名
$ENV{SCRIPT_URI}; # cgi名
(^ー^;;;) すれ違いしまそ
319 名前: 動け動けウゴウゴ2ちゃんねる [sage] 投稿日: 04/05/04 18:46 ID:vM82bvmg
oyster244落ちました。
2ch鯖監視所
http://users72.psychedance.com/
なので、よろしくお願いします >>152
(*・3・) エェー そういう仕組みなのか・・・・ >>141
C で書いてたりして、
Perl よくわかんないし PHPはよくわかるけど、
Perl よくわからないってところは同じだな。 なにぼけたこと言ってるんだ >>157
bba.cgi は Perl でしょ >>157
>>159
FOX ★の中の人が入れ替わった━━━━ヽ(゚∀゚ )ノ━━━━!!!! time.$$.bytes. -----
にした。
peko サーバコンパイルお願いしますー >>157
>>159
誰も突っ込まなかったんで、自分で突っ込みを入れたのかな? この時間ってのも作ってみるか、
今はまだ試行錯誤の段階ですので
あら捜し、アイデア出しって事で
基本の部分が完成されてしまえばアウトプットの形はいろんな人がそれぞれ作ってくれるのではないかと ■ このスレッドは過去ログ倉庫に格納されています