クローラー&過剰リロード対策スレ
■ このスレッドは過去ログ倉庫に格納されています
最近、頻発しているクローラーや過剰リロード対策スレッドです。
★FAQ
■クローラーや過剰リロードとは?
・ツール等を使って板のスレッドを根こそぎDLする行為をクロール行為と
いいます。
クローラーとはクロール行為をする人の事です。
・過剰リロードとは文字通り過剰にリロードをしてsubject.txt等を取得
する行為です。
■どうして迷惑なの?
クロール行為や過剰リロードは鯖に過剰な負担をかけるため、最悪、鯖落ち
する危険があります。
■やったらどうなるの?
発見されて悪質な場合は規制情報板に掲載の上、該当プロバイダに通報
されます。
もしも先方が対応しなかったり、再発するような場合は .htaccessで
denyする場合もあります。
■.htaccessでdenyされるとどうなるの?
.htaccessでdenyされると書き込みはおろか閲覧すら出来なくなります。 おつです。>>1
今日は、さすがにもう限界です。おやすみなさい。 >1
乙です。
#しかし、これからこの行為が頻発するとなると
#いろんな意味で難しい問題を孕むような気がします。。 >2
連日お疲れ様です。
※このスレッドを立てた経緯
今までは動作報告スレにてやっていたんですけどあまりにも多発してスレが埋まって
いる事態になっていましたので急遽、専用スレッドを立てました。 http://qb5.2ch.net/test/read.cgi/operate/1103455176/737-738
737 名前: [―{}@{}@{}-] FOX ★ 投稿日:2005/04/15(金) 04:38:00 ID:???0
とほほっ
急務ってことっすね
明日こそやります。
たぶん夕方以降になると思うけど。
738 名前: [―{}@{}@{}-] FOX ★ 投稿日:2005/04/15(金) 04:38:32 ID:???0
うおっ なんで焼かれているんだか、
http://qb5.2ch.net/test/read.cgi/operate/1113435319/479n
479 : [―{}@{}@{}-] 動け動けウゴウゴ2ちゃんねる :2005/04/15(金) 07:57:44 ID:jC0U2UYw0
溜息 とりあえず、必要だと思われる物リスト
・全鯖のアクセス状態の把握するためのツール
今のところ一部の鯖でしか把握できてないようなので実態把握がまず第一だと思います。 やっぱりFOX★がVIP潰したくて荒らしを煽動していた…
もしくは荒らし本人の線が濃厚ぽいですよ?
FOX★がどーしてVIP潰したかったのかまでは
知りませんが。
http://qb5.2ch.net/test/read.cgi/operate/1113380450/490n
490 名前: [―{}@{}@{}-] 動け動けウゴウゴ2ちゃんねる 投稿日:2005/04/14(木) 04:39:21 ID:C0jlP1T40
vip閉鎖してくれ 勘弁してくれwww
なんで自分がふぉっ糞などに・・・by479
どうせならrootたんに間違われたかった(*´Д`)ハァハァ >>12
2ch専用ブラウザや鯖アクセス型ツール作ってる人が
もうビクビクものだったあのスレが帰ってきましたよ(w
最近問題になるのは特定のdatを集中的に読み込むタイプではなく鯖横断型が多いようなので
自作のプログラムか何かだとは思いますが。 >>14
差分取得型ツールは waitを入れればいいらしい
ごっそり持っていくツールは waitを入れててもダメっぽ
\e 今日の7時頃にetc4にて過剰なread.cgi呼び出しがあった模様
書き込みや負荷等の上昇はないんだけど何かあったんだろうか? >>1
忘れ物だ
list
ttp://mumumu.mu/mrtg/mrtg-rrd.cgi/
read (read.cgi・bbs.cgi)
ttp://mumumu.mu/mrtg/mrtg-rrd.cgi/read/
転送量
ttp://mumumu.mu/mrtg/mrtg-rrd.cgi/traffic/
>>18
ツールじゃない? >21まとめ
14/Apr/2005:15:03:51〜15:16:16
アクセス回数2544回
IP
220.210.148.33
33.148.210.220.dy.bbexcite.jp
※ログを見る限りでは毒男と喪男のdatを根こそぎかっさらったみたいですね(滝汗 これ、こっちに転載しておくです。
http://qb5.2ch.net/test/read.cgi/operate/1103455176/710
710 名前:root▲ ★[sage] 投稿日:2005/04/14(木) 20:27:35 ID:???0 ?##
>>709
われわれは(すくなくとも私は)全部公開の場でやってますんで、
このスレとか、運用情報とか規制議論とかの動きを見たうえで、
各位にて自主的に動いていただけると
とてもたすかりますです。
私の個人的なガイドライン(たぶん相当甘い)
・cgiの連打はだめ
・各種グラフ・統計情報が、目で見て変わる(わかる)ほどはやらないで
・できるだけ差分取得を >>22
切に願ってしまうですね。
↓
> ・各種グラフ・統計情報が、目で見て変わる(わかる)ほどはやらないで
で、どうしてもしなきゃいけない事情がある場合、事前にご相談いただけると助かるです。 これやってる本人は鯖に過負荷がかかるとか全く考えないでやってるっぽいですねぇ
現状は監視対象が6鯖だけど全鯖監視にしたらどれくらい上がってくる事やら。。。
※etc4って鯖落ちしてようやく復旧したばかりなのにぶっこ抜きを平気でしてる時点で(ry >>25
ふつうですね。一般の人はそういうの、考えないのがふつうかと。
別に「それじゃだめ」と言っているわけじゃなくて、たんにそういうもんじゃないのかなと。
ツール使ってdatとっている人は実は結構見かけますが、
ユクーリ、マターリの人については(例えば明らかにディレイ入れている人)、
とりあえず*私は*見なかったことにしてるです。
例: http://qb6.2ch.net/_sec2ch/2005/04/etc4-20050415-x.txt (抜粋) ミラーサイトもクロールしてますよね
これはそれとは明らかに違うってことかな >>27
アンオフィシャルの2chミラーやdat保存サイトね。本質的には違わないはず。
「よく知られていて存在も便利」という理由と「クロールのやり方が調整されている」という理由で
オメコぼしされてるというサイトは若干あると思う。
若干。
>>10のスレでも
「このアクセスは○○さんのとこだから除外してあげて」
という遣り取りがあったようななかったような。
逆にいうと今から個人で新規で「みんなのために」datを収集する理由なんてないんだよね。
既存の個人サイトの提供するサービスでじゅうぶん間に合ってるはずだから。
…もしかしたらめっちゃ斬新で超便利な活用法とか考案したのかもしれないけど(w わたくし、過去狼板にて10000超のスレを2ゲットして参りました。
リロード頻度は1秒間に2回のペースで行なっておりますがやりすぎでしょうか?
もちろん手動でございます。
>>21-22
保持数増やした思わぬ弊害がこんなとこにw おいそがしそうですね。>>34
>>37
今のところ、その方針で動いています。
ただ、最近ちとひどいので、技術的なしくみである程度防げないか検討中。
しくみとしては、バーボンハウス(クロールを検知したら.htaccessに自動で入れ込む)の延長線上かなと。 とりあえず、脳内のダンプ。
1) access_log から単位時間x秒(例えばx=3600とか)にアクセスしたIPアドレスのリストを作る
2) アクセスがy回以上で、かつリターンコード200だったアクセスをピックアップする(206や304を含めるかどうかは要検討)
(yの初期値はx=3600でディレイ1秒だとy=3600だから、それに近い秘密の値(チューニング可能が望ましい))
3) ホワイトリストを見て、2)のリストから除外する(公式もの: 2ちゃんねる検索とか)
4) リストアップされたIPアドレスは、z秒間 .htaccess の deny リストに掲載される より公平にしたい場合は、アクセス回数の代わりに(応答サイズ + 一定値)の和かなあ。
mod_bwshareっていうのがあるらしいけどどんな感じだろう? ■ このスレッドは過去ログ倉庫に格納されています