クローラー&過剰リロード対策スレ
■ このスレッドは過去ログ倉庫に格納されています
最近、頻発しているクローラーや過剰リロード対策スレッドです。 ★FAQ ■クローラーや過剰リロードとは? ・ツール等を使って板のスレッドを根こそぎDLする行為をクロール行為と いいます。 クローラーとはクロール行為をする人の事です。 ・過剰リロードとは文字通り過剰にリロードをしてsubject.txt等を取得 する行為です。 ■どうして迷惑なの? クロール行為や過剰リロードは鯖に過剰な負担をかけるため、最悪、鯖落ち する危険があります。 ■やったらどうなるの? 発見されて悪質な場合は規制情報板に掲載の上、該当プロバイダに通報 されます。 もしも先方が対応しなかったり、再発するような場合は .htaccessで denyする場合もあります。 ■.htaccessでdenyされるとどうなるの? .htaccessでdenyされると書き込みはおろか閲覧すら出来なくなります。 おつです。>>1 今日は、さすがにもう限界です。おやすみなさい。 >1 乙です。 #しかし、これからこの行為が頻発するとなると #いろんな意味で難しい問題を孕むような気がします。。 >2 連日お疲れ様です。 ※このスレッドを立てた経緯 今までは動作報告スレにてやっていたんですけどあまりにも多発してスレが埋まって いる事態になっていましたので急遽、専用スレッドを立てました。 http://qb5.2ch.net/test/read.cgi/operate/1103455176/737-738 737 名前: [―{}@{}@{}-] FOX ★ 投稿日:2005/04/15(金) 04:38:00 ID:???0 とほほっ 急務ってことっすね 明日こそやります。 たぶん夕方以降になると思うけど。 738 名前: [―{}@{}@{}-] FOX ★ 投稿日:2005/04/15(金) 04:38:32 ID:???0 うおっ なんで焼かれているんだか、 http://qb5.2ch.net/test/read.cgi/operate/1113435319/479n 479 : [―{}@{}@{}-] 動け動けウゴウゴ2ちゃんねる :2005/04/15(金) 07:57:44 ID:jC0U2UYw0 溜息 とりあえず、必要だと思われる物リスト ・全鯖のアクセス状態の把握するためのツール 今のところ一部の鯖でしか把握できてないようなので実態把握がまず第一だと思います。 やっぱりFOX★がVIP潰したくて荒らしを煽動していた… もしくは荒らし本人の線が濃厚ぽいですよ? FOX★がどーしてVIP潰したかったのかまでは 知りませんが。 http://qb5.2ch.net/test/read.cgi/operate/1113380450/490n 490 名前: [―{}@{}@{}-] 動け動けウゴウゴ2ちゃんねる 投稿日:2005/04/14(木) 04:39:21 ID:C0jlP1T40 vip閉鎖してくれ 勘弁してくれwww なんで自分がふぉっ糞などに・・・by479 どうせならrootたんに間違われたかった(*´Д`)ハァハァ >>12 2ch専用ブラウザや鯖アクセス型ツール作ってる人が もうビクビクものだったあのスレが帰ってきましたよ(w 最近問題になるのは特定のdatを集中的に読み込むタイプではなく鯖横断型が多いようなので 自作のプログラムか何かだとは思いますが。 >>14 差分取得型ツールは waitを入れればいいらしい ごっそり持っていくツールは waitを入れててもダメっぽ \e 今日の7時頃にetc4にて過剰なread.cgi呼び出しがあった模様 書き込みや負荷等の上昇はないんだけど何かあったんだろうか? >>1 忘れ物だ list ttp://mumumu.mu/mrtg/mrtg-rrd.cgi/ read (read.cgi・bbs.cgi) ttp://mumumu.mu/mrtg/mrtg-rrd.cgi/read/ 転送量 ttp://mumumu.mu/mrtg/mrtg-rrd.cgi/traffic/ >>18 ツールじゃない? >21まとめ 14/Apr/2005:15:03:51〜15:16:16 アクセス回数2544回 IP 220.210.148.33 33.148.210.220.dy.bbexcite.jp ※ログを見る限りでは毒男と喪男のdatを根こそぎかっさらったみたいですね(滝汗 これ、こっちに転載しておくです。 http://qb5.2ch.net/test/read.cgi/operate/1103455176/710 710 名前:root▲ ★[sage] 投稿日:2005/04/14(木) 20:27:35 ID:???0 ?## >>709 われわれは(すくなくとも私は)全部公開の場でやってますんで、 このスレとか、運用情報とか規制議論とかの動きを見たうえで、 各位にて自主的に動いていただけると とてもたすかりますです。 私の個人的なガイドライン(たぶん相当甘い) ・cgiの連打はだめ ・各種グラフ・統計情報が、目で見て変わる(わかる)ほどはやらないで ・できるだけ差分取得を >>22 切に願ってしまうですね。 ↓ > ・各種グラフ・統計情報が、目で見て変わる(わかる)ほどはやらないで で、どうしてもしなきゃいけない事情がある場合、事前にご相談いただけると助かるです。 これやってる本人は鯖に過負荷がかかるとか全く考えないでやってるっぽいですねぇ 現状は監視対象が6鯖だけど全鯖監視にしたらどれくらい上がってくる事やら。。。 ※etc4って鯖落ちしてようやく復旧したばかりなのにぶっこ抜きを平気でしてる時点で(ry >>25 ふつうですね。一般の人はそういうの、考えないのがふつうかと。 別に「それじゃだめ」と言っているわけじゃなくて、たんにそういうもんじゃないのかなと。 ツール使ってdatとっている人は実は結構見かけますが、 ユクーリ、マターリの人については(例えば明らかにディレイ入れている人)、 とりあえず*私は*見なかったことにしてるです。 例: http://qb6.2ch.net/_sec2ch/2005/04/etc4-20050415-x.txt (抜粋) ミラーサイトもクロールしてますよね これはそれとは明らかに違うってことかな >>27 アンオフィシャルの2chミラーやdat保存サイトね。本質的には違わないはず。 「よく知られていて存在も便利」という理由と「クロールのやり方が調整されている」という理由で オメコぼしされてるというサイトは若干あると思う。 若干。 >>10 のスレでも 「このアクセスは○○さんのとこだから除外してあげて」 という遣り取りがあったようななかったような。 逆にいうと今から個人で新規で「みんなのために」datを収集する理由なんてないんだよね。 既存の個人サイトの提供するサービスでじゅうぶん間に合ってるはずだから。 …もしかしたらめっちゃ斬新で超便利な活用法とか考案したのかもしれないけど(w わたくし、過去狼板にて10000超のスレを2ゲットして参りました。 リロード頻度は1秒間に2回のペースで行なっておりますがやりすぎでしょうか? もちろん手動でございます。 >>21-22 保持数増やした思わぬ弊害がこんなとこにw おいそがしそうですね。>>34 >>37 今のところ、その方針で動いています。 ただ、最近ちとひどいので、技術的なしくみである程度防げないか検討中。 しくみとしては、バーボンハウス(クロールを検知したら.htaccessに自動で入れ込む)の延長線上かなと。 とりあえず、脳内のダンプ。 1) access_log から単位時間x秒(例えばx=3600とか)にアクセスしたIPアドレスのリストを作る 2) アクセスがy回以上で、かつリターンコード200だったアクセスをピックアップする(206や304を含めるかどうかは要検討) (yの初期値はx=3600でディレイ1秒だとy=3600だから、それに近い秘密の値(チューニング可能が望ましい)) 3) ホワイトリストを見て、2)のリストから除外する(公式もの: 2ちゃんねる検索とか) 4) リストアップされたIPアドレスは、z秒間 .htaccess の deny リストに掲載される より公平にしたい場合は、アクセス回数の代わりに(応答サイズ + 一定値)の和かなあ。 mod_bwshareっていうのがあるらしいけどどんな感じだろう? >>40 帯域制限系は、今のところしたくないっすね。 はけが悪くなるし、ここはダウンロード主体じゃないし。 同様の理由によりmod_limitipconnも、ちといまいちかと。 というか、mod_bwshareって、接続回数でも何かトリガを引けたりするのかしら。 http://www.topology.org/src/bwshare/README.html BW_tx1cred_rate: sets the maximum rate of serving files (files/second). BW_tx1debt_max: sets the maximum files to serve in excess of BW_tx1cred_rate (files). BW_tx2cred_rate: sets the maximum rate of serving bytes (bytes/second). BW_tx2debt_max: sets the maximum bytes to serve in excess of BW_tx2cred_rate (bytes). ほう。上2つ、おもしろいかも。 http://www.netnice.org/pukiwiki-e.php?mod_bwshare ・status 200でエラーメッセージを返すらしい ・ホワイトリストは書けないっぽい ・httpdのパフォーマンスが1割ぐらい下がるらしい ちと、微妙すね。 >>41 >うほ、mod_bwshareで帯域制限できるんですね。 >一定のリクエスト越えると拒否する機能しかないと勘違いしてた…(汗 (コピペ) 遅かった… >>44 ありゃー。 ライセンスゆるそうだから改造はありかもだけど。(誰が?) >>48 むしろ「クロール200m予選 一番のコース、deny」とか?wwwwwww >>50 何を言っているんだ。 この板では言い出しっぺの法則が適用されるんだぞ? 過剰アクセスかわからないんですけど18時頃にgame9のbbs.cgiアクセス数が急激に上昇 しています。 ※そろそろ監視員募集したい今日この頃 >>54 ヒント:NEETもしくはVIPPER(違 >>56 詳しく 急激に上がった時だけメールで知らせるとか。 24時間監視は大変でしょうし。 >>58 うはwwwwwwねーypwwwwwwwww まぁお前は24時間いるようだけどなwwwwwwww >>54 >※そろそろ監視員募集したい今日この頃 言い出しっぺが(以下ry >>59 祭りだった場合はどうする? >>39 >(206や304を含めるかどうかは要検討) これは 200 - 10 point 206 - 5 point 304 - 1 point 416 - 1 point 上記以外 0 point で、x = 3600 だった場合 19800 point でdeny 始めのうちは x = 1800 にして 19000 Point over( 1リクエスト/secは除外する) だったらdeny >21-22 おつかれまです。警告出しました。 規制@全サーバ No.2 http://qb5.2ch.net/test/read.cgi/sec2ch/1095552678/199 2005/04/15(金) 22:06:25 .dy.bbexcite.jp (警告) おじさんは、叩かれる快感を知ってるからなぁ。 え?私? なにもなければつまらないと思うけどなぁ・・・・(^_^;) いや、一般的にはなんもないほうがいいんだけど ん? 誤読していた? やられるのは私? 206.223.152.90 って BlackGoat でしたっけ? もう一つあったっすよね? IP 知ってますかー >>69 もうちょっとで出来るので cron で 10分おきによんでくださいー 詳しくはまたあとで書きます blackgoat3.2ch.net 206.223.152.90 blackgoat4.2ch.net 206.223.152.95 ですな(^_^;) ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる