クローラー&過剰リロード対策スレ
■ このスレッドは過去ログ倉庫に格納されています
最近、頻発しているクローラーや過剰リロード対策スレッドです。
★FAQ
■クローラーや過剰リロードとは?
・ツール等を使って板のスレッドを根こそぎDLする行為をクロール行為と
いいます。
クローラーとはクロール行為をする人の事です。
・過剰リロードとは文字通り過剰にリロードをしてsubject.txt等を取得
する行為です。
■どうして迷惑なの?
クロール行為や過剰リロードは鯖に過剰な負担をかけるため、最悪、鯖落ち
する危険があります。
■やったらどうなるの?
発見されて悪質な場合は規制情報板に掲載の上、該当プロバイダに通報
されます。
もしも先方が対応しなかったり、再発するような場合は .htaccessで
denyする場合もあります。
■.htaccessでdenyされるとどうなるの?
.htaccessでdenyされると書き込みはおろか閲覧すら出来なくなります。 >>487
お気に入りのスレは複数の板にまたがっているでしょうからねぇ。。
各板ごとにそれをやるようじゃ専用ブラウザの利便性が著しく損なわれるような。
>>484
整理板のスレもそこそこあるんですけど、削除議論とか
ここの規制系のいくつかのスレとか、運営系のスレとか、
規制議論とか、巡回してるところは、かなりあるんです。。
「巡回するな」は、活動するなと同義なんで、なんか方法
変えるしかないんかなぁと。。
>>485
まあ、なんか考えるのかもだけどね、、作者さんも。
>>486
かちゅにキャップ設定するとこなんてないですよw
>>483
Jane Viewは、そういう巡回できるですよ。けどね、巡回先が
大量にあると、一気にスレを開くとタブで埋まっちゃうのね。。
(で、画面が見えないという弊害が)
そんなわけで、かちゅでの巡回続けてるのです。。 >>493
View使ってますけど一度に開くスレ数は設定で決められますよ
15スレずつ開いて読んで閉じてって感じに >>488
活動方法にもよるのでしょうけれど、
クロールしてどこの板が未処理なのか調べているので、
それが駄目となってしまうと、今後はどうすればいいのかなあと。
いい方法があるなら、そちらに移行しますが。 |
〆⌒ヽ
―{}@{}@{}-]
( 皿 )
ロボットに見える件 >>493
>かちゅにキャップ設定するとこなんてないですよ
ダヨ(ο・д・)(・д・`ο)ネー
って言うか「書き込み規制を回避」なら兎も角。そもそも読み込みすら出来ないんだから。
それに、キャップでの回避が実現できるなら●をスルーする仕組みにしてくれと。 >>492>>493
Live2chなんかは1回の動作で取得スレのあるsubject.txt全部取得できるよ。
更新してるスレを開くのは手動だけど。 >>497
いや、除外ってこのバーボンの設定を、ですね。2ちゃんねるの中の人が。
>>501
何だと?
とても便利そうな機能じゃないかよ?!( ゚д゚)m6
〜>>380 まで
>>288
これから、ぼちぼち調整かなと。
おじさんは常に「極端」から始めるので、時に(生)暖かな心構えが必要です。
>>323
現在の閾値は例によって極秘なわけですが、なかなかな値すね。
設定値を見た感想: 一般的な板におけるスレの自動全取得は絶対にだめ、だめったらだめ。
掲示板ってそういうもんじゃないでしょ。
>>329
headlineかな。
>>363
仮に耐えられないとしたら、何か策を考えるんだろうなと。
>>367
今の状況だと、携帯側のプライベートネットワークが既に100Mbpsの頭打ちですね。
つまり、別のところで詰まっている状態です。
サーバ自体の能力は、まだ使い切っていないと思います。
ただ、限界ぎりぎりまで使うテストをしていないので、
blackgoat3/4の限界値(どのくらいまでの処理が可能なのか)は、正直なところ未知数です。 >>502
datじゃなくsubject.txtをちょっと触るだけなので許して欲しい
datを読むのは手動なので >>504
JaneViewでも同じですよ。
お気に入りのある板のsubject.txtを読みに行ってるです。
で、1鯖にそんなに大量に板が入ってるところも無いから、
そんなに負荷ではないと思う(多分私は50板前後。。) >>502
>>504
ただ、それをやるのは全取得スレッドを対象にして更新チェックするから、
ログ大量に保管してる人はあまりやらないと思う。(全取得スレッドのフォルダ開くだけで物凄くメモリ食う) ちなみに、JaneViewは、数分間は連続巡回できない
ようにもなってるし。。 >>509
それは基本じゃねすか?
かちゅ〜しゃも5分間隔をあけないと再巡回できない。 ん?
qb5ってバーボン除外(引っかかるけど、denyはされない)ですよ? いま、MacMoeJiroで削除整理板のスレを新規に200スレ巡回させたけど、
引っかからなかったよ・・・ >>511
えーとですね。。
qb5はみられても、各鯖の削除スクリプトはバーボンになるですよ。。 おや、etc4とgame10で急激なread.cgiアクセス数上昇が見られます。
新バーボンに引っかからない何て何やっているんだろう? 風呂入ってる間に1万回以上回し続けててみたもののやはりバーボン入りはせず。 まだ私がたまにぷちぷち手動で動かしているだけですよ? なにこれ
ttp://ch2.ath.cx/load/c-au1.html 〜>>406
>>381
今は、
cフロント1←blackgoat←掲示板サーバ
cフロント2←
cフロント3←
・・・
のうちの、のうちのcフロントに行くところが、100Mに達してしまっています。
つまり、blackgoatから出て行くところの管がめいっぱいになっていると。
blackgoatのネットワークI/Fそのものは1G対応なので、スイッチをいいものにアップグレードする方向で
解決を図ろうとしているわけです。
もし外からのアクセスが相当数見込まれるなら、それ用のblackgoatを入れる手はありえます。
cフロントの替わりに、各種クライアントやらクローラやらがつながると。
>>389 >>395 >>401
現在のblackgoatの遅延は1分です。ここしばらくずっと変えていません。
なっているとしたら、おかしいですね。
再度見直してみましたが、3/4とも1分になっていました。
>>406
その段階ですか。スイッチ? サーバ? それともその両方?
どのぐらいのスイッチを入れるかにもよるですね。
全ポート1Gのしっかりしたスイッチだと、それなりに値段します。
単に1Gでそれなりに動けばいいなら、いまやそれほどでもないかと。 >>511
>引っかかるけど
の時点でだめぽだと言うことでしょう。
削除作業の為に整理板や要請板を巡回しただけで引っかかってしまっては。。。
巡回せずに手動で取得しろと。
>>516
その辺が謎ねぇ。。
田代砲とかではなくスレ取得を連続で行うと引っかかるのかしら。
>>517
それじゃ削除作業が出来ないでしょうよと。
だから運営カテゴリは除外してくれないかしらと。除外ってdenyされない、では無くて。この仕組み自体動かさないでくれと。
運営カテゴリなんてボランティア以外にはそうそう巡回などしないでしょう。 大量に削除依頼スレッドを取得してから、いざ現場へいくと
削除が出来ない、っつーことですね。
削除人の方も取得の方法考えろってことでFA?>お狐さん >>521
>その段階ですか。スイッチ? サーバ? それともその両方?
両方です
>どのぐらいのスイッチを入れるかにもよるですね。
>全ポート1Gのしっかりしたスイッチだと、それなりに値段します。
>単に1Gでそれなりに動けばいいなら、いまやそれほどでもないかと。
全ポート1Gのしっかりしたスイッチだと聞いています 仕組みがよくわからんからあれだけれどさ。
削除スクリプト経由では規制を受けないようにするとか。
>>523
>>522
>巡回せずに手動で取得しろと。
巡回が駄目じゃなく
その方法が駄目なんだと思うぞ、
つまり引っかかる人は、世界で一番2ちゃんねるに負荷かけている人
方法変えてください、
難しいかなぁ、何て言えばいいんだろ、
まだどこにも導入されていないけどサ 個人的には、削除人のリモホが出ちゃってるのが
怖いなぁとか。
固定IPだったりもするし。
どういう基準でdenyされるか判るまでは
削除作業自体、やめた方が良さそうですね。 ってか、削除作業するならまず大量にスレ巡回する前に長期未処理1スレ取得して
そこに上がってるところから巡回始めてほしいもんだなぁ・・・
と、チラシの裏に愚痴っぽく 騒音、排ガス垂れ流しの車はもう使うなと言ってます。
ドライブは勿論出来ます。 FOXタン、中国からの書き込みっぽいのがあるんだけど、規制できる? パトカーや救急車も排ガス規制はクリアしてもらうと。 要は串をランダムに変えてアクセスすれば引っかからないとwwwwwww >>535
既に、自動切り替えソフトに100個ほどぶち込みました 末尾の数字は、ばーぼんになって何分経過したかの数字なのだ、という結論に至った俺 >>427
正直なところ、一般的な使い方なら、手動ではひっかかりませんね。
ただ、+記者だった(今も一応記者ですけど)頃のnewsplusの使い方だと、
ひっかかる気がします。
その頃の使い方は、こんなかんじでした。
1)家に帰る
2)かちゅ〜しゃやOpenJaneで、newsplusを開く
3)上から順に、全スレの>>1だけをたんたんと手で開いて、1スレ1秒ぐらいのインターバルで
たんたんと目を通していく
(重複を防ぐために、立っているスレを脳内に「残像」として残すためです。これだけで相当効果ありました)
4)ニュースソースを巡回しながら、スレを立てていく
つまり、3)の段階で、10分以内の時間で、かなり多くのスレ+subject.txtに手動でアクセスすることになります。
新スレが立ったかのチェックもするので、subject.txtも10回ぐらいはアクセスするかと。
当時のnewsplusのスレの立ち方だと、
記者活動を1.5日〜2日ぐらいさぼると、なんだか閾値に微妙に触れる可能性があるかもしれないですね。
ただ、これはたぶん、特殊な部類でしょうけど。 >>521 root▲ ★さん
>現在のblackgoatの遅延は1分です。
あ、さよですか。
↓これは関係なかったのですね。失礼しました。
ttp://c.2ch.net/z/version >>541
Good morning Hiroyuki! ぐわん
届いていないよとメールしていただけるとありがたいかも、
cc 私に来ていたから
ちっと探してみるです、でももううもチャっている予感
>>541 ひ(ryが管理人じゃなくなったとの噂を聞きつけてやってきました で、今度はその状況が串を.htaccessでdenyするとこまで逝かせてしまうかもw >>540
なるほど。
それは、私が設定したものではないです。
私が言っているのは、squid = blackgoat側の話です。
blackgoat側でのキャッシュの設定を、1分にしています。
つまり、1分以内に別のフロント(例えばdocomoから来てから30秒後にauから来るとか)
から再度datのリクエストが来ても、同じdatだったら、外に取りに行かないと。 >>539
て、事は、むむむさんはnewsplus全スレ取得してた?
ログ消さずに。 他の記者に読ませてやりたいねぇ。
無論強制させることじゃないけど。 >>541
みっけた
転送したです。
ohayou.com のメアドにJimは送ったようです。 そのうちdat落ちしてないスレを読むのにも金を取ったりしてなwwwwwwwwwwwwwwwwwwww
儲かるなぁwwwwwwwwwwwwww あれれ、、来ないような、、、SPAMフィルターで蹴られてる?? >>551
縦の連携だけではなく横の連携までなってないのか管理人はよ。。。
今までJimきゅんから管理人へ重要な用件でメールしたことがあったかもしれないね。
それに返信が来ないとなるとJimきゅんはどう思っただろう。。 さて、>>428〜 に戻ります。〜>>465
>>440 >>451 >>465
今の閾値は前にも書きましたが「*多くの*スレの自動巡回は許しません」な設定ですね。
いくつが「多くの」なのかは「ひ・み・つ」に触れてしまうので今は書きませんが、
あの設定値を見た時に、そういうコンセプトであると理解しました。
そういう需要がほんとに多いとしたら、
巡回な人用の別立てのサーバ(それ用のサーバ)を、別途準備することになるのかな。
>>463
たしかに、悩みどころですね。
単に&つけてバックグラウンド実行して、終了を待たないようにするっていうだけでいいような気がします。
今日全部cronしこむのはちとあれなので、
とりあえず今は、root権限ありtigerあたりに仕込んでみることにします。
グラフとっているんで、効果もわかるだろうし。 ほほーい
>>559
現在の値は当初の二倍緩和です
2.4倍位までは緩和しようかなと調査中。。。
ただし 3倍まではするつもり全く無しでーす 先ほども書きましたが(書いたつもりだけかも知れない)
サーバが楽な時間帯はさらに緩和するということも出来るかと
たとえば 2:00AM - 7:00AM はさらに二倍とか >>560
しかし、、
返信先に Jim のアドレスが入っていないという罠。 >>466〜>>537
>>466
前にレスしたように、携帯関係と、
(管理人がOK出すなら)巡回関係ですかね。
あるいは、「ディレイx秒相当の巡回は許すようにしてくださいー」ということなら、
そういう設定に閾値を変えることになるのでしょう。
>>491
それは、世の中の習いかと。
先進国と開発途上国っていうモデルに似たやつで。
>>520
ありゃ、例のやつ、再発か。
カーネルを戻しても起こるってことは、別の原因だなぁ。
これは、あとで。
>>530
つまり、京都議定書ってやつですか。
>>535 >>537
そうなりますね。
1000個のProxyを確保してそれぞれからちょっとずつアクセスすれば、
技術的には、逃れることは可能かと。
2ちゃんねるだって、読み込みに使えるProxyのリストを公開しています。
http://hack72.2ch.net/
でも、逃れる方法をここで議論しても、しょせんせんないことかと。 〜>>560
>>546
無理のない範囲で楽しんでやっていたので、たいしたことないですよ。
なんていうか、やるならちゃんとやりたいっていう、自己満足に過ぎないわけです。
今は、楽しむ部分がちょっと変わりましたが、結局のところ自己満足であることは
何ら変わっていないわけで。
時間は限られているわけで、その限られた中でできることをしてるってかんじです。
>>547
そのProxyが有名になってそこからばきばきクロールされちゃうと、ありうるかもですね。
>>549
そうですよ。
で、かちゅ〜しゃが重くなってくると、ログをどっこいしょとmvして、ってかんじ。
>>550
それぞれのスタイルで、気楽にやるといいと思うのです。
仕事じゃないわけで、しょせんはその程度のものだという割り切りも、時として必要かと。
>>560
それで、待ちになってたとゆうことすか。 >>563-564
了解です。
ようやく、下までいったか。
c-au1の様子を見てきます。 「閾値は内緒」と言うのはよく理解できるのですが。
内緒にする意味がいまいちわからない。
や、閾値を公表するとぎりぎりそれに準じた値で事を行う輩が出てくるから。これは当然知っていますが。
規制というのは行う側の都合の良い値で行うのでしょう?
だったら「ぎりぎりそれに準じた値」で色々やられても全く問題ない値で規制すれば良いんじゃネーノ?
その上で値を公表すれば専用ブラウザの作者さんとかが色々アレしてくれて結果的に負荷も下がるような。
あれか。IEでのアクセス>>>専用ブラウザでのアクセスだから駄目か。
>「ぎりぎりそれに準じた値」で色々やられても全く問題ない値
という事は当然に非公表の時よりも厳しい値になるであろうし。
駄目駄目だな俺様。 今なんか規制が解除されたっぽいのでかちゅ〜しゃでアクセスしてみた。
_| ̄|○
規制されているときにスレを読み込んでエラーが出たスレ、全てログの再取得をしないと駄目なのね。。。
c-au1はとりあえずhttpdとbalanceをリスタートしました。なぞだ。
さて、メール読んで、いくつかのサーバに自動起動をしこんできます。 本日、今現在のcronでの自動動作の設定方針を書いておくです。
・tiger503 = live20 とりあえず>>481に従い今は設定しません
・tiger504 = game10 設定します
・tiger505 = news18 設定します
・tiger506 = game9/etc4/dso 全部設定します
・tiger507 = live16 とりあえず>>481に従い今は自動設定しません
・tiger508 = life7 設定します
・tiger509 = news19 設定します
・tiger510 = hobby7 設定します
・oyster901 = ex10
管理人が今最も手厚くしているnews4vipがある、2ちゃんねるで一番大事なサーバなので、
これだけは管理人に決めてもらおうと思います。
管理人が「設定してくださいー」と言えばしくみ発動するし、「しばらく様子を見てくださいー」とか
「しばらく入れないでくださいー」言えば、今は発動しません。
とりあえず、管理人から何らかの明示的な指示があるまで、ex10は保留(発動しない)にします。
・他のすべてのサーバ
今は自動設定しません
ただし気が向いたら、FOXさんや私や若者(やり方が書かれたメールがCc:されている)が、
様子を見ながら、随時手で動かすことはありえます。
ということで、これから順番に作業していきます。 subject.txt のリロードもそんなに負荷につながるのか。 多数>>制限値>>規定値>>少数
規定値に触れるものを洗い出すのと、
制限する値ってのは別のほうがいい気がします。
>>575
前にやったミニ雪だるま作戦による調査で、
少なくとも旧ex7、今のex10では、subject.txtへの激しいアクセスにより、
相当量のコストかかっているとわかりました。
>>576
つまり、
A)やばいやつをリストアップする時に使うパラメータ
B)実際に規制するためのパラメータ
を別にして、B > Aにするのはどうか、ってことすか。 ex10はVIPとニー速みたいに
subject.txtを更新、新しく立ったスレを片っ端から読み込み、書き込む、subject.txtを更新...
を繰り返すって特異なところだからなぁ・・・
他と同じとは言えないよね。 俺・・・ひ(ryのレス↑予想当たったよ。一字一句間違いなく完璧にな!
おやしみ。 >>579
そですね。
結果をみて、そう思いました。
ただ、その傾向は他の板でも大なり小なりあるわけで、
チューニング/負荷軽減のポイントがひとつわかったという意味では、
収穫だったと。
>>578
了解です。
そのへんは、おじさんがうまく仕込んでくれることでしょう。 たぶん、サーバごとで閾値が変わってくると思うので、
計測と規制は別のフェーズでやっていったほうが
最適値は出しやすいと思うのですね。
>>582
なるほど。
Aは全サーバ共通の低めの値を設定して網をかけることにより、全体や各サーバにおける傾向をさぐる
各サーバにおける「網のかかり方」を参考にしながら、サーバごとに適切なBの値をチューニングする
ってかんじですか。いいかも。 >>584
今、まだgame10しか動かしていません。
作業中につき。 >>584
あ、わかった。環境変数問題かぁ。
んじゃ、動かし方を変えます。 壷から着ました
質問ですが「過度の更新」を規制するのはわかりますが
実況CHだけは導入見送りさせてもらえないでしょうか。
実況しようとすれば落ちる。
リロードすればアクセス規制じゃなんのための実況板かわかりません。 >>587
スレ嫁よヴァカ
誰が>>574でLive系は導入見送られてるなんて教えるかよ ・・・差分取得失敗したら
串使いまくりのiriaでDL(not 差分取得)するかな 28 BBON.news18 218.41.181.212 (p29b5d4.tkyoac00.ap.so-net.ne.jp) 2
引っかかった
ID:Ou4gt41r0のように報告すべき? 今日は wait 2秒にしてみた (1板1時間以内に取得できればいいや) ■ このスレッドは過去ログ倉庫に格納されています