X



トップページ運用情報
1001コメント268KB
クローラー&過剰リロード対策スレ
■ このスレッドは過去ログ倉庫に格納されています
0001reffi@報告人 ★
垢版 |
2005/04/15(金) 04:49:50ID:???0
最近、頻発しているクローラーや過剰リロード対策スレッドです。

★FAQ

■クローラーや過剰リロードとは?
・ツール等を使って板のスレッドを根こそぎDLする行為をクロール行為と
 いいます。
 クローラーとはクロール行為をする人の事です。
・過剰リロードとは文字通り過剰にリロードをしてsubject.txt等を取得
 する行為です。

■どうして迷惑なの?
 クロール行為や過剰リロードは鯖に過剰な負担をかけるため、最悪、鯖落ち
 する危険があります。

■やったらどうなるの?
 発見されて悪質な場合は規制情報板に掲載の上、該当プロバイダに通報
 されます。
 もしも先方が対応しなかったり、再発するような場合は .htaccessで
 denyする場合もあります。

■.htaccessでdenyされるとどうなるの?
 .htaccessでdenyされると書き込みはおろか閲覧すら出来なくなります。
0473動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:19:12ID:+b8malLj0
sleep(60);
0474動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:19:37ID:l0L4SrJh0
>>472
全体では、やっぱ500スレくらい見てるんですよ。
けど、それらは結構分散してるから。

削除系の板の巡回が多いんで、結局そのくらいに
なってしまってるもんで。。
0475動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:20:32ID:V0M0fFyX0
ボラ活動のために未取得のスレを巡回して取得していったら、
これにひっかかるのかな。。。
今までそういうやり方でボラ活動してきたので、
ひっかかってしまうと、厳しいものがあるですね。。
負荷をかけてまでやろうとは思わないですが。。。
0477 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
一番負荷かけてるのは誰? って話しです。
50万人のうちの上位100人は引っかかることを覚悟してください
0479のいぽー(本物) ◆News/n6/H2
垢版 |
2005/04/16(土) 05:23:46ID:Ou4gt41r0
って言うか>>332で一旦リセットしているみたいだから後に決まっているような予感が。。。


28 BBON.news19   218.218.14.139 (EATcf-320p139.ppp15.odn.ne.jp) 89

この
>BBON.news19
というのはnews19サーバでの読み込み過多によりバーボン入りしましたという事よね?
それとも2ちゃんねる全体で引っかかった中で読み込み数が一番多かったサーバ?

あと、末尾の数字(89)ってなぁに?
最初は1だったのがどんどん増えてきた。
0480動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:23:50ID:l0L4SrJh0
qb5の削除依頼系は普通に見えてたから、削除スクリプト
動かすまで、まじで気が付かなかった。。

やっぱJaneに切り替えた方がいいのかなぁ。。

>>476
多分、●も使ってるから、スピードが速いのかもしれない。

うーん、、削除系だけ外してもらうか、自分で手間かけて
Janeに巡回先を移行させるか。。
(で、後者をやれと言われそうな予感)
0481root▲ ★
垢版 |
NGNG
>>267まで

>>245
blackgoat3/4は現在のところ、プライベート側にしかサービスを提供していません。
もちろん、パブリック側に提供することも、技術的には可能です。

>>248
live系はスルーにする(現在のバーボンのように)とかの細かなチューニングは、
これから詰めていけばいいかなと。

個人的には、live系と場合によってはex系はスルーか、大幅にゆるくしてもよいかなとは思っています。
そのかわり過負荷で落ちたとしても、文句言わせないってことになるんでしょう、きっと。

>>255
live系は、遅延するぐらいならサーバが重くなったり落ちたりしたほうがいいという、
一般のサーバとはだいぶ違う人たちな気がするですね。つまり、いわゆる「コスト高」な人たち。
ということでIMO、上記の意見で。
0482 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
スピード落としてくれるだけでかなり助かるのだが、
0483動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:26:09ID:l0L4SrJh0
>>482
かちゅの方で、スピードをコントロールする手段がないんで、
やっぱこれを使う限りは駄目って事ですねぇ。。

いちいちログアウトして巡回しても手間なだけだし。。
ふむふむ。。
0484動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:26:30ID:V0M0fFyX0
削除整理板だと1000超えるスレがあるけれど、
活動のためにほとんどのスレを巡回対象にしているボラさんって
そこそこいる予感しますよね。
0488のいぽー(本物) ◆News/n6/H2
垢版 |
2005/04/16(土) 05:29:14ID:Ou4gt41r0
>>484
運営カテゴリは除外、で良いような。
このカテゴリの板は商売としてクロールしてログを取得する意味もうまみも無いような気がしますし。
0489動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:29:21ID:+b8malLj0
サーバー負荷に対してそんなに必死になるほど
2ちゃんねる運営ってのはキツキツで頑張ってんのか〜?
サーバー関連のことはやったことないから分かんないんだけども。
0491 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
>>489
上位0.01%くらいで30%くらいの資源を使っていると見た
0492のいぽー(本物) ◆News/n6/H2
垢版 |
2005/04/16(土) 05:30:33ID:Ou4gt41r0
>>487
お気に入りのスレは複数の板にまたがっているでしょうからねぇ。。
各板ごとにそれをやるようじゃ専用ブラウザの利便性が著しく損なわれるような。
0493動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:32:06ID:l0L4SrJh0
>>484
整理板のスレもそこそこあるんですけど、削除議論とか
ここの規制系のいくつかのスレとか、運営系のスレとか、
規制議論とか、巡回してるところは、かなりあるんです。。

「巡回するな」は、活動するなと同義なんで、なんか方法
変えるしかないんかなぁと。。

>>485
まあ、なんか考えるのかもだけどね、、作者さんも。

>>486
かちゅにキャップ設定するとこなんてないですよw

>>483
Jane Viewは、そういう巡回できるですよ。けどね、巡回先が
大量にあると、一気にスレを開くとタブで埋まっちゃうのね。。
(で、画面が見えないという弊害が)
そんなわけで、かちゅでの巡回続けてるのです。。
0494動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:32:18ID:+b8malLj0
>>491
ちっ!バレタカ。
0497動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:34:52ID:V0M0fFyX0
>>488
活動方法にもよるのでしょうけれど、
クロールしてどこの板が未処理なのか調べているので、
それが駄目となってしまうと、今後はどうすればいいのかなあと。
いい方法があるなら、そちらに移行しますが。
0499のいぽー(本物) ◆News/n6/H2
垢版 |
2005/04/16(土) 05:35:29ID:Ou4gt41r0
>>493
>かちゅにキャップ設定するとこなんてないですよ
ダヨ(ο・д・)(・д・`ο)ネー
って言うか「書き込み規制を回避」なら兎も角。そもそも読み込みすら出来ないんだから。
それに、キャップでの回避が実現できるなら●をスルーする仕組みにしてくれと。
0502 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
>>501
そこは是非手動にして欲しいです。
0504のいぽー(本物) ◆News/n6/H2
垢版 |
2005/04/16(土) 05:37:40ID:Ou4gt41r0
>>497
いや、除外ってこのバーボンの設定を、ですね。2ちゃんねるの中の人が。

>>501
何だと?
とても便利そうな機能じゃないかよ?!( ゚д゚)m6

0505root▲ ★
垢版 |
NGNG
>>380 まで

>>288
これから、ぼちぼち調整かなと。
おじさんは常に「極端」から始めるので、時に(生)暖かな心構えが必要です。

>>323
現在の閾値は例によって極秘なわけですが、なかなかな値すね。
設定値を見た感想: 一般的な板におけるスレの自動全取得は絶対にだめ、だめったらだめ。
            掲示板ってそういうもんじゃないでしょ。

>>329
headlineかな。

>>363
仮に耐えられないとしたら、何か策を考えるんだろうなと。

>>367
今の状況だと、携帯側のプライベートネットワークが既に100Mbpsの頭打ちですね。
つまり、別のところで詰まっている状態です。
サーバ自体の能力は、まだ使い切っていないと思います。

ただ、限界ぎりぎりまで使うテストをしていないので、
blackgoat3/4の限界値(どのくらいまでの処理が可能なのか)は、正直なところ未知数です。
0506動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:40:19ID:068ogXZ10
>>502
datじゃなくsubject.txtをちょっと触るだけなので許して欲しい
datを読むのは手動なので
0507動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:41:31ID:l0L4SrJh0
>>504
JaneViewでも同じですよ。
お気に入りのある板のsubject.txtを読みに行ってるです。

で、1鯖にそんなに大量に板が入ってるところも無いから、
そんなに負荷ではないと思う(多分私は50板前後。。)
0508動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:41:58ID:rmIZqSyI0
>>502
>>504
ただ、それをやるのは全取得スレッドを対象にして更新チェックするから、
ログ大量に保管してる人はあまりやらないと思う。(全取得スレッドのフォルダ開くだけで物凄くメモリ食う)
0511 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
ん?

qb5ってバーボン除外(引っかかるけど、denyはされない)ですよ?
0515reffi@報告人 ★
垢版 |
2005/04/16(土) 05:45:35ID:???0
おや、etc4とgame10で急激なread.cgiアクセス数上昇が見られます。
新バーボンに引っかからない何て何やっているんだろう?
0517 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
>>514
ですよ
0518 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
まだ私がたまにぷちぷち手動で動かしているだけですよ?
0521root▲ ★
垢版 |
NGNG
>>406

>>381
今は、

cフロント1←blackgoat←掲示板サーバ
cフロント2←
cフロント3←
・・・

のうちの、のうちのcフロントに行くところが、100Mに達してしまっています。
つまり、blackgoatから出て行くところの管がめいっぱいになっていると。

blackgoatのネットワークI/Fそのものは1G対応なので、スイッチをいいものにアップグレードする方向で
解決を図ろうとしているわけです。

もし外からのアクセスが相当数見込まれるなら、それ用のblackgoatを入れる手はありえます。
cフロントの替わりに、各種クライアントやらクローラやらがつながると。

>>389 >>395 >>401
現在のblackgoatの遅延は1分です。ここしばらくずっと変えていません。
なっているとしたら、おかしいですね。
再度見直してみましたが、3/4とも1分になっていました。

>>406
その段階ですか。スイッチ? サーバ? それともその両方?

どのぐらいのスイッチを入れるかにもよるですね。
全ポート1Gのしっかりしたスイッチだと、それなりに値段します。
単に1Gでそれなりに動けばいいなら、いまやそれほどでもないかと。
0522のいぽー(本物) ◆News/n6/H2
垢版 |
2005/04/16(土) 05:57:41ID:Ou4gt41r0
>>511
>引っかかるけど
の時点でだめぽだと言うことでしょう。
削除作業の為に整理板や要請板を巡回しただけで引っかかってしまっては。。。
巡回せずに手動で取得しろと。

>>516
その辺が謎ねぇ。。
田代砲とかではなくスレ取得を連続で行うと引っかかるのかしら。

>>517
それじゃ削除作業が出来ないでしょうよと。
だから運営カテゴリは除外してくれないかしらと。除外ってdenyされない、では無くて。この仕組み自体動かさないでくれと。
運営カテゴリなんてボランティア以外にはそうそう巡回などしないでしょう。
0523動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 05:57:41ID:uaAJdnI30
大量に削除依頼スレッドを取得してから、いざ現場へいくと
削除が出来ない、っつーことですね。

削除人の方も取得の方法考えろってことでFA?>お狐さん
0525 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
>>521

>その段階ですか。スイッチ? サーバ? それともその両方?

両方です

>どのぐらいのスイッチを入れるかにもよるですね。
>全ポート1Gのしっかりしたスイッチだと、それなりに値段します。
>単に1Gでそれなりに動けばいいなら、いまやそれほどでもないかと。

全ポート1Gのしっかりしたスイッチだと聞いています
0527 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
>>522
>巡回せずに手動で取得しろと。

巡回が駄目じゃなく
その方法が駄目なんだと思うぞ、

つまり引っかかる人は、世界で一番2ちゃんねるに負荷かけている人
方法変えてください、
難しいかなぁ、何て言えばいいんだろ、

まだどこにも導入されていないけどサ
0528動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:02:42ID:uaAJdnI30
個人的には、削除人のリモホが出ちゃってるのが
怖いなぁとか。

固定IPだったりもするし。
どういう基準でdenyされるか判るまでは
削除作業自体、やめた方が良さそうですね。
0529動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:03:42ID:rmIZqSyI0
ってか、削除作業するならまず大量にスレ巡回する前に長期未処理1スレ取得して
そこに上がってるところから巡回始めてほしいもんだなぁ・・・

と、チラシの裏に愚痴っぽく
0530 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
騒音、排ガス垂れ流しの車はもう使うなと言ってます。
ドライブは勿論出来ます。
0532動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:06:10ID:kfFlyTiK0
いつも思うんだけどFOX★っていつ寝てんの?
0535動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:11:00ID:hk2Uggix0
要は串をランダムに変えてアクセスすれば引っかからないとwwwwwww
0539root▲ ★
垢版 |
NGNG
>>427
正直なところ、一般的な使い方なら、手動ではひっかかりませんね。

ただ、+記者だった(今も一応記者ですけど)頃のnewsplusの使い方だと、
ひっかかる気がします。

その頃の使い方は、こんなかんじでした。

1)家に帰る
2)かちゅ〜しゃやOpenJaneで、newsplusを開く
3)上から順に、全スレの>>1だけをたんたんと手で開いて、1スレ1秒ぐらいのインターバルで
たんたんと目を通していく
(重複を防ぐために、立っているスレを脳内に「残像」として残すためです。これだけで相当効果ありました)
4)ニュースソースを巡回しながら、スレを立てていく

つまり、3)の段階で、10分以内の時間で、かなり多くのスレ+subject.txtに手動でアクセスすることになります。
新スレが立ったかのチェックもするので、subject.txtも10回ぐらいはアクセスするかと。

当時のnewsplusのスレの立ち方だと、
記者活動を1.5日〜2日ぐらいさぼると、なんだか閾値に微妙に触れる可能性があるかもしれないですね。

ただ、これはたぶん、特殊な部類でしょうけど。
0540動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:15:08ID:FP/uG3Qy0
>>521 root▲ ★さん
>現在のblackgoatの遅延は1分です。
あ、さよですか。
↓これは関係なかったのですね。失礼しました。
ttp://c.2ch.net/z/version
0541ひろゆき@どうやら管理人 ★
垢版 |
NGNG
>>406
初耳。。
0543動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:16:44ID:+b8malLj0
>>541
Good morning Hiroyuki!
0544 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
ぐわん
届いていないよとメールしていただけるとありがたいかも、

cc 私に来ていたから
ちっと探してみるです、でももううもチャっている予感
>>541
0546動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:19:13ID:kfFlyTiK0
>>539
すげええええええ
よくそんな豆な事を
0547動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:19:27ID:4rlx9Hb40
で、今度はその状況が串を.htaccessでdenyするとこまで逝かせてしまうかもw
0548root▲ ★
垢版 |
NGNG
>>540
なるほど。

それは、私が設定したものではないです。
私が言っているのは、squid = blackgoat側の話です。

blackgoat側でのキャッシュの設定を、1分にしています。
つまり、1分以内に別のフロント(例えばdocomoから来てから30秒後にauから来るとか)
から再度datのリクエストが来ても、同じdatだったら、外に取りに行かないと。
0551 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
>>541
みっけた

転送したです。
ohayou.com のメアドにJimは送ったようです。
0552動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:25:35ID:hk2Uggix0
そのうちdat落ちしてないスレを読むのにも金を取ったりしてなwwwwwwwwwwwwwwwwwwww

儲かるなぁwwwwwwwwwwwwww
0553動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:25:50ID:ebsQyNzf0
つぼ
0554ひろゆき@どうやら管理人 ★
垢版 |
NGNG
あれれ、、来ないような、、、SPAMフィルターで蹴られてる??
0555動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:28:24ID:H3VmSjHm0
ワロス
0556のいぽー(本物) ◆News/n6/H2
垢版 |
2005/04/16(土) 06:29:04ID:Ou4gt41r0
>>551
縦の連携だけではなく横の連携までなってないのか管理人はよ。。。
今までJimきゅんから管理人へ重要な用件でメールしたことがあったかもしれないね。
それに返信が来ないとなるとJimきゅんはどう思っただろう。。
0559root▲ ★
垢版 |
NGNG
さて、>>428〜 に戻ります。〜>>465

>>440 >>451 >>465
今の閾値は前にも書きましたが「*多くの*スレの自動巡回は許しません」な設定ですね。
いくつが「多くの」なのかは「ひ・み・つ」に触れてしまうので今は書きませんが、
あの設定値を見た時に、そういうコンセプトであると理解しました。

そういう需要がほんとに多いとしたら、
巡回な人用の別立てのサーバ(それ用のサーバ)を、別途準備することになるのかな。

>>463
たしかに、悩みどころですね。
単に&つけてバックグラウンド実行して、終了を待たないようにするっていうだけでいいような気がします。

今日全部cronしこむのはちとあれなので、
とりあえず今は、root権限ありtigerあたりに仕込んでみることにします。
グラフとっているんで、効果もわかるだろうし。
0560ひろゆき@どうやら管理人 ★
垢版 |
NGNG
見つけましたー。返信しましたー。
0563 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
ほほーい

>>559

現在の値は当初の二倍緩和です
2.4倍位までは緩和しようかなと調査中。。。

ただし 3倍まではするつもり全く無しでーす
0564 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
先ほども書きましたが(書いたつもりだけかも知れない)
サーバが楽な時間帯はさらに緩和するということも出来るかと

たとえば 2:00AM - 7:00AM はさらに二倍とか
0565 [―{}@{}@{}-] FOX ★
垢版 |
NGNG
>>560

しかし、、
返信先に Jim のアドレスが入っていないという罠。
0567root▲ ★
垢版 |
NGNG
>>466>>537

>>466
前にレスしたように、携帯関係と、
(管理人がOK出すなら)巡回関係ですかね。

あるいは、「ディレイx秒相当の巡回は許すようにしてくださいー」ということなら、
そういう設定に閾値を変えることになるのでしょう。

>>491
それは、世の中の習いかと。
先進国と開発途上国っていうモデルに似たやつで。

>>520
ありゃ、例のやつ、再発か。
カーネルを戻しても起こるってことは、別の原因だなぁ。
これは、あとで。

>>530
つまり、京都議定書ってやつですか。

>>535 >>537
そうなりますね。
1000個のProxyを確保してそれぞれからちょっとずつアクセスすれば、
技術的には、逃れることは可能かと。

2ちゃんねるだって、読み込みに使えるProxyのリストを公開しています。
http://hack72.2ch.net/

でも、逃れる方法をここで議論しても、しょせんせんないことかと。
0568動け動けウゴウゴ2ちゃんねる
垢版 |
2005/04/16(土) 06:47:20ID:7KmLBscK0
tubo
0569root▲ ★
垢版 |
NGNG
>>560

>>546
無理のない範囲で楽しんでやっていたので、たいしたことないですよ。
なんていうか、やるならちゃんとやりたいっていう、自己満足に過ぎないわけです。

今は、楽しむ部分がちょっと変わりましたが、結局のところ自己満足であることは
何ら変わっていないわけで。

時間は限られているわけで、その限られた中でできることをしてるってかんじです。

>>547
そのProxyが有名になってそこからばきばきクロールされちゃうと、ありうるかもですね。

>>549
そうですよ。
で、かちゅ〜しゃが重くなってくると、ログをどっこいしょとmvして、ってかんじ。

>>550
それぞれのスタイルで、気楽にやるといいと思うのです。
仕事じゃないわけで、しょせんはその程度のものだという割り切りも、時として必要かと。

>>560
それで、待ちになってたとゆうことすか。
0570root▲ ★
垢版 |
NGNG
>>563-564
了解です。

ようやく、下までいったか。

c-au1の様子を見てきます。
0571のいぽー(本物) ◆News/n6/H2
垢版 |
2005/04/16(土) 06:54:13ID:Ou4gt41r0
「閾値は内緒」と言うのはよく理解できるのですが。
内緒にする意味がいまいちわからない。
や、閾値を公表するとぎりぎりそれに準じた値で事を行う輩が出てくるから。これは当然知っていますが。

規制というのは行う側の都合の良い値で行うのでしょう?
だったら「ぎりぎりそれに準じた値」で色々やられても全く問題ない値で規制すれば良いんじゃネーノ?
その上で値を公表すれば専用ブラウザの作者さんとかが色々アレしてくれて結果的に負荷も下がるような。
あれか。IEでのアクセス>>>専用ブラウザでのアクセスだから駄目か。
>「ぎりぎりそれに準じた値」で色々やられても全く問題ない値
という事は当然に非公表の時よりも厳しい値になるであろうし。
駄目駄目だな俺様。
0572のいぽー(本物) ◆News/n6/H2
垢版 |
2005/04/16(土) 06:57:37ID:Ou4gt41r0
今なんか規制が解除されたっぽいのでかちゅ〜しゃでアクセスしてみた。

_| ̄|○
規制されているときにスレを読み込んでエラーが出たスレ、全てログの再取得をしないと駄目なのね。。。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況