【.htaccess】読みこみできない【規制作戦】
■ このスレッドは過去ログ倉庫に格納されています
http://qb3.2ch.net/test/read.cgi/operate/1082125059/864-865n 864 :動け動けウゴウゴ2ちゃんねる :04/04/26 16:31 ID:XBHI6262 全datさらうのを勧めるのもどうかと 865 :留守番 ★ :04/04/26 16:42 ID:??? >>864 最近増えてきているんですよねぇ .htaccess で deny の規制が復活の予感。 http://qb3.2ch.net/test/read.cgi/operate/1082125059/867-868n 867 :root ★ :04/04/26 16:47 ID:??? datかっさらいもさることながら、read.cgi経由も目につくような気が。 868 :留守番 ★ :04/04/26 16:49 ID:??? >>867 ですねぇ 思い立ったが吉日ってことで スレ立ててやりましょ 現在 全サーバに設定 (qb5.6 を除く) deny from 203.192.158.0/23 deny from 210.160.72.144/29 deny from 210.230.239.64/26 deny from 61.115.195.128/26 deny from 211.4.214.128/26 deny from 202.224.239.248/29 deny from 64.68.92. deny from 64.68.81. deny from 220.5.107.128 deny from 211.133.152.175 deny from 61.198.96.151 deny from 219.106.23.235 deny from 219.167.59.210 deny from 210.138.60.135 deny from 218.223.194.216 deny from 202.226.244.32 ex6.2ch.net サーバ 呼び出し回数 = 35750 deny from 219.38.250.12 #(2511) 7.02% deny from 218.221.83.192 #(2228) 6.23% deny from 61.214.24.75 #(1243) 3.48% deny from 210.230.*.* #(715) 2% deny from 218.225.*.* #(572) 1.6% deny from 220.105.*.* #(570) 1.59% deny from 210.146.*.* #(554) 1.55% deny from 222.144.*.* #(425) 1.19% sports8.2ch.net サーバ GET /test/read.cgi 呼び出し回数 = 4509 deny from 202.225.151.123 #(324) 7.19% deny from 202.224.*.* #(79) 1.75% deny from 222.5.*.* #(70) 1.55% deny from 202.247.*.* #(51) 1.13% IPアドレス:219.38.250.12 ホスト名:YahooBB219038250012.bbtec.net IPアドレス:218.221.83.192 ホスト名:pdd53c0.ykhmac00.ap.so-net.ne.jp IPアドレス:61.214.24.75 ホスト名:p6075-ipad02funabasi.chiba.ocn.ne.jp IPアドレス:202.225.151.123 ホスト名:ktc151123.tmtv.ne.jp ネットワークサービス名:つづきの森 ケーブルネット ぐぐる弾きにrobots.txt使わないのはどうして? >>56 の内容のテキストファイルをrobots.txtという名前で 各サーバのルートに置くだけですが ワラタ googleだけなら User-agent: Googlebot Disallow: /* これでおk。 >>478-503 を見るに板のトップは見せるらしいから Disallow: /test のほうがいいのではないかと 暑いと思ったらもう夏休みか>ID:3eP4QhhI ID:YXEx8nGB deny from 64.68.92. deny from 64.68.81. ↑じゃなくてrobots.txt置いとけば、 クローラーそのものが来なくなるから その方が処理軽いかと思ったんだけどね カスタマイズできるということもあると思うけど、 ロボットはじきに限定なら > robots.txt システム共通化ができる. > .htaccess という面もあるのではないかと思われ。 deny from 211.4.214.173 #(608) 4.3% deny from 211.4.214.174 #(512) 3.62% deny from 219.18.*.* #(137) 0.97% deny from 61.115.*.* #(106) 0.75% deny from 172.205.*.* #(76) 0.54% 悪意のある人をはじくのが目的だから、 robots.txtなんて読んでないと思われ。 >>545 next generation: にはちょっと笑ってしまいましたよ・・・ >>543 ケイディディ株式会社 (KDD Corporation) SUBA-035-153 [サブアロケーション] 211.4.214.0 株式会社イーツ (I2TS Inc.) I2TS-NET2 [211.4.214.128 <-> 211.4.214.191] 211.4.214.128/26 なんだろこの会社 ひろゆき的に、ググルロボは悪意なの? >>541 は一面的には正しい。 GoogleBotの類に対してはrobots.txtを自動で読ませて自力で帰ってもらうようにしたほうが いちいちIPアドレスを調べてこちら側で範囲を推測して.htaccessを設定するよりもずっと手間は楽なはず。 大手検索エンジンのクローラ以外にもrobots.txtを読んでくれるやつがもしかしたらあるかもしれないし、 ファイル置くだけで勝手に帰ってくれるんだから置いておくことについてはいいことじゃん。と思う。 やっていることは・・・ google だから弾くじゃなくてさ 極端に資源を食っているアクセス元を弾くなんだな それが たまたままたまたまたまた(ry 肩が痛い、30肩が悪化したようだ >>550 えぇっ〜〜〜 40肩だとおもっていたのに・・・ ただの更年期障害では… なんか弾かなければならない、という強迫観念みたいなのが見て取れるかんじ。 帯域食ってるのはさくっと別扱いにしません? >>553 たとえば 全資源の 10% を使って read.cgi をぶん回しているとこが 5箇所あったらどーする? 半分はそこの為に全労力を2ちゃんねるが無料で提供しているわけだ 50% とかはまじな話しです 強迫観念どころか、全精力を傾けて排除中。。。 なんか>>553 は自分でも変な書き方だなあ。 「.htaccessだけに固執しなくてもいいじゃん?」 …たぶんこれが近い。かも。robots.txtを避ける理由ないと思うし。 帯域食ってるのとアクセス回数多いのとは別に対処しようっての自体がなんか別の話だな。あれ? ええと、それはサイトポリシーでもあると思うのでそれとしてひとつ質問。 最近弾いた効果って転送量とか鯖負荷とかで目に見えて出てます? 固定IPのケーブルでワイルドカード使ってるのも そーゆーことなのかな >>556 ふむふむ その場合は自動化するのはどうやってやれはせいいんですかねぇ? IP -> robot.txt の自動生成は簡単なの? 今やっているような個人・団体のIPアドレス弾きにはrobots.txtは効果ないと思う。 あれはあくまで検索エンジンのロボットを弾くためのものだから。 >>561 つまり 検索エンジンは基本的にOK、だけど負荷かけたら弾くよ って管理ポリシーって事ですな。 >>560 そね。期待を持たせる紛らわしい書き方だったかも。すみません。 抽出や自動化のどのへんがネックになってるのかがイマイチわかんないので、 外野から手助けやヒントをしてあげたくてもなかなか難しいのではないかと… 膨大なログから「何か」やって>>543 を作ってる、というとこしかわからないわけですし。 手順やスクリプトは公開してもまずいことは無いんじゃないですかね。 robots.txtを置く ↓ ロボットさんのアクセスがなくなる ↓ 他の人たちのパーセンテージが(ちょっと)上がる ↓ (゚д゚)ウマー >>562 というか、単にGoogleあたりを避けるつもりでrobots.txtを置いてしまうと 「robots.txtを素直に読んでしまって入ってこれなくなる機械の体の人がいるのでマズい」 からなのではないかと(w >>556 >robots.txtを避ける理由ないと思うし。 robots.txtを見るのはクライアント側の任意(見ない場合もあるのでスクリプトには無意味) .htaccessは鯖側が強制的に弾く >560-561が正しい で、一応方向性としては ・ 今はApacheのその日の普通のaccess.logを全部読み込んで IPアドレス順に並べたり抜き出したりして数えてる (もっと早い軽いプログラムがあればそれを使ってもいい) ・ (昨日の)access.logを自動で解析して今日の悪い人一覧とか抜き出して その鯖の.htaccessに反映させたりしたい ・ 溜まった.htaccessの不要なdenyは定期的に掃除できると便利かも という感じでよろしいんでしょか。 まとめておくとだれかスーパーハクァーな人が名乗り出てくれるかもしれないし。 >>567 でもrobots.txtは一度設定しておけばどんな紳士的ロボットに対しても有効。 メンテナンス不要なんだし併用を検討してもいいんじゃないかなとゆー意見。 ただ、robots.txtは一応Webサーバ上のただのasciiファイルなんで、 アクセスする際の負荷がある以上無問題とまではいかないんだけど。まあ未来へのお守りというか。 >>561 せめてうんよー板では、★つけてくれー 結構漏れ鳥との噂だし >>568 昨日とかじゃなく たとえば 10 分毎にデータを取って 前の 10分に負荷を独り占めしたところは 以降 deny 毎朝リセットなんてのを考えていたり寝ていたり >>568 robots.txtを読むような紳士的なロボットであれば、 はじく必要ないと思うのですよ。 んで、robots.txtを読むのであれ、読まないのであれ、 紳士的でない負荷をかけるIPであれば遮断すると。 リクエストの元がどんな種類のものであれ、 現在の負荷のみで判断して、即座に止めるてことかー んで一定期間でリセットする(予定)と オフトピ臭いけど、紳士的かどうかに関係なくロボットは遮断してしまえば、 SEO目当ての業者を排除できるという副次的メリットが生まれるんじゃないかな。 むやみに2chからリンクされたページの順位は下げるロボットがいたらいいのに。 あー、なるほど。 過去に過剰負荷をかけたクローラーでも、別IPでまたーりクロールするならOKで、 そのまたーりクロールの妨げになるrobots.txtは置かないと。 ゆくゆくは解析するのはひとつの鯖でまとめて処理するようになるんでしょうかね。 でも、リアルタイムにガンガン増えるApacheのログから 分とか時間単位で頻繁に差分を抜き出すのって結構手法として厳しいような気も… せめて静的なファイル単位でどうにかできると気楽かもしんない…教えてエライ人 >>572 アクセス回数(=ログのファイルサイズ)で区切って抜き出すほうが誤爆減るかも。 >>571 >>562 な感じで、「問答無用でロボットを弾くことになるrobots.txtの機能は 管理サイドではとりあえず求めてないの」ということでいいですか? 現在 毎時別のファイルに吐き出しています つまり1ファイル最大一時間分のでーた .htaccessに自動に書き出しするところまではできてるの? >>573 そういうのはBBQとかRockでいけるんじゃないの >>576 簡単な解析以外はまだ全部手動。 方法論決まっていないのにプログラム書くのはちと遠慮したい。 完成は 来年の今頃ということで、 それまで手動でごりごりやるの大変だね まーがんがって さいわい、このへんのグラフを見ていると おっ ぶっこぬき キタ━━━━━(゚∀゚)━━━━━━!!!! って解るですよ。 http://server.maido3.com/pie/ >>570 >たとえば 10 分毎にデータを取って >前の 10分に負荷を独り占めしたところは 以降 deny どのぐらいの負荷なんだろう? 極端に書くと A.100,000個のIPから読み込みがある時間帯で1% B.まったくアクセスが無い時間帯で100% Aの時間帯は人多いからログ取らないで Bの時間帯で人が少ない(いない)時に過去ログ作るためにログ取っていったらアウトってことになる >>576 そういうのなら1時間ごとに判定して2日アウトとかどうでしょ。 というか、「以後ずっと出入り禁止」ではなく 「期間限定の細切れにアクセス禁止」にする理由って一体… それとも悪質な個人・団体さんはdeny固定にした後の「一般ユーザー」向けの話でしょか? >>577 「掲示板に目的のリンクを書けない」よりも 「そもそもGoogleが掲示板に来ないので2chに書く意味がない」ことになったほうが より根本的で効果大なのでは? >>582 plala, dion , ocn , mesh の場合 全部ひっくるめて /19 /18 なんかでやるとまずいような ・常時規制はeveryday.txt ・一時規制はtoday.txt ・一時規制の記録はold.txt ・一時規制は日付変更で消去 n分毎にファイルを出力 ↓ ソートしてA回以上でかつB%以上を抽出(%だけだと混雑時間帯にクロールかけたほうが特になるから、空いている時間に猶予を) ↓ today.txtとold.txtにピンポイントで出力 ↓ everyday.txtとtoday.txtを合わせて.htaccessに出力 ↓ .htaccessを配る みたいな感じ? そんなスクリプトが欲しいなぁ 負荷かけまくり→.htaccess弾きを出力 そういえば昔わしづかみくんとかあったような・・・ >>586 多分そんな感じかと、 あと考慮しなきゃならないのは2ちゃんねるは数十台のサーバでうごいているので それを共通化することかな 自動解除にするのは 解除すれーな方々を放置したいからです それでわかるくらスゴイ負荷なのね…… >>585 大手バイダ固定IPの悪い子とその他大勢のIPを自動で切り分けるのは難しそうだね >>582 うーんどうだろう、CEOの為だけじゃない人もいっぱいいそうだし (実際URL貼ればそれなりに人来るから)たいしてかわらなそう >>585 やったら? >>586 にも関係するけど 固定IPではなく 61.xxx.xxx.xxxと2xx.xxx.xxx.xxx等複数のブロックにまたがってIP配布してるISPは範囲規制しなくて 一定範囲内(/24等)だけ範囲で規制するのはどうかと・・・ >>590 「IPアドレスが固定でアクセス過多してる既知の人たち(何かの会社・団体?)」 も、今のところは区別せず一律アクセス解析の結果に委ねる予定だってことですか? >>593 いえそれは別にいいので(w ログが吐かれるとa.b.c.d.log.2ch.netを引く (こんな仕組みができるのかは不明) ↓ log.2ch.netはN分ごとにdenyリストを作ってばらまく ↓ 朝になったら空の.htaccessを配布 こんなのできたら(゚д゚)ウマーな気がするけどなー >>595 書き込みだけでもひーひー言っているのに、 1ヵ所で全管理は無謀だから、 問題のあるIPを抽出してその結果を中央サーバに送るまでが、各掲示板サーバの仕事。 送られてきた結果をまとめてhtaccessにして各掲示板サーバに配るだけが、中央サーバの仕事。 かな。 >>593 ? そんなことはどうでもいいや ログのかっさらいするには 1.大手のISPに入り繋ぎ変えしまくり 2.串を使いまわす が残る 書き込みで串規制できても読み込みまでは対応不可 まともにやってる人は損をして変な事やってる人は得をするか・・・ これが某ネットゲーなら運営側が叩かれるな .htaccessのファイルの頒布とか他鯖のaccess.logの取得とかって 基本的に何を使ってやってるんですか? scpか何か? >>600 将来的な話、速攻で自動規制できて毎日自動で解除するなら ピンポイント規制だけでも良い気がするけどどうなんだろ RSSとかで自動でとってる人は本人気付かない間にエラーで止まったままになりそうだし >>603 ピンポイントで最初からやることを考えています 思想的に弾くのは /28 とかで、 独り占めやさんはばとばとピンポイントで、 >>602 >.htaccessのファイルの頒布 bbs.cgi等を配布してるスクリプトがあります log回収はしらん >>605 >まともにやってる人って何ですか? 串等を知らない人 >>607 五年間で串つかってread.cgiを回す人を見たことがありません。 ねぐって良いかと そもそも、大量にログ取得する人で正当な目的のある人だったら、 おいらなり連絡くれればいいわけで、 それが出来ない人ってのは、正当な理由じゃない人だと思うのですね。 >607 かっさらってる時点で、“まとも”とはいえないと思う。 >>593 またなつかしい・・・。 わしづかみくんのAA探したけどみつからず・・・ ドロドロと登場。 tcpserver ではじいちゃうと、httpd の負荷も下がりそうな。 tcp.http に、弾きたい IP アドレス:deny を羅列、tcprules で .cdb に変換、rsync で各鯖に配布。 全鯖で、tcpserver -> httpd はなかなか難しいですよね(苦笑) ドロドロと退席。 >>609 > それが出来ない人ってのは、正当な理由じゃない人 インターネットは無料なんだから(自由だからとかでも可)断る必要ないでしょ。 >>614 「掲示板へアクセスする際に管理人の許可求めようと思う」ってのは どう贔屓目に見ても一般的な態度じゃないよね… >>614 インターネット網は無料かもしれないけど、 そこに立てる鯖とそれにかかる費用はタダじゃないづら。 自由に置き換えても同様。 >>614 と考える人たちを優先的に弾く作戦です。 >>610 上にあるけど live仕様に設定した2chブラウザ・・・ 訳ありで串使ってます 今度からバックボーンにocn使ってるISPは使わん >>616 >>609 は一般ピーポーとしての視点がごそっと抜けてると思う。 そんなこと考えつく奴いないって。 なにかしらのサービス(掲示板)を利用するなら、それに付随する 規約なり約款なりに同意しない限り利用はできないのは 一般的だと思いますが・・・。 それに同意できない方のご利用はご遠慮ください、と言おうと してるのがこの作戦なわけで。 ●餅だから底引きOKとは逝ってないからね。 俺はOCNですけど●買っといて良かった思っている 底引きの煽り食いたくないからね。 >>620 てか、一般ピーポーと企業は分けよう。 >>609 は企業や団体向けの言葉に見える。 普通の個人利用者に>>609 をはなから期待するのは酷だと思う。 >>621 大量アクセスする人は個人でも事前に連絡よこさないと酷いよ、とか >>609 を期待するならきちんと書かないと駄目だと思う。 個人とアクセス量の関係に言及した文なんて見たことない。 >>620 一般ピーポーはそもそも大量にかっさらったりはしないと思う……。 個人サイトで負荷かけてる原因わかったら普通に弾くし。 ほっといたら鯖屋さんに怒られちゃうか追い出されるかも。 みんながごそごそやって良かったら掲示板使えないね、悲しいね samba見たいに出来ないんですかね。 まだ○sec1 まだ○sec2 まだ○sec3 とか何カウントか警告メッセージ出して無視して続けたら一定時間規制。 >>623 約款でNYやMXの流量規制してるプロバイダありますよ。 形はアクセスとトラフィックの違いこそとあるけど、同じ理由 だと思う。 つーか常識的に当たり前のことだと思ったんですが。 >>626 sambaはbbs.cgiの話なのでこれ(read.cgi or dat直読み) とは違うかと。 何の事かわからない素人にとっては (; ・∀・)鯖マデオツカイの所でもいいから注意表示きぼん ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる