【.htaccess】読みこみできない【規制作戦】
■ このスレッドは過去ログ倉庫に格納されています
http://qb3.2ch.net/test/read.cgi/operate/1082125059/864-865n 864 :動け動けウゴウゴ2ちゃんねる :04/04/26 16:31 ID:XBHI6262 全datさらうのを勧めるのもどうかと 865 :留守番 ★ :04/04/26 16:42 ID:??? >>864 最近増えてきているんですよねぇ .htaccess で deny の規制が復活の予感。 http://qb3.2ch.net/test/read.cgi/operate/1082125059/867-868n 867 :root ★ :04/04/26 16:47 ID:??? datかっさらいもさることながら、read.cgi経由も目につくような気が。 868 :留守番 ★ :04/04/26 16:49 ID:??? >>867 ですねぇ 思い立ったが吉日ってことで スレ立ててやりましょ >>496 各すれに入ると見えません。>IE トップは見れます。 >>500 ok ok どもでしたー 今度は引っかからないようにしてくださいー FOX ★ 様 ありがとうございました また、私の件での議論に加わってくださった方 ありがとうございました >>496 index.htmlは見えるけどcgiは使えない、蛇の生殺し状態(ひとり人大杉状態)にもできるんだぁ……。 怖っ! >503 解除おめでとー お兄さんおつかれさまでしたー >>506 あってます・・・てかオサーンに足入ってるかも >>477 いや〜ん_| ̄|○ 今回の件を見てるとまだ手探り状態みたいね >>503 おめでd んーんよかったなー。 なんか色々誤解されて大変だったけど解除されたなら本望ですよ。 >>509 今度はどんなたくらみですか? わくわく >>510 自分の理解できない部分(Live2chの仕様とか)を説明していただいたり 状況を分析していただいたり大変ありがとうございました。 >>494 基準がやたら相対的なくせに結果がアク禁、という なかなかアバンギャルドな作戦なんで 明日はちょっと頑張ってしまったわが身かもしれないということで いちいち騒いだり突っ込んだりして地固めした気になって満足して 今夜はもう帰って火の鳥で狼マリモ観ようかなとか思ってる次第 最終的には deny は完全自動登録/解除かな、 現在の開発ペースだと、たぶん一年くらいかかるだろうけど >>514 なるほど。自動化っすか。 でも1年かかるとなると隠居できないっすねー 求む!有望な人材! かな? もしや、サザ(ry作戦の成果によって、 お兄さんはこれらに集中できるようになるのかな。 じつはこれも次世代に…とか? 一番 手間隙かかってめんどくさいのは・・・ あれがなんとかなればなぁ 高負荷サーバからの板の自動移転システムだな(^_^;)きっと トラフィック側じゃなくてコンテンツ側でロードバランスを取るという画期(ry 板が自分で考えて居心地が悪くなったら自分でお引越しっ! あんま基準厳しくすると>>350 だと思うので適度に 質問・雑談スレでもかきましたが、 FLA板に入ろうとするとサーバーの宣伝が出るわけだが・・・・・ スレッドはみれる。スレ一覧がみれず書き込めない。 >>522 まずはIPを晒さないと話が進まないわけですが・・・。 あと専用ブラウザ使ってるのなら、そのブラウザの名前も どうぞです。 専用ブラウザは禁断の壷です。 いろいろとすいません。 >>309-315 >>363- あたりを参照してみて下さい…… でもFLA板ってpc5じゃなかったっけ? 522です 同じプロパの人がカキコしてたのか…… 少し前のレスぐらいみるのは基本ですね。またまたすいません。 FLA板は>>527 の通りpc5です とりあえず意味わからんのですが プライベートアドレスで IP210.230.239.78(固定)です。 気長にまちます。 現在 全サーバに設定 (qb5.6 を除く) deny from 203.192.158.0/23 deny from 210.160.72.144/29 deny from 210.230.239.64/26 deny from 61.115.195.128/26 deny from 211.4.214.128/26 deny from 202.224.239.248/29 deny from 64.68.92. deny from 64.68.81. deny from 220.5.107.128 deny from 211.133.152.175 deny from 61.198.96.151 deny from 219.106.23.235 deny from 219.167.59.210 deny from 210.138.60.135 deny from 218.223.194.216 deny from 202.226.244.32 ex6.2ch.net サーバ 呼び出し回数 = 35750 deny from 219.38.250.12 #(2511) 7.02% deny from 218.221.83.192 #(2228) 6.23% deny from 61.214.24.75 #(1243) 3.48% deny from 210.230.*.* #(715) 2% deny from 218.225.*.* #(572) 1.6% deny from 220.105.*.* #(570) 1.59% deny from 210.146.*.* #(554) 1.55% deny from 222.144.*.* #(425) 1.19% sports8.2ch.net サーバ GET /test/read.cgi 呼び出し回数 = 4509 deny from 202.225.151.123 #(324) 7.19% deny from 202.224.*.* #(79) 1.75% deny from 222.5.*.* #(70) 1.55% deny from 202.247.*.* #(51) 1.13% IPアドレス:219.38.250.12 ホスト名:YahooBB219038250012.bbtec.net IPアドレス:218.221.83.192 ホスト名:pdd53c0.ykhmac00.ap.so-net.ne.jp IPアドレス:61.214.24.75 ホスト名:p6075-ipad02funabasi.chiba.ocn.ne.jp IPアドレス:202.225.151.123 ホスト名:ktc151123.tmtv.ne.jp ネットワークサービス名:つづきの森 ケーブルネット ぐぐる弾きにrobots.txt使わないのはどうして? >>56 の内容のテキストファイルをrobots.txtという名前で 各サーバのルートに置くだけですが ワラタ googleだけなら User-agent: Googlebot Disallow: /* これでおk。 >>478-503 を見るに板のトップは見せるらしいから Disallow: /test のほうがいいのではないかと 暑いと思ったらもう夏休みか>ID:3eP4QhhI ID:YXEx8nGB deny from 64.68.92. deny from 64.68.81. ↑じゃなくてrobots.txt置いとけば、 クローラーそのものが来なくなるから その方が処理軽いかと思ったんだけどね カスタマイズできるということもあると思うけど、 ロボットはじきに限定なら > robots.txt システム共通化ができる. > .htaccess という面もあるのではないかと思われ。 deny from 211.4.214.173 #(608) 4.3% deny from 211.4.214.174 #(512) 3.62% deny from 219.18.*.* #(137) 0.97% deny from 61.115.*.* #(106) 0.75% deny from 172.205.*.* #(76) 0.54% 悪意のある人をはじくのが目的だから、 robots.txtなんて読んでないと思われ。 >>545 next generation: にはちょっと笑ってしまいましたよ・・・ >>543 ケイディディ株式会社 (KDD Corporation) SUBA-035-153 [サブアロケーション] 211.4.214.0 株式会社イーツ (I2TS Inc.) I2TS-NET2 [211.4.214.128 <-> 211.4.214.191] 211.4.214.128/26 なんだろこの会社 ひろゆき的に、ググルロボは悪意なの? >>541 は一面的には正しい。 GoogleBotの類に対してはrobots.txtを自動で読ませて自力で帰ってもらうようにしたほうが いちいちIPアドレスを調べてこちら側で範囲を推測して.htaccessを設定するよりもずっと手間は楽なはず。 大手検索エンジンのクローラ以外にもrobots.txtを読んでくれるやつがもしかしたらあるかもしれないし、 ファイル置くだけで勝手に帰ってくれるんだから置いておくことについてはいいことじゃん。と思う。 やっていることは・・・ google だから弾くじゃなくてさ 極端に資源を食っているアクセス元を弾くなんだな それが たまたままたまたまたまた(ry 肩が痛い、30肩が悪化したようだ >>550 えぇっ〜〜〜 40肩だとおもっていたのに・・・ ただの更年期障害では… なんか弾かなければならない、という強迫観念みたいなのが見て取れるかんじ。 帯域食ってるのはさくっと別扱いにしません? >>553 たとえば 全資源の 10% を使って read.cgi をぶん回しているとこが 5箇所あったらどーする? 半分はそこの為に全労力を2ちゃんねるが無料で提供しているわけだ 50% とかはまじな話しです 強迫観念どころか、全精力を傾けて排除中。。。 なんか>>553 は自分でも変な書き方だなあ。 「.htaccessだけに固執しなくてもいいじゃん?」 …たぶんこれが近い。かも。robots.txtを避ける理由ないと思うし。 帯域食ってるのとアクセス回数多いのとは別に対処しようっての自体がなんか別の話だな。あれ? ええと、それはサイトポリシーでもあると思うのでそれとしてひとつ質問。 最近弾いた効果って転送量とか鯖負荷とかで目に見えて出てます? 固定IPのケーブルでワイルドカード使ってるのも そーゆーことなのかな >>556 ふむふむ その場合は自動化するのはどうやってやれはせいいんですかねぇ? IP -> robot.txt の自動生成は簡単なの? 今やっているような個人・団体のIPアドレス弾きにはrobots.txtは効果ないと思う。 あれはあくまで検索エンジンのロボットを弾くためのものだから。 >>561 つまり 検索エンジンは基本的にOK、だけど負荷かけたら弾くよ って管理ポリシーって事ですな。 >>560 そね。期待を持たせる紛らわしい書き方だったかも。すみません。 抽出や自動化のどのへんがネックになってるのかがイマイチわかんないので、 外野から手助けやヒントをしてあげたくてもなかなか難しいのではないかと… 膨大なログから「何か」やって>>543 を作ってる、というとこしかわからないわけですし。 手順やスクリプトは公開してもまずいことは無いんじゃないですかね。 robots.txtを置く ↓ ロボットさんのアクセスがなくなる ↓ 他の人たちのパーセンテージが(ちょっと)上がる ↓ (゚д゚)ウマー >>562 というか、単にGoogleあたりを避けるつもりでrobots.txtを置いてしまうと 「robots.txtを素直に読んでしまって入ってこれなくなる機械の体の人がいるのでマズい」 からなのではないかと(w >>556 >robots.txtを避ける理由ないと思うし。 robots.txtを見るのはクライアント側の任意(見ない場合もあるのでスクリプトには無意味) .htaccessは鯖側が強制的に弾く >560-561が正しい で、一応方向性としては ・ 今はApacheのその日の普通のaccess.logを全部読み込んで IPアドレス順に並べたり抜き出したりして数えてる (もっと早い軽いプログラムがあればそれを使ってもいい) ・ (昨日の)access.logを自動で解析して今日の悪い人一覧とか抜き出して その鯖の.htaccessに反映させたりしたい ・ 溜まった.htaccessの不要なdenyは定期的に掃除できると便利かも という感じでよろしいんでしょか。 まとめておくとだれかスーパーハクァーな人が名乗り出てくれるかもしれないし。 >>567 でもrobots.txtは一度設定しておけばどんな紳士的ロボットに対しても有効。 メンテナンス不要なんだし併用を検討してもいいんじゃないかなとゆー意見。 ただ、robots.txtは一応Webサーバ上のただのasciiファイルなんで、 アクセスする際の負荷がある以上無問題とまではいかないんだけど。まあ未来へのお守りというか。 >>561 せめてうんよー板では、★つけてくれー 結構漏れ鳥との噂だし >>568 昨日とかじゃなく たとえば 10 分毎にデータを取って 前の 10分に負荷を独り占めしたところは 以降 deny 毎朝リセットなんてのを考えていたり寝ていたり >>568 robots.txtを読むような紳士的なロボットであれば、 はじく必要ないと思うのですよ。 んで、robots.txtを読むのであれ、読まないのであれ、 紳士的でない負荷をかけるIPであれば遮断すると。 リクエストの元がどんな種類のものであれ、 現在の負荷のみで判断して、即座に止めるてことかー んで一定期間でリセットする(予定)と オフトピ臭いけど、紳士的かどうかに関係なくロボットは遮断してしまえば、 SEO目当ての業者を排除できるという副次的メリットが生まれるんじゃないかな。 むやみに2chからリンクされたページの順位は下げるロボットがいたらいいのに。 あー、なるほど。 過去に過剰負荷をかけたクローラーでも、別IPでまたーりクロールするならOKで、 そのまたーりクロールの妨げになるrobots.txtは置かないと。 ゆくゆくは解析するのはひとつの鯖でまとめて処理するようになるんでしょうかね。 でも、リアルタイムにガンガン増えるApacheのログから 分とか時間単位で頻繁に差分を抜き出すのって結構手法として厳しいような気も… せめて静的なファイル単位でどうにかできると気楽かもしんない…教えてエライ人 >>572 アクセス回数(=ログのファイルサイズ)で区切って抜き出すほうが誤爆減るかも。 >>571 >>562 な感じで、「問答無用でロボットを弾くことになるrobots.txtの機能は 管理サイドではとりあえず求めてないの」ということでいいですか? 現在 毎時別のファイルに吐き出しています つまり1ファイル最大一時間分のでーた .htaccessに自動に書き出しするところまではできてるの? >>573 そういうのはBBQとかRockでいけるんじゃないの >>576 簡単な解析以外はまだ全部手動。 方法論決まっていないのにプログラム書くのはちと遠慮したい。 完成は 来年の今頃ということで、 それまで手動でごりごりやるの大変だね まーがんがって さいわい、このへんのグラフを見ていると おっ ぶっこぬき キタ━━━━━(゚∀゚)━━━━━━!!!! って解るですよ。 http://server.maido3.com/pie/ >>570 >たとえば 10 分毎にデータを取って >前の 10分に負荷を独り占めしたところは 以降 deny どのぐらいの負荷なんだろう? 極端に書くと A.100,000個のIPから読み込みがある時間帯で1% B.まったくアクセスが無い時間帯で100% Aの時間帯は人多いからログ取らないで Bの時間帯で人が少ない(いない)時に過去ログ作るためにログ取っていったらアウトってことになる >>576 そういうのなら1時間ごとに判定して2日アウトとかどうでしょ。 というか、「以後ずっと出入り禁止」ではなく 「期間限定の細切れにアクセス禁止」にする理由って一体… それとも悪質な個人・団体さんはdeny固定にした後の「一般ユーザー」向けの話でしょか? >>577 「掲示板に目的のリンクを書けない」よりも 「そもそもGoogleが掲示板に来ないので2chに書く意味がない」ことになったほうが より根本的で効果大なのでは? >>582 plala, dion , ocn , mesh の場合 全部ひっくるめて /19 /18 なんかでやるとまずいような ・常時規制はeveryday.txt ・一時規制はtoday.txt ・一時規制の記録はold.txt ・一時規制は日付変更で消去 n分毎にファイルを出力 ↓ ソートしてA回以上でかつB%以上を抽出(%だけだと混雑時間帯にクロールかけたほうが特になるから、空いている時間に猶予を) ↓ today.txtとold.txtにピンポイントで出力 ↓ everyday.txtとtoday.txtを合わせて.htaccessに出力 ↓ .htaccessを配る みたいな感じ? そんなスクリプトが欲しいなぁ 負荷かけまくり→.htaccess弾きを出力 そういえば昔わしづかみくんとかあったような・・・ >>586 多分そんな感じかと、 あと考慮しなきゃならないのは2ちゃんねるは数十台のサーバでうごいているので それを共通化することかな 自動解除にするのは 解除すれーな方々を放置したいからです それでわかるくらスゴイ負荷なのね…… >>585 大手バイダ固定IPの悪い子とその他大勢のIPを自動で切り分けるのは難しそうだね >>582 うーんどうだろう、CEOの為だけじゃない人もいっぱいいそうだし (実際URL貼ればそれなりに人来るから)たいしてかわらなそう >>585 やったら? >>586 にも関係するけど 固定IPではなく 61.xxx.xxx.xxxと2xx.xxx.xxx.xxx等複数のブロックにまたがってIP配布してるISPは範囲規制しなくて 一定範囲内(/24等)だけ範囲で規制するのはどうかと・・・ >>590 「IPアドレスが固定でアクセス過多してる既知の人たち(何かの会社・団体?)」 も、今のところは区別せず一律アクセス解析の結果に委ねる予定だってことですか? >>593 いえそれは別にいいので(w ログが吐かれるとa.b.c.d.log.2ch.netを引く (こんな仕組みができるのかは不明) ↓ log.2ch.netはN分ごとにdenyリストを作ってばらまく ↓ 朝になったら空の.htaccessを配布 こんなのできたら(゚д゚)ウマーな気がするけどなー >>595 書き込みだけでもひーひー言っているのに、 ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる