【.htaccess】読みこみできない【規制作戦】
■ このスレッドは過去ログ倉庫に格納されています
http://qb3.2ch.net/test/read.cgi/operate/1082125059/864-865n
864 :動け動けウゴウゴ2ちゃんねる :04/04/26 16:31 ID:XBHI6262
全datさらうのを勧めるのもどうかと
865 :留守番 ★ :04/04/26 16:42 ID:???
>>864
最近増えてきているんですよねぇ
.htaccess で deny の規制が復活の予感。
http://qb3.2ch.net/test/read.cgi/operate/1082125059/867-868n
867 :root ★ :04/04/26 16:47 ID:???
datかっさらいもさることながら、read.cgi経由も目につくような気が。
868 :留守番 ★ :04/04/26 16:49 ID:???
>>867
ですねぇ
思い立ったが吉日ってことで
スレ立ててやりましょ deny from 64.68.92.
deny from 64.68.81.
↑じゃなくてrobots.txt置いとけば、
クローラーそのものが来なくなるから
その方が処理軽いかと思ったんだけどね カスタマイズできるということもあると思うけど、
ロボットはじきに限定なら > robots.txt
システム共通化ができる. > .htaccess
という面もあるのではないかと思われ。 deny from 211.4.214.173 #(608) 4.3%
deny from 211.4.214.174 #(512) 3.62%
deny from 219.18.*.* #(137) 0.97%
deny from 61.115.*.* #(106) 0.75%
deny from 172.205.*.* #(76) 0.54% 悪意のある人をはじくのが目的だから、
robots.txtなんて読んでないと思われ。
>>545
next generation:
にはちょっと笑ってしまいましたよ・・・
>>543
ケイディディ株式会社 (KDD Corporation)
SUBA-035-153 [サブアロケーション] 211.4.214.0
株式会社イーツ (I2TS Inc.)
I2TS-NET2 [211.4.214.128 <-> 211.4.214.191] 211.4.214.128/26
なんだろこの会社
ひろゆき的に、ググルロボは悪意なの? >>541は一面的には正しい。
GoogleBotの類に対してはrobots.txtを自動で読ませて自力で帰ってもらうようにしたほうが
いちいちIPアドレスを調べてこちら側で範囲を推測して.htaccessを設定するよりもずっと手間は楽なはず。
大手検索エンジンのクローラ以外にもrobots.txtを読んでくれるやつがもしかしたらあるかもしれないし、
ファイル置くだけで勝手に帰ってくれるんだから置いておくことについてはいいことじゃん。と思う。 やっていることは・・・
google だから弾くじゃなくてさ
極端に資源を食っているアクセス元を弾くなんだな
それが たまたままたまたまたまた(ry
肩が痛い、30肩が悪化したようだ >>550
えぇっ〜〜〜
40肩だとおもっていたのに・・・ ただの更年期障害では…
なんか弾かなければならない、という強迫観念みたいなのが見て取れるかんじ。
帯域食ってるのはさくっと別扱いにしません? >>553
たとえば 全資源の 10% を使って read.cgi をぶん回しているとこが
5箇所あったらどーする?
半分はそこの為に全労力を2ちゃんねるが無料で提供しているわけだ
50% とかはまじな話しです
強迫観念どころか、全精力を傾けて排除中。。。 なんか>>553は自分でも変な書き方だなあ。
「.htaccessだけに固執しなくてもいいじゃん?」
…たぶんこれが近い。かも。robots.txtを避ける理由ないと思うし。
帯域食ってるのとアクセス回数多いのとは別に対処しようっての自体がなんか別の話だな。あれ?
ええと、それはサイトポリシーでもあると思うのでそれとしてひとつ質問。
最近弾いた効果って転送量とか鯖負荷とかで目に見えて出てます? 固定IPのケーブルでワイルドカード使ってるのも
そーゆーことなのかな >>556
ふむふむ
その場合は自動化するのはどうやってやれはせいいんですかねぇ?
IP -> robot.txt の自動生成は簡単なの? 今やっているような個人・団体のIPアドレス弾きにはrobots.txtは効果ないと思う。
あれはあくまで検索エンジンのロボットを弾くためのものだから。 >>561
つまり
検索エンジンは基本的にOK、だけど負荷かけたら弾くよ
って管理ポリシーって事ですな。
>>560
そね。期待を持たせる紛らわしい書き方だったかも。すみません。
抽出や自動化のどのへんがネックになってるのかがイマイチわかんないので、
外野から手助けやヒントをしてあげたくてもなかなか難しいのではないかと…
膨大なログから「何か」やって>>543を作ってる、というとこしかわからないわけですし。
手順やスクリプトは公開してもまずいことは無いんじゃないですかね。 robots.txtを置く
↓
ロボットさんのアクセスがなくなる
↓
他の人たちのパーセンテージが(ちょっと)上がる
↓
(゚д゚)ウマー >>562
というか、単にGoogleあたりを避けるつもりでrobots.txtを置いてしまうと
「robots.txtを素直に読んでしまって入ってこれなくなる機械の体の人がいるのでマズい」
からなのではないかと(w >>556
>robots.txtを避ける理由ないと思うし。
robots.txtを見るのはクライアント側の任意(見ない場合もあるのでスクリプトには無意味)
.htaccessは鯖側が強制的に弾く
>560-561が正しい で、一応方向性としては
・ 今はApacheのその日の普通のaccess.logを全部読み込んで
IPアドレス順に並べたり抜き出したりして数えてる
(もっと早い軽いプログラムがあればそれを使ってもいい)
・ (昨日の)access.logを自動で解析して今日の悪い人一覧とか抜き出して
その鯖の.htaccessに反映させたりしたい
・ 溜まった.htaccessの不要なdenyは定期的に掃除できると便利かも
という感じでよろしいんでしょか。
まとめておくとだれかスーパーハクァーな人が名乗り出てくれるかもしれないし。
>>567
でもrobots.txtは一度設定しておけばどんな紳士的ロボットに対しても有効。
メンテナンス不要なんだし併用を検討してもいいんじゃないかなとゆー意見。
ただ、robots.txtは一応Webサーバ上のただのasciiファイルなんで、
アクセスする際の負荷がある以上無問題とまではいかないんだけど。まあ未来へのお守りというか。 >>561
せめてうんよー板では、★つけてくれー
結構漏れ鳥との噂だし >>568
昨日とかじゃなく
たとえば 10 分毎にデータを取って
前の 10分に負荷を独り占めしたところは 以降 deny
毎朝リセットなんてのを考えていたり寝ていたり >>568
robots.txtを読むような紳士的なロボットであれば、
はじく必要ないと思うのですよ。
んで、robots.txtを読むのであれ、読まないのであれ、
紳士的でない負荷をかけるIPであれば遮断すると。
リクエストの元がどんな種類のものであれ、
現在の負荷のみで判断して、即座に止めるてことかー
んで一定期間でリセットする(予定)と オフトピ臭いけど、紳士的かどうかに関係なくロボットは遮断してしまえば、
SEO目当ての業者を排除できるという副次的メリットが生まれるんじゃないかな。
むやみに2chからリンクされたページの順位は下げるロボットがいたらいいのに。 あー、なるほど。
過去に過剰負荷をかけたクローラーでも、別IPでまたーりクロールするならOKで、
そのまたーりクロールの妨げになるrobots.txtは置かないと。 ゆくゆくは解析するのはひとつの鯖でまとめて処理するようになるんでしょうかね。
でも、リアルタイムにガンガン増えるApacheのログから
分とか時間単位で頻繁に差分を抜き出すのって結構手法として厳しいような気も…
せめて静的なファイル単位でどうにかできると気楽かもしんない…教えてエライ人
>>572
アクセス回数(=ログのファイルサイズ)で区切って抜き出すほうが誤爆減るかも。
>>571
>>562な感じで、「問答無用でロボットを弾くことになるrobots.txtの機能は
管理サイドではとりあえず求めてないの」ということでいいですか? 現在 毎時別のファイルに吐き出しています
つまり1ファイル最大一時間分のでーた .htaccessに自動に書き出しするところまではできてるの?
>>573
そういうのはBBQとかRockでいけるんじゃないの >>576
簡単な解析以外はまだ全部手動。
方法論決まっていないのにプログラム書くのはちと遠慮したい。
完成は 来年の今頃ということで、 それまで手動でごりごりやるの大変だね
まーがんがって さいわい、このへんのグラフを見ていると
おっ ぶっこぬき キタ━━━━━(゚∀゚)━━━━━━!!!!
って解るですよ。
http://server.maido3.com/pie/ >>570
>たとえば 10 分毎にデータを取って
>前の 10分に負荷を独り占めしたところは 以降 deny
どのぐらいの負荷なんだろう?
極端に書くと
A.100,000個のIPから読み込みがある時間帯で1%
B.まったくアクセスが無い時間帯で100%
Aの時間帯は人多いからログ取らないで
Bの時間帯で人が少ない(いない)時に過去ログ作るためにログ取っていったらアウトってことになる >>576
そういうのなら1時間ごとに判定して2日アウトとかどうでしょ。
というか、「以後ずっと出入り禁止」ではなく
「期間限定の細切れにアクセス禁止」にする理由って一体…
それとも悪質な個人・団体さんはdeny固定にした後の「一般ユーザー」向けの話でしょか?
>>577
「掲示板に目的のリンクを書けない」よりも
「そもそもGoogleが掲示板に来ないので2chに書く意味がない」ことになったほうが
より根本的で効果大なのでは? >>582
plala, dion , ocn , mesh の場合
全部ひっくるめて /19 /18 なんかでやるとまずいような ・常時規制はeveryday.txt
・一時規制はtoday.txt
・一時規制の記録はold.txt
・一時規制は日付変更で消去
n分毎にファイルを出力
↓
ソートしてA回以上でかつB%以上を抽出(%だけだと混雑時間帯にクロールかけたほうが特になるから、空いている時間に猶予を)
↓
today.txtとold.txtにピンポイントで出力
↓
everyday.txtとtoday.txtを合わせて.htaccessに出力
↓
.htaccessを配る
みたいな感じ? そんなスクリプトが欲しいなぁ
負荷かけまくり→.htaccess弾きを出力
そういえば昔わしづかみくんとかあったような・・・ >>586
多分そんな感じかと、
あと考慮しなきゃならないのは2ちゃんねるは数十台のサーバでうごいているので
それを共通化することかな 自動解除にするのは
解除すれーな方々を放置したいからです それでわかるくらスゴイ負荷なのね……
>>585
大手バイダ固定IPの悪い子とその他大勢のIPを自動で切り分けるのは難しそうだね
>>582
うーんどうだろう、CEOの為だけじゃない人もいっぱいいそうだし
(実際URL貼ればそれなりに人来るから)たいしてかわらなそう
>>585
やったら?
>>586 にも関係するけど
固定IPではなく
61.xxx.xxx.xxxと2xx.xxx.xxx.xxx等複数のブロックにまたがってIP配布してるISPは範囲規制しなくて
一定範囲内(/24等)だけ範囲で規制するのはどうかと・・・ >>590
「IPアドレスが固定でアクセス過多してる既知の人たち(何かの会社・団体?)」
も、今のところは区別せず一律アクセス解析の結果に委ねる予定だってことですか?
>>593
いえそれは別にいいので(w
ログが吐かれるとa.b.c.d.log.2ch.netを引く
(こんな仕組みができるのかは不明)
↓
log.2ch.netはN分ごとにdenyリストを作ってばらまく
↓
朝になったら空の.htaccessを配布
こんなのできたら(゚д゚)ウマーな気がするけどなー >>595
書き込みだけでもひーひー言っているのに、 1ヵ所で全管理は無謀だから、
問題のあるIPを抽出してその結果を中央サーバに送るまでが、各掲示板サーバの仕事。
送られてきた結果をまとめてhtaccessにして各掲示板サーバに配るだけが、中央サーバの仕事。
かな。 >>593
?
そんなことはどうでもいいや
ログのかっさらいするには
1.大手のISPに入り繋ぎ変えしまくり
2.串を使いまわす
が残る
書き込みで串規制できても読み込みまでは対応不可
まともにやってる人は損をして変な事やってる人は得をするか・・・
これが某ネットゲーなら運営側が叩かれるな .htaccessのファイルの頒布とか他鯖のaccess.logの取得とかって
基本的に何を使ってやってるんですか? scpか何か? >>600
将来的な話、速攻で自動規制できて毎日自動で解除するなら
ピンポイント規制だけでも良い気がするけどどうなんだろ
RSSとかで自動でとってる人は本人気付かない間にエラーで止まったままになりそうだし >>603
ピンポイントで最初からやることを考えています
思想的に弾くのは /28 とかで、
独り占めやさんはばとばとピンポイントで、 >>602
>.htaccessのファイルの頒布
bbs.cgi等を配布してるスクリプトがあります
log回収はしらん
>>605
>まともにやってる人って何ですか?
串等を知らない人 >>607
五年間で串つかってread.cgiを回す人を見たことがありません。
ねぐって良いかと そもそも、大量にログ取得する人で正当な目的のある人だったら、
おいらなり連絡くれればいいわけで、
それが出来ない人ってのは、正当な理由じゃない人だと思うのですね。
>607
かっさらってる時点で、“まとも”とはいえないと思う。 >>593
またなつかしい・・・。
わしづかみくんのAA探したけどみつからず・・・ ドロドロと登場。
tcpserver ではじいちゃうと、httpd の負荷も下がりそうな。
tcp.http に、弾きたい IP アドレス:deny を羅列、tcprules で .cdb に変換、rsync で各鯖に配布。
全鯖で、tcpserver -> httpd はなかなか難しいですよね(苦笑)
ドロドロと退席。 >>609
> それが出来ない人ってのは、正当な理由じゃない人
インターネットは無料なんだから(自由だからとかでも可)断る必要ないでしょ。 >>614
「掲示板へアクセスする際に管理人の許可求めようと思う」ってのは
どう贔屓目に見ても一般的な態度じゃないよね… >>614インターネット網は無料かもしれないけど、
そこに立てる鯖とそれにかかる費用はタダじゃないづら。
自由に置き換えても同様。 >>614
と考える人たちを優先的に弾く作戦です。 >>610
上にあるけど
live仕様に設定した2chブラウザ・・・
訳ありで串使ってます
今度からバックボーンにocn使ってるISPは使わん >>616
>>609は一般ピーポーとしての視点がごそっと抜けてると思う。
そんなこと考えつく奴いないって。 なにかしらのサービス(掲示板)を利用するなら、それに付随する
規約なり約款なりに同意しない限り利用はできないのは
一般的だと思いますが・・・。
それに同意できない方のご利用はご遠慮ください、と言おうと
してるのがこの作戦なわけで。 ●餅だから底引きOKとは逝ってないからね。
俺はOCNですけど●買っといて良かった思っている
底引きの煽り食いたくないからね。 >>620
てか、一般ピーポーと企業は分けよう。
>>609は企業や団体向けの言葉に見える。
普通の個人利用者に>>609をはなから期待するのは酷だと思う。
>>621
大量アクセスする人は個人でも事前に連絡よこさないと酷いよ、とか
>>609を期待するならきちんと書かないと駄目だと思う。
個人とアクセス量の関係に言及した文なんて見たことない。 >>620
一般ピーポーはそもそも大量にかっさらったりはしないと思う……。 個人サイトで負荷かけてる原因わかったら普通に弾くし。
ほっといたら鯖屋さんに怒られちゃうか追い出されるかも。
みんながごそごそやって良かったら掲示板使えないね、悲しいね samba見たいに出来ないんですかね。
まだ○sec1
まだ○sec2
まだ○sec3
とか何カウントか警告メッセージ出して無視して続けたら一定時間規制。 >>623
約款でNYやMXの流量規制してるプロバイダありますよ。
形はアクセスとトラフィックの違いこそとあるけど、同じ理由
だと思う。
つーか常識的に当たり前のことだと思ったんですが。
>>626
sambaはbbs.cgiの話なのでこれ(read.cgi or dat直読み)
とは違うかと。 何の事かわからない素人にとっては
(; ・∀・)鯖マデオツカイの所でもいいから注意表示きぼん >>627
あーごめん、
「>>615みたいなやつで個人とアクセス量の関係に言及した文なんて2chで見たことない」
だと思って。
この手のテキスト掲示板利用者にアクセス制限依頼する宣言文の存在って
あまり一般的じゃないはず。画像掲示板ならともかく。
鯖リソース感覚の共有が必ずしも常識的で当たり前だとは限らなかったってのは
このスレ見ればわかる気もしない? >>623
規制するのはIPです。
ってお兄ちゃんが言ってた。 >>423のeagle-netの件なんですが
プロバイダにメールで確認したところ固定IPでは無いとの返答が来ました
>>423で言われてるプロバイダに通報とは具体的に何をすればいいんでしょうか? 例えば、特定の板をどの位の間隔使って「全スレ取得」を試みた場合に
弾く対象にするのか?その辺りの識者の説明が欲しい・・・
う〜ん、書き込みだけじゃなくそろそろ読み込みに関してもsambaかける必要アリだな。 で・・・
>>604
eagle-netの件はどうなんだろ?
(ISPは)ピンポイントで規制するはずなのに範囲規制になってる
どうも
「気に食わないISP」とか「マイナーすぎるISP」は範囲規制
大手のISPはピンポイント規制
としてないか?(ISPと判明してない所は除く) >う〜ん、書き込みだけじゃなくそろそろ読み込みに関してもsambaかける必要アリだな。
あと同一IPの読み込み回数制限とか >>634
read.cgiだけなら可能
1.read.cgiでカウントし一定時間内に一定回数以上アクセスがあったら.htaccessに直接追加する
2.read.cgiでログを取って一定時間おきにスクリプト走らせて.htaccessに反映
.datに関しては今の所規制無し >>635
> .datに関しては今の所規制無し
.dat アクセスに関して別ログに収集(SetEnvIf Request_URI)→かおり(仮名)で解析→.htaccessを変更
という方法もありそうです。
でも根本的にはどうしても httpd が起動してしまうので、>>613 のような妄想を抱いてしまったわけですm(_ _)m 210.160.72.146もう巡回しないので規制解除してください ■ このスレッドは過去ログ倉庫に格納されています