X



トップページ運用情報
518コメント226KB
関連キーワードをなんとかしようスレ
■ このスレッドは過去ログ倉庫に格納されています
0001ひろゆき@どうやら管理人 ★
垢版 |
2006/12/17(日) 13:08:47ID:???0?S★(101667)
read.cgiの片隅に表示されている関連キーワードを
きちんとメンテナンスしてみようなスレッド。
0380動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/15(木) 23:44:29ID:VTJ0C/uE0
>>377-379
どうもです。

できれば2chの側で対応していただけるとありがたいのですが。
Operaで2chを利用する人の全てがcssを設定するわけではないでしょうし。
0382動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/15(木) 23:47:01ID:OKbEZRpT0
わけわからn会話してるな
0384動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/15(木) 23:55:37ID:/FGSj+5x0
漢字のキーワードの挙動がおかしい
0387ノtasukeruyo
垢版 |
2007/02/16(金) 00:03:52ID:XnaxH7Tl0
>>385
重なることなくクリックできています。
Opera/9.10 (Windows NT 5.1; U; ja)
0389動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/16(金) 01:12:07ID:aJ0E/d2N0
ひろゆき!応援しているから
山本一郎が訴えた民事訴訟には絶対に勝ってくれ!

夜勤や井上もひろゆきに協力よろしく


まとめサイト「キャッチミーイフユーキャン」 切込隊長@山本一郎は嘘つきなのか?
http://blog.goo.ne.jp/catchme_2005/

私家版:切込隊長を客観的に検証するスレッド まとめサイト
http://g0aw66ngc6.seesaa.net

キーワード - 切込隊長経歴疑惑?(ソーシャルブックマークフロッグ!)
http://www.flog.jp/labelinfo.php/%90%D8%8D%9E%91%E0%92%B7%8Co%97%F0%8B%5E%98f%81H

デル株は1株2ドル40セントでは買えなかった。
http://www.geocities.jp/kirikomi1973/Dell/index.html

切込隊長@山本一郎と扶桑社
http://fusoshatokiri.seesaa.net/

切込隊長@山本一郎辞典
http://blog.livedoor.jp/kirik_0104/

切込隊長/山本一郎語録別館
http://k569.hp.infoseek.co.jp/

扶桑社が紹介している切込隊長の経歴
http://www.fusosha.co.jp/senden/2004/048188.html

切込隊長@Wikipedia
http://ja.wikipedia.org/wiki/%E5%88%87%E8%BE%BC%E9%9A%8A%E9%95%B7
0390動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/16(金) 02:31:48ID:5TtZfvjp0
1億以上収入有るんだから50年分ぐらい振り込めよ
0394 株価【1200】◆cZfSunOs.U
垢版 |
2007/02/16(金) 11:25:00ID:cIKZ8NCe0
データのパースをするなら,個人的には JavaScript 版の方がおすすめです.
http://p2.2ch.io/getf.cgi?qb5.2ch.net+operate+1166328527

var keywords = { "keyword1":"encodedKeyword1", "keyword2":"encodedKeyword2", ... };

の行だけ抜き出して,他の行は捨てる.で,キーワードの中には記号が
入ることはないので,単純に , や : でちょん切って前後の " を消せばおk.
0396 株価【1200】◆cZfSunOs.U
垢版 |
2007/02/16(金) 11:58:54ID:cIKZ8NCe0
Perl ならこんな感じじゃ?

sub extract_keywords {
    my @kw;
    $_[0] =~ /^var keywords = { ((?:"[^"]+":"[^"]+"(?:, )?)+) };$/m
        or return;
    foreach (split(/, /, $1)) {
        /^"([^"]+)":/ or next;
        push(@kw, $1);
    }
    @kw;
}
0400動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/17(土) 12:51:34ID:rbTTlVzI0
まろゆき、振り込んでこいさっさと。鯖は俺の鯖を貸してやる
0404 株価【1290】◆cZfSunOs.U
垢版 |
2007/02/17(土) 22:16:36ID:tFdnFmdq0
>>403 そうですか...... MySQL は cp932 で動いてるし,ヘンなバイトシーケンスが
そのまますり抜けるってことはないとは思いますが,またあったら知らせて下さい.
0405 株価【1290】◆cZfSunOs.U
垢版 |
2007/02/17(土) 22:53:35ID:tFdnFmdq0
あ......ひょっとして↓を入れないとデータ化けが起こる可能性もなきにしもあらず?
静かな時間帯にでも入れ替えておこう<DBD::mysql

--- DBD-mysql-4.001/dbdimp.c
+++ DBD-mysql-4.001/dbdimp.c
@@ -3750,19 +3773,11 @@
                  "Error happened while tried to clean up stmt",NULL);
         return 0;
       }
+      /* to avoid SIGSEGV when reusing this statement handle */
+      imp_sth->stmt->bind_result_done= 0;
     }
(ry


# これも含めパッチ投げて反応待ちだったり.
# http://bugs.mysql.com/bug.php?id=26388
0407stream ◆PNstream2s
垢版 |
2007/02/18(日) 22:09:21ID:XzsEMgbQ0
>>406
2ch検索側がおかしいと思う
0408stream ◆PNstream2s
垢版 |
2007/02/18(日) 22:13:20ID:XzsEMgbQ0
%83%7D マ
%83%89 ラ
%83%5C ソ
%83%93 ン

%5C \

%83%83 ャ
0411stream ◆PNstream2s
垢版 |
2007/02/18(日) 22:51:03ID:XzsEMgbQ0
%5Cを重ねればいいんだろうけど、そもそも find.2ch.net の中を直さなきゃ。
0412動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/18(日) 22:59:08ID:ZJ8NfgfI0
>>411
find.2ch.net の方は EUC で処理してるっぽいのに、getf.cgi の出力が SHIFT_JIS で
発行されてる部分が多分食い違いの原因。
気を使うべき正規表現を扱ってる find.2ch.net の中を修正するのが筋なのは確かかも
0413動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/19(月) 00:38:36ID:Qm35+Bmi0
>>290に回す
0414なぽ
垢版 |
2007/02/19(月) 02:07:40ID:KxOYQz7X0?2BP(2)
>>412
修正しますた。
エンコーディング変換前になぜかstripslashes()が。なんでだろ。
0415動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/19(月) 08:46:54ID:kfF0dg9s0
>>412
もう解決してるっぽいけど、Shift_JISの2バイト目のバックスラッシュの取り扱いの問題だね。
データのエンコーディングの扱いが曖昧だとハマる。
0416動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/19(月) 08:57:09ID:dFaVY2iE0
stripslashes ってことはPHPなのかな?
PerlでShift_JISの2バイト文字を含む文字から安全に \ を取り除きたい場合は
$strings =~ s/([\x81-\x9f\xe0-\xfc][\x40-\xfc])|\x5c(\x5c)?/$1$2/g;
\\ と二つ並んだものは \ ひとつに。それ以外の単独の \ は全部除去されます。
どのように \ でエスケープされてるかを正しく把握しないと余分な処理しそうなのでご注意
0417動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/19(月) 11:12:32ID:CkwXuHW70
read.cgiの関連キーワード、MacのSafariでみるとiframeがスクロールバーで埋まって
なんにも見えないんですがどうにかなりませんかね^^;。。
ttp://up.spawn.jp/file/up3382.gif
0419 株価【1200】◆cZfSunOs.U
垢版 |
2007/02/19(月) 16:59:40ID:Pug69+aE0
>>417 read.js なら iframe 使わないからそういう問題は起きないです
......と言おうと思ったら,そもそも Safari だと read.js 自体ちゃんと動かないんですね.
う〜む......
0420おふぃす
垢版 |
2007/02/20(火) 01:03:00ID:EBLhrkLWP
スレ読まずに
誰かの案は採用されたのかい?まだアイディア出しの段階?
0422ひろゆき@どうやら管理人 ★
垢版 |
2007/02/21(水) 23:37:01ID:???0?DIA(103130)
誰かの案?
0425ひろゆき@どうやら管理人 ★
垢版 |
2007/02/22(木) 00:37:16ID:???0?DIA(103130)
あいあい。>>420です。
0426動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/22(木) 01:30:14ID:CIG1Pa+z0
このスレの

キーワード【 rw InnoDB urls id words cgi ch 】
0427動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/25(日) 01:39:09ID:ha5BeV2q0
スレ内もだけどスレタイから抽出したのがないと
次スレ追っかける時面倒な場合がある
(キーワードが本文であまり使われてない場合とか)
0428おふぃす
垢版 |
2007/02/25(日) 06:13:46ID:+aZFC3xFP
ごめんごめん。
雑談2007に書いたつもりが誤爆ったのさ♪
0429 株価【961】 △△ ◆cZfSunOs.U
垢版 |
2007/02/25(日) 13:06:47ID:7wLnfKZR0
スレタイもキーワード抽出対象にはなってますが,重要度計算で上位に来ないと
入らないこともありうる,と(スレタイは本文の2倍のウェイトで計算してはいますが).
0430動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/26(月) 00:33:04ID:cBYEeqLc0
>>388
tv11鯖ではまだ、ページヘッダのリンクに触れない気がします w/Opera9
快適になって安心していたのですが、まだ全鯖対応ではありませんでしたか?
0431 株価【1100】 △△ ◆cZfSunOs.U
垢版 |
2007/02/26(月) 06:31:21ID:BnRSSGp20
>>430 tv11 は banana3102 つまり T-bananaですね.
今は T-banana とそれ以外で read.cgi のソースが統一されておらず,
その作業と併せて行った方が効率的なので,それまでしばらくお待ち下さい.
0433動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/27(火) 01:20:23ID:GeMrAsRv0
>>429
別枠化するか
本文が400kbでスレタイが40bなら10000倍換算ぐらいがいいと思う
0434動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/27(火) 01:22:26ID:GeMrAsRv0
てかスレタイを単語ごとに区切って直接クリックで飛べるようにとかは?
0436動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/27(火) 14:17:31ID:hig0wXqC0
そもそも本質は「そのスレの内容から抽出したキーワード」であるので、
ずれた要望はあんまり気にしない方が良いかと。

第一、次スレ検索を主目的にしようとしてる時点で趣旨が違う。
同じ話題が話されているのが次スレだけとは限らないし、
雑談スレなんかスレ毎にキーワードが違うのが当たり前。

関連キーワード検索は「そのスレの内容と同じ話題のスレを検索」
するのであって、「次スレを検索」は用途としてはあっていない。
(結果的に代用出来る場合もあるだけ)
0437動け動けウゴウゴ2ちゃんねる
垢版 |
2007/02/28(水) 01:50:16ID:u1t4BgBC0
でも関連スレって別板に同じスレタイでたってることが多いし
0440 株価【1150】 △△ ◆cZfSunOs.U
垢版 |
2007/03/03(土) 12:52:59ID:m4T4tan/0
>>439 単語の抽出に利用している MeCab は,半角カナを記号として扱ってしまうようですね.
キーワードとして利用するのは名詞だけなので......


メールボックスパンクするまで爆撃合戦するスレ
メールボックスパンク    記号,一般,*,*,*,*,*
する    動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
まで    助詞,副助詞,*,*,*,*,まで,マデ,マデ
爆撃    名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ
合戦    名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン
する    動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
スレ    名詞,固有名詞,組織,*,*,*,*
EOS

メールボックスパンクするまで爆撃合戦するスレ
メールボックス  名詞,一般,*,*,*,*,メールボックス,メールボックス,メールボックス
パンク  名詞,サ変接続,*,*,*,*,パンク,パンク,パンク
する    動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
まで    助詞,副助詞,*,*,*,*,まで,マデ,マデ
爆撃    名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ
合戦    名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン
する    動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
スレ    名詞,固有名詞,組織,*,*,*,*
EOS
0444 株価【1050】 △△ ◆cZfSunOs.U
垢版 |
2007/03/03(土) 17:46:33ID:m4T4tan/0
>>442 いや,正規化しようと思えばできないことはないんですけど,
パーサは c2.2ch.io の処理で一番重い部分なんで(ほとんどは
MeCab によるものですが),さらに重くするのがいいのかどうか,ってとこで.

# 仮に正規化するなら,1-way の変換ではなく MeCab の処理結果を元に戻す,
# ってとこまでやらなきゃならないですし.
0446 株価【1050】 △△ ◆cZfSunOs.U
垢版 |
2007/03/04(日) 19:41:00ID:98jJiHZT0
>>445 それが正規化ってことですが......ただ,半角で書かれたものを
全角のキーワードとして表示してもいいのならそれだけでもいいんですが,
半角のは半角のまま表示ということになると,いったん全角に変換したのを
半角に戻す処理も必要になって,そうなると処理が複雑になってくると.
不可能ではないんですが,重くなりそうだなぁ,と......
0449 株価【1050】 △△ ◆cZfSunOs.U
垢版 |
2007/03/04(日) 22:23:49ID:98jJiHZT0
半角カナで独特のニュアンスを表現する 2ch の文化(?)を考えると
全角に変換したままってのもどうかなぁ......とも思ってたんですが,
とりあえず全角のままでやってみます.
再クロールは2日周期なんで徐々に反映されるかと.
0454 株価【1100】 △△ ◆cZfSunOs.U
垢版 |
2007/03/06(火) 12:54:47ID:Nvn/63930
キーワード収集対象は本文とスレタイだけで,それ以外は対象外ですが......
と思ったら,>>449 の時にミスったようですね,すみません.
これから(再)クロールされる分は正常になるかと.
0455動け動けウゴウゴ2ちゃんねる
垢版 |
2007/03/06(火) 18:25:54ID:RZaN2IVv0
あれ落ちたスレの奴って吹っ飛ぶんだっけ?
前は生きてたと思ったけど
0456 株価【1100】 △△ ◆cZfSunOs.U
垢版 |
2007/03/06(火) 21:33:48ID:Nvn/63930
>>455 データが無限に膨張し続けないように,dat 落ちしたのは消すようになってます.
ただ,再クロールは2日周期なので,落ちてからデータが消えるまでのタイムラグはあると思いますが.
0457動け動けウゴウゴ2ちゃんねる
垢版 |
2007/03/08(木) 18:59:20ID:cMnMtVSa0
それだと次スレ追跡には使いづらいわねえ
0458トラックバック ★
垢版 |
2007/03/08(木) 21:08:02ID:cMnMtVSa0
【トラックバック来たよ】 (ver. 0.11)
[タイトル] スレタイ検索 スレッドタイトル検索サービス♪2find
[発ブログ] ネットサービス@2ch掲示板
http://pc11.2ch.net/test/read.cgi/esite/1173355555/l50
[=要約=]

主要なもの
http://ttsearch.net/ http://www2.ttsearch.net/
http://page2.xrea.jp/tgrep/tgrep2-test.cgi
http://www6.big.or.jp/%7Ebeyond/bbsnews/

公式のサービス
http://find.2ch.net/ http://test.razil.jp/(苦情は向こうで)
http://h.u.la/dance/
http://is.2ch.net/

その他の検索
http://www.google.co.jp/search?&q=site%3A2ch.net
http://www.2chs.net/
http://www.mimizun.com/
http://makimo.to/

こんな風に使ったり http://find.2ch.net/?STR=find

<a href="../test/read.cgi/esite/1173355555/2-30" target="_blank">>>2-30</a>

0459動け動けウゴウゴ2ちゃんねる
垢版 |
2007/03/11(日) 20:51:40ID:L60sUdWe0
>>456
スレ落ち後は次スレ追跡モードに差し替えるとかは?
0460 株価【1000】 △△ ◆cZfSunOs.U
垢版 |
2007/03/11(日) 21:52:08ID:DiueM2R90
>>459 そのためのデータを保持することになれば,結局データが膨張し続けることになるし,
またデータを保持せず on the fly に生成させるとなると,忙しくなりすぎて破綻しそうだし......
いずれにせよ,過去ログ用に別途専用鯖等のリソースを投入するとかでもない限り困難ではないかと......
0461ひろゆき@どうやら管理人 ★
垢版 |
2007/03/12(月) 12:41:31ID:???0?DIA(103258)
過去ログ用に固定テキストをひたすら保存するサーバがあっても
いいような気がしてきました。
つか、memoriesに同居とか。
0462動け動けウゴウゴ2ちゃんねる
垢版 |
2007/03/12(月) 12:49:49ID:Mzo4MlK10
>>461
memoriesそろそろ容量が少なくなってきてるらしいですよ・・・。
まあ、増設できるらしいですが・・・。
前にもらったtigerあまってないんですか?

それとbeのメール機能が時々おかしいので見てもらえるとうれしいです・・・。

0464動け動けウゴウゴ2ちゃんねる
垢版 |
2007/03/12(月) 20:38:10ID:rmdcm8FM0
>>460
「次スレ追跡する」ボタンみたいにワンクッションおくとかは?
見たい人だけ使う
0465 株価【960】 △△ ◆cZfSunOs.U
垢版 |
2007/03/12(月) 20:51:43ID:8usXw0FZ0
>>461 なるほど......ただ,memories だと HDD 容量もさることながら
httpd + offlaw.cgi なんかと競合しないかなぁ,とか(MySQL を
ストレスなく動かすには,メモリとかリソース結構食いますし).

>>462 残ってる stiger を専用で使うならリソースの競合とかは心配ないですね.
ただ,そんなに HDD 容量がデカいわけでもないんで...... とはいえ,
単にライブな dat のキーワードをコピーして保存するだけなら,
重要度計算用のデカいテーブル (regwords) は過去ログデータの方では
不要なんで,当面は心配ないかも.中長期的には問題ですが......
もっとも,問題が起きたらその時改めて考えよう,ということにしておけば
2ch らしいかも?w

>>463 dat にそういうデータを付けていいのかどうか,っていう
ポリシーの問題もあるかもですね.あと,dat 落ちを制御してる
F22 はいろいろ亜種ができてるらしいとかで,それぞれの鯖で
個別に F22 を改造しなきゃならないかも,っていうのも......
0466 株価【960】 △△ ◆cZfSunOs.U
垢版 |
2007/03/12(月) 20:56:16ID:8usXw0FZ0
>>464 ワンクッション置いても,データ保存するとすれば
結局データ量が増大することに変わりないですし,
on the fly に生成するにしても,今の p2.2ch.io / c2.2ch.io は
リアルタイムにキーワード抽出する前提で作ってないので
苦しいことには変わりないです.
0467動け動けウゴウゴ2ちゃんねる
垢版 |
2007/03/12(月) 21:03:17ID:AIFnMu+70
難しいかなって思うのもいいけど、がんがん試しちゃうのも吉。
もちろん試すのにいろいろ準備とかあって大変だとは思うけど。
0468 株価【960】 △△ ◆cZfSunOs.U
垢版 |
2007/03/12(月) 21:33:42ID:8usXw0FZ0
試すにしても,ライブ dat のキーワード表示に悪影響を与えると元も子もないんで......
なので,過去ログに対処するなら専用鯖等のリソース投入が前提じゃないかなぁと.
0469 株価【960】 △△ ◆cZfSunOs.U
垢版 |
2007/03/12(月) 21:37:20ID:8usXw0FZ0
まぁ,専用「鯖」でなくとも,今の c2 に過去ログ用にストレージ追加とかでもいいかもですけど.
0470動け動けウゴウゴ2ちゃんねる
垢版 |
2007/03/13(火) 20:31:36ID:rUlVQy5G0
スタートレックをスタートとレックで区切るのやめて欲しい
0472ひろゆき@どうやら管理人 ★
垢版 |
2007/03/14(水) 19:54:38ID:???0?DIA(103258)
過去ログに関しては、関連キーワードが変更されることがないので、
スレッドkeyのテキストファイルを作って置いておくだけでいいと思うのです。
ってことで、mysqlはいらないかと。
0474 株価【1095】 △△ ◆cZfSunOs.U
垢版 |
2007/03/14(水) 20:48:05ID:e0bdMMl00
>>472 なるほど......となると,あとは memories 等に
どういう形で入れればいいか,またそれをどうやって read.cgi で
表示させるか,ってあたりですか.ぼちぼち考えてみます.
0475ひろゆき@どうやら管理人 ★
垢版 |
2007/03/14(水) 21:55:27ID:???0?DIA(103258)
XMLにしてjavascriptでincludeみたいなのって出来ないんでしたっけ?
0476 株価【1000】 △△ ◆cZfSunOs.U
垢版 |
2007/03/15(木) 05:01:15ID:VWGYvz9I0
>>475 XMLHttpRequest だと同一ドメイン(というか実質同一鯖)の制限がありますが,
JSON ならその制限なしで可能です.というか,read.html 用 I/F では今も JSON 的な
やり方でやってます.ただ,read.cgi だとブラウザ側の JavaScript の処理能力の不安があって......
0477root▲▲ ★
垢版 |
2007/03/15(木) 13:05:40ID:???0?PLT(23632)
1台、それ用のサーバを用意するかんじですかね。

memoriesのHDDに常時書き込み負荷をかけるのは、
できれば避けたいかも。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況