関連キーワードをなんとかしようスレ
■ このスレッドは過去ログ倉庫に格納されています
read.cgiの片隅に表示されている関連キーワードを
きちんとメンテナンスしてみようなスレッド。
>>377-379
どうもです。
できれば2chの側で対応していただけるとありがたいのですが。
Operaで2chを利用する人の全てがcssを設定するわけではないでしょうし。 まぁ、全ての板がread.htmlへ切り替えられるようになれば
話は早いのかもしれませんが。 >>378
これでも良いんだけど、サーバーごとに設定しないといけないのがなんとも。 >>385
重なることなくクリックできています。
Opera/9.10 (Windows NT 5.1; U; ja) textでA B C D Eだけにしてよ
html解析めんどい データのパースをするなら,個人的には JavaScript 版の方がおすすめです.
http://p2.2ch.io/getf.cgi?qb5.2ch.net+operate+1166328527
var keywords = { "keyword1":"encodedKeyword1", "keyword2":"encodedKeyword2", ... };
の行だけ抜き出して,他の行は捨てる.で,キーワードの中には記号が
入ることはないので,単純に , や : でちょん切って前後の " を消せばおk. Perl ならこんな感じじゃ?
sub extract_keywords {
my @kw;
$_[0] =~ /^var keywords = { ((?:"[^"]+":"[^"]+"(?:, )?)+) };$/m
or return;
foreach (split(/, /, $1)) {
/^"([^"]+)":/ or next;
push(@kw, $1);
}
@kw;
} わがままいったのにやさしくしてくれるsunosさん好き これと同じようなインターフェースでおすすめ2ちゃんねるも呼び出せるようにしてほしい。 まろゆき、振り込んでこいさっさと。鯖は俺の鯖を貸してやる >>401
おお。
下の奴しか知らなかったので、上でやってみる。 >>385
今は直ってるみたい
そのときは二文字のが一文字だけになったり後ろが化けたりしてた >>403 そうですか...... MySQL は cp932 で動いてるし,ヘンなバイトシーケンスが
そのまますり抜けるってことはないとは思いますが,またあったら知らせて下さい. あ......ひょっとして↓を入れないとデータ化けが起こる可能性もなきにしもあらず?
静かな時間帯にでも入れ替えておこう<DBD::mysql
--- DBD-mysql-4.001/dbdimp.c
+++ DBD-mysql-4.001/dbdimp.c
@@ -3750,19 +3773,11 @@
"Error happened while tried to clean up stmt",NULL);
return 0;
}
+ /* to avoid SIGSEGV when reusing this statement handle */
+ imp_sth->stmt->bind_result_done= 0;
}
(ry
# これも含めパッチ投げて反応待ちだったり.
# http://bugs.mysql.com/bug.php?id=26388 %83%7D マ
%83%89 ラ
%83%5C ソ
%83%93 ン
%5C \
%83%83 ャ >>406-408
http://find.2ch.net/ のPerlスクリプトの正規表現マッチさせてるところに \Q いれれば解決 %5Cを重ねればいいんだろうけど、そもそも find.2ch.net の中を直さなきゃ。 >>411
find.2ch.net の方は EUC で処理してるっぽいのに、getf.cgi の出力が SHIFT_JIS で
発行されてる部分が多分食い違いの原因。
気を使うべき正規表現を扱ってる find.2ch.net の中を修正するのが筋なのは確かかも >>412
修正しますた。
エンコーディング変換前になぜかstripslashes()が。なんでだろ。 >>412
もう解決してるっぽいけど、Shift_JISの2バイト目のバックスラッシュの取り扱いの問題だね。
データのエンコーディングの扱いが曖昧だとハマる。 stripslashes ってことはPHPなのかな?
PerlでShift_JISの2バイト文字を含む文字から安全に \ を取り除きたい場合は
$strings =~ s/([\x81-\x9f\xe0-\xfc][\x40-\xfc])|\x5c(\x5c)?/$1$2/g;
\\ と二つ並んだものは \ ひとつに。それ以外の単独の \ は全部除去されます。
どのように \ でエスケープされてるかを正しく把握しないと余分な処理しそうなのでご注意 read.cgiの関連キーワード、MacのSafariでみるとiframeがスクロールバーで埋まって
なんにも見えないんですがどうにかなりませんかね^^;。。
ttp://up.spawn.jp/file/up3382.gif >>417 read.js なら iframe 使わないからそういう問題は起きないです
......と言おうと思ったら,そもそも Safari だと read.js 自体ちゃんと動かないんですね.
う〜む...... スレ読まずに
誰かの案は採用されたのかい?まだアイディア出しの段階? Safari での read.cgi の表示直ってました。対応ありがとうございます。m(_ _)m このスレの
キーワード【 rw InnoDB urls id words cgi ch 】 スレ内もだけどスレタイから抽出したのがないと
次スレ追っかける時面倒な場合がある
(キーワードが本文であまり使われてない場合とか) ごめんごめん。
雑談2007に書いたつもりが誤爆ったのさ♪ スレタイもキーワード抽出対象にはなってますが,重要度計算で上位に来ないと
入らないこともありうる,と(スレタイは本文の2倍のウェイトで計算してはいますが). >>388
tv11鯖ではまだ、ページヘッダのリンクに触れない気がします w/Opera9
快適になって安心していたのですが、まだ全鯖対応ではありませんでしたか? >>430 tv11 は banana3102 つまり T-bananaですね.
今は T-banana とそれ以外で read.cgi のソースが統一されておらず,
その作業と併せて行った方が効率的なので,それまでしばらくお待ち下さい. 理解しました。確かにサーバのタイプで乗ってるもの違いますしね。ありがとうございます。 >>429
別枠化するか
本文が400kbでスレタイが40bなら10000倍換算ぐらいがいいと思う てかスレタイを単語ごとに区切って直接クリックで飛べるようにとかは? スレタイを重視しすぎると,関連キーワードの性質が微妙に変化しそうな気も.う〜む...... そもそも本質は「そのスレの内容から抽出したキーワード」であるので、
ずれた要望はあんまり気にしない方が良いかと。
第一、次スレ検索を主目的にしようとしてる時点で趣旨が違う。
同じ話題が話されているのが次スレだけとは限らないし、
雑談スレなんかスレ毎にキーワードが違うのが当たり前。
関連キーワード検索は「そのスレの内容と同じ話題のスレを検索」
するのであって、「次スレを検索」は用途としてはあっていない。
(結果的に代用出来る場合もあるだけ)
でも関連スレって別板に同じスレタイでたってることが多いし ここにサンプルで貼ったスレ結構クリックされてるなw 半角仮名を関連キーワードに反映させることは出来ませんか? >>439 単語の抽出に利用している MeCab は,半角カナを記号として扱ってしまうようですね.
キーワードとして利用するのは名詞だけなので......
メールボックスパンクするまで爆撃合戦するスレ
メールボックスパンク 記号,一般,*,*,*,*,*
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ
爆撃 名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ
合戦 名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
スレ 名詞,固有名詞,組織,*,*,*,*
EOS
メールボックスパンクするまで爆撃合戦するスレ
メールボックス 名詞,一般,*,*,*,*,メールボックス,メールボックス,メールボックス
パンク 名詞,サ変接続,*,*,*,*,パンク,パンク,パンク
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ
爆撃 名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ
合戦 名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
スレ 名詞,固有名詞,組織,*,*,*,*
EOS >>440
このあたりの Perl コード欲しいですか? jcode.pl だけでなんとかなるなら不要かもだけど C言語でこのあたりのライブラリってどっかにあるのかな…… >>442 いや,正規化しようと思えばできないことはないんですけど,
パーサは c2.2ch.io の処理で一番重い部分なんで(ほとんどは
MeCab によるものですが),さらに重くするのがいいのかどうか,ってとこで.
# 仮に正規化するなら,1-way の変換ではなく MeCab の処理結果を元に戻す,
# ってとこまでやらなきゃならないですし. 半角カナを全角カナに変換して処理すればいいんじゃね >>445 それが正規化ってことですが......ただ,半角で書かれたものを
全角のキーワードとして表示してもいいのならそれだけでもいいんですが,
半角のは半角のまま表示ということになると,いったん全角に変換したのを
半角に戻す処理も必要になって,そうなると処理が複雑になってくると.
不可能ではないんですが,重くなりそうだなぁ,と...... 2ch検索の方で半角/全角片仮名の同一視が機能しているんなら、全角のままで良いんじゃないかい? 半角カナで独特のニュアンスを表現する 2ch の文化(?)を考えると
全角に変換したままってのもどうかなぁ......とも思ってたんですが,
とりあえず全角のままでやってみます.
再クロールは2日周期なんで徐々に反映されるかと. キーワード収集対象は本文とスレタイだけで,それ以外は対象外ですが......
と思ったら,>>449 の時にミスったようですね,すみません.
これから(再)クロールされる分は正常になるかと. あれ落ちたスレの奴って吹っ飛ぶんだっけ?
前は生きてたと思ったけど >>455 データが無限に膨張し続けないように,dat 落ちしたのは消すようになってます.
ただ,再クロールは2日周期なので,落ちてからデータが消えるまでのタイムラグはあると思いますが. >>456
スレ落ち後は次スレ追跡モードに差し替えるとかは? >>459 そのためのデータを保持することになれば,結局データが膨張し続けることになるし,
またデータを保持せず on the fly に生成させるとなると,忙しくなりすぎて破綻しそうだし......
いずれにせよ,過去ログ用に別途専用鯖等のリソースを投入するとかでもない限り困難ではないかと...... 過去ログ用に固定テキストをひたすら保存するサーバがあっても
いいような気がしてきました。
つか、memoriesに同居とか。
>>461
memoriesそろそろ容量が少なくなってきてるらしいですよ・・・。
まあ、増設できるらしいですが・・・。
前にもらったtigerあまってないんですか?
それとbeのメール機能が時々おかしいので見てもらえるとうれしいです・・・。
なんかコストばっか掛かって利が無いような。
datにくっ付けちゃうってのはどうなの?できない? >>460
「次スレ追跡する」ボタンみたいにワンクッションおくとかは?
見たい人だけ使う >>461 なるほど......ただ,memories だと HDD 容量もさることながら
httpd + offlaw.cgi なんかと競合しないかなぁ,とか(MySQL を
ストレスなく動かすには,メモリとかリソース結構食いますし).
>>462 残ってる stiger を専用で使うならリソースの競合とかは心配ないですね.
ただ,そんなに HDD 容量がデカいわけでもないんで...... とはいえ,
単にライブな dat のキーワードをコピーして保存するだけなら,
重要度計算用のデカいテーブル (regwords) は過去ログデータの方では
不要なんで,当面は心配ないかも.中長期的には問題ですが......
もっとも,問題が起きたらその時改めて考えよう,ということにしておけば
2ch らしいかも?w
>>463 dat にそういうデータを付けていいのかどうか,っていう
ポリシーの問題もあるかもですね.あと,dat 落ちを制御してる
F22 はいろいろ亜種ができてるらしいとかで,それぞれの鯖で
個別に F22 を改造しなきゃならないかも,っていうのも...... >>464 ワンクッション置いても,データ保存するとすれば
結局データ量が増大することに変わりないですし,
on the fly に生成するにしても,今の p2.2ch.io / c2.2ch.io は
リアルタイムにキーワード抽出する前提で作ってないので
苦しいことには変わりないです. 難しいかなって思うのもいいけど、がんがん試しちゃうのも吉。
もちろん試すのにいろいろ準備とかあって大変だとは思うけど。 試すにしても,ライブ dat のキーワード表示に悪影響を与えると元も子もないんで......
なので,過去ログに対処するなら専用鯖等のリソース投入が前提じゃないかなぁと. まぁ,専用「鯖」でなくとも,今の c2 に過去ログ用にストレージ追加とかでもいいかもですけど. スタートレックをスタートとレックで区切るのやめて欲しい まぁ,意図してる訳じゃないけど MeCab がそう区切ってるってことで......>>470 過去ログに関しては、関連キーワードが変更されることがないので、
スレッドkeyのテキストファイルを作って置いておくだけでいいと思うのです。
ってことで、mysqlはいらないかと。
しんぷるいずべすと、と。
ところで
>>472
なんかネタ落としてってw
ひろゆきを訴えたGJ会社員(35) 今度は毎日新聞を訴えてひろゆき涙目www
http://news23.2ch.net/test/read.cgi/news/1173860149/ >>472 なるほど......となると,あとは memories 等に
どういう形で入れればいいか,またそれをどうやって read.cgi で
表示させるか,ってあたりですか.ぼちぼち考えてみます. XMLにしてjavascriptでincludeみたいなのって出来ないんでしたっけ?
>>475 XMLHttpRequest だと同一ドメイン(というか実質同一鯖)の制限がありますが,
JSON ならその制限なしで可能です.というか,read.html 用 I/F では今も JSON 的な
やり方でやってます.ただ,read.cgi だとブラウザ側の JavaScript の処理能力の不安があって...... 1台、それ用のサーバを用意するかんじですかね。
memoriesのHDDに常時書き込み負荷をかけるのは、
できれば避けたいかも。 findたまに重いとか話出るけど冗長化しなくて大丈夫なの
ふらだんすに振るとか UNIX板のスレをOperaで見ると、今も >>184 の現象
| Operaだと関連キーワードやofuda.ccのあれととスレの一番上の全部や掲示板に戻るが重なって
| 掲示板に戻るがクリックできない。
なのですが、>>375-388 のは pc11 鯖には入ってないんでしょうか? ■ このスレッドは過去ログ倉庫に格納されています