関連キーワードをなんとかしようスレ
■ このスレッドは過去ログ倉庫に格納されています
read.cgiの片隅に表示されている関連キーワードを きちんとメンテナンスしてみようなスレッド。 %5Cを重ねればいいんだろうけど、そもそも find.2ch.net の中を直さなきゃ。 >>411 find.2ch.net の方は EUC で処理してるっぽいのに、getf.cgi の出力が SHIFT_JIS で 発行されてる部分が多分食い違いの原因。 気を使うべき正規表現を扱ってる find.2ch.net の中を修正するのが筋なのは確かかも >>412 修正しますた。 エンコーディング変換前になぜかstripslashes()が。なんでだろ。 >>412 もう解決してるっぽいけど、Shift_JISの2バイト目のバックスラッシュの取り扱いの問題だね。 データのエンコーディングの扱いが曖昧だとハマる。 stripslashes ってことはPHPなのかな? PerlでShift_JISの2バイト文字を含む文字から安全に \ を取り除きたい場合は $strings =~ s/([\x81-\x9f\xe0-\xfc][\x40-\xfc])|\x5c(\x5c)?/$1$2/g; \\ と二つ並んだものは \ ひとつに。それ以外の単独の \ は全部除去されます。 どのように \ でエスケープされてるかを正しく把握しないと余分な処理しそうなのでご注意 read.cgiの関連キーワード、MacのSafariでみるとiframeがスクロールバーで埋まって なんにも見えないんですがどうにかなりませんかね^^;。。 ttp://up.spawn.jp/file/up3382.gif >>417 read.js なら iframe 使わないからそういう問題は起きないです ......と言おうと思ったら,そもそも Safari だと read.js 自体ちゃんと動かないんですね. う〜む...... スレ読まずに 誰かの案は採用されたのかい?まだアイディア出しの段階? Safari での read.cgi の表示直ってました。対応ありがとうございます。m(_ _)m このスレの キーワード【 rw InnoDB urls id words cgi ch 】 スレ内もだけどスレタイから抽出したのがないと 次スレ追っかける時面倒な場合がある (キーワードが本文であまり使われてない場合とか) ごめんごめん。 雑談2007に書いたつもりが誤爆ったのさ♪ スレタイもキーワード抽出対象にはなってますが,重要度計算で上位に来ないと 入らないこともありうる,と(スレタイは本文の2倍のウェイトで計算してはいますが). >>388 tv11鯖ではまだ、ページヘッダのリンクに触れない気がします w/Opera9 快適になって安心していたのですが、まだ全鯖対応ではありませんでしたか? >>430 tv11 は banana3102 つまり T-bananaですね. 今は T-banana とそれ以外で read.cgi のソースが統一されておらず, その作業と併せて行った方が効率的なので,それまでしばらくお待ち下さい. 理解しました。確かにサーバのタイプで乗ってるもの違いますしね。ありがとうございます。 >>429 別枠化するか 本文が400kbでスレタイが40bなら10000倍換算ぐらいがいいと思う てかスレタイを単語ごとに区切って直接クリックで飛べるようにとかは? スレタイを重視しすぎると,関連キーワードの性質が微妙に変化しそうな気も.う〜む...... そもそも本質は「そのスレの内容から抽出したキーワード」であるので、 ずれた要望はあんまり気にしない方が良いかと。 第一、次スレ検索を主目的にしようとしてる時点で趣旨が違う。 同じ話題が話されているのが次スレだけとは限らないし、 雑談スレなんかスレ毎にキーワードが違うのが当たり前。 関連キーワード検索は「そのスレの内容と同じ話題のスレを検索」 するのであって、「次スレを検索」は用途としてはあっていない。 (結果的に代用出来る場合もあるだけ) でも関連スレって別板に同じスレタイでたってることが多いし ここにサンプルで貼ったスレ結構クリックされてるなw 半角仮名を関連キーワードに反映させることは出来ませんか? >>439 単語の抽出に利用している MeCab は,半角カナを記号として扱ってしまうようですね. キーワードとして利用するのは名詞だけなので...... メールボックスパンクするまで爆撃合戦するスレ メールボックスパンク 記号,一般,*,*,*,*,* する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ 爆撃 名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ 合戦 名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル スレ 名詞,固有名詞,組織,*,*,*,* EOS メールボックスパンクするまで爆撃合戦するスレ メールボックス 名詞,一般,*,*,*,*,メールボックス,メールボックス,メールボックス パンク 名詞,サ変接続,*,*,*,*,パンク,パンク,パンク する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ 爆撃 名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ 合戦 名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル スレ 名詞,固有名詞,組織,*,*,*,* EOS >>440 このあたりの Perl コード欲しいですか? jcode.pl だけでなんとかなるなら不要かもだけど C言語でこのあたりのライブラリってどっかにあるのかな…… >>442 いや,正規化しようと思えばできないことはないんですけど, パーサは c2.2ch.io の処理で一番重い部分なんで(ほとんどは MeCab によるものですが),さらに重くするのがいいのかどうか,ってとこで. # 仮に正規化するなら,1-way の変換ではなく MeCab の処理結果を元に戻す, # ってとこまでやらなきゃならないですし. 半角カナを全角カナに変換して処理すればいいんじゃね >>445 それが正規化ってことですが......ただ,半角で書かれたものを 全角のキーワードとして表示してもいいのならそれだけでもいいんですが, 半角のは半角のまま表示ということになると,いったん全角に変換したのを 半角に戻す処理も必要になって,そうなると処理が複雑になってくると. 不可能ではないんですが,重くなりそうだなぁ,と...... 2ch検索の方で半角/全角片仮名の同一視が機能しているんなら、全角のままで良いんじゃないかい? 半角カナで独特のニュアンスを表現する 2ch の文化(?)を考えると 全角に変換したままってのもどうかなぁ......とも思ってたんですが, とりあえず全角のままでやってみます. 再クロールは2日周期なんで徐々に反映されるかと. キーワード収集対象は本文とスレタイだけで,それ以外は対象外ですが...... と思ったら,>>449 の時にミスったようですね,すみません. これから(再)クロールされる分は正常になるかと. あれ落ちたスレの奴って吹っ飛ぶんだっけ? 前は生きてたと思ったけど >>455 データが無限に膨張し続けないように,dat 落ちしたのは消すようになってます. ただ,再クロールは2日周期なので,落ちてからデータが消えるまでのタイムラグはあると思いますが. >>456 スレ落ち後は次スレ追跡モードに差し替えるとかは? >>459 そのためのデータを保持することになれば,結局データが膨張し続けることになるし, またデータを保持せず on the fly に生成させるとなると,忙しくなりすぎて破綻しそうだし...... いずれにせよ,過去ログ用に別途専用鯖等のリソースを投入するとかでもない限り困難ではないかと...... 過去ログ用に固定テキストをひたすら保存するサーバがあっても いいような気がしてきました。 つか、memoriesに同居とか。 >>461 memoriesそろそろ容量が少なくなってきてるらしいですよ・・・。 まあ、増設できるらしいですが・・・。 前にもらったtigerあまってないんですか? それとbeのメール機能が時々おかしいので見てもらえるとうれしいです・・・。 なんかコストばっか掛かって利が無いような。 datにくっ付けちゃうってのはどうなの?できない? >>460 「次スレ追跡する」ボタンみたいにワンクッションおくとかは? 見たい人だけ使う >>461 なるほど......ただ,memories だと HDD 容量もさることながら httpd + offlaw.cgi なんかと競合しないかなぁ,とか(MySQL を ストレスなく動かすには,メモリとかリソース結構食いますし). >>462 残ってる stiger を専用で使うならリソースの競合とかは心配ないですね. ただ,そんなに HDD 容量がデカいわけでもないんで...... とはいえ, 単にライブな dat のキーワードをコピーして保存するだけなら, 重要度計算用のデカいテーブル (regwords) は過去ログデータの方では 不要なんで,当面は心配ないかも.中長期的には問題ですが...... もっとも,問題が起きたらその時改めて考えよう,ということにしておけば 2ch らしいかも?w >>463 dat にそういうデータを付けていいのかどうか,っていう ポリシーの問題もあるかもですね.あと,dat 落ちを制御してる F22 はいろいろ亜種ができてるらしいとかで,それぞれの鯖で 個別に F22 を改造しなきゃならないかも,っていうのも...... >>464 ワンクッション置いても,データ保存するとすれば 結局データ量が増大することに変わりないですし, on the fly に生成するにしても,今の p2.2ch.io / c2.2ch.io は リアルタイムにキーワード抽出する前提で作ってないので 苦しいことには変わりないです. 難しいかなって思うのもいいけど、がんがん試しちゃうのも吉。 もちろん試すのにいろいろ準備とかあって大変だとは思うけど。 試すにしても,ライブ dat のキーワード表示に悪影響を与えると元も子もないんで...... なので,過去ログに対処するなら専用鯖等のリソース投入が前提じゃないかなぁと. まぁ,専用「鯖」でなくとも,今の c2 に過去ログ用にストレージ追加とかでもいいかもですけど. スタートレックをスタートとレックで区切るのやめて欲しい まぁ,意図してる訳じゃないけど MeCab がそう区切ってるってことで......>>470 過去ログに関しては、関連キーワードが変更されることがないので、 スレッドkeyのテキストファイルを作って置いておくだけでいいと思うのです。 ってことで、mysqlはいらないかと。 しんぷるいずべすと、と。 ところで >>472 なんかネタ落としてってw ひろゆきを訴えたGJ会社員(35) 今度は毎日新聞を訴えてひろゆき涙目www http://news23.2ch.net/test/read.cgi/news/1173860149/ >>472 なるほど......となると,あとは memories 等に どういう形で入れればいいか,またそれをどうやって read.cgi で 表示させるか,ってあたりですか.ぼちぼち考えてみます. XMLにしてjavascriptでincludeみたいなのって出来ないんでしたっけ? >>475 XMLHttpRequest だと同一ドメイン(というか実質同一鯖)の制限がありますが, JSON ならその制限なしで可能です.というか,read.html 用 I/F では今も JSON 的な やり方でやってます.ただ,read.cgi だとブラウザ側の JavaScript の処理能力の不安があって...... 1台、それ用のサーバを用意するかんじですかね。 memoriesのHDDに常時書き込み負荷をかけるのは、 できれば避けたいかも。 findたまに重いとか話出るけど冗長化しなくて大丈夫なの ふらだんすに振るとか UNIX板のスレをOperaで見ると、今も >>184 の現象 | Operaだと関連キーワードやofuda.ccのあれととスレの一番上の全部や掲示板に戻るが重なって | 掲示板に戻るがクリックできない。 なのですが、>>375-388 のは pc11 鯖には入ってないんでしょうか? HDDの速度がはやいハードウェアをどこかから調達するといい感じなんですかね。 T-Bananaサーバーの実験を手伝うって名目でなんとかしてもらうとか、、 >>479 pc11 = T-banana なので >>431 ということで...... # そろそろ http://qb5.2ch.net/test/read.cgi/operate/1172208065/797 を # やってもいい頃じゃないか,って気もしないではないですが...... >>480 さっそく http://qb5.2ch.net/test/read.cgi/operate/1172208065/913 がw ただ,過去ログ用の HDD でほしいのは速度より容量なんですよね. # むむむさんの >>477 の真意は,「HDD にダメージを与えず長持ちさせたい」ってことじゃないかと. T-banana のようにディスク I/O の性能が高く,かつ RAM もたくさん積んであるマシンなら, むしろ MySQL でデカいデータをがんがん扱う用途の方が向いてそうな気がしますね,個人的には. >>484 > # むむむさんの >>477 の真意は,「HDD にダメージを与えず長持ちさせたい」ってことじゃないかと. ですね。 memoriesはデータ格納時以外はほぼread onlyで使いたいなと。 >>480 HDDの容量が20G台でいいなら、 今使っていないstigerを1台、それ用に割り当ててみるとかですが、 もっと必要なかんじですかね。 「各スレ単位で必要な容量 x 過去ログ発生速度」で,どれだけの期間持つか,てな感じですか. データを .js のように直接表示できる形で保存するとサイズは大きくなるが CPU の仕事は少ない, 一方 CSV のような形で保存するとサイズは小さくなるが表示する際の CPU の仕事が増える,と. まぁ CPU の仕事が増えるといっても,現状 p2.2ch.io 1台で全ライブスレの getf.cgi 表示させてるぐらいなので,stiger を専用で割り当てるなら問題ないと思いますが. ただ,各スレ単位でファイル作ると,HDD 消費はバイト単位でなくフラグメントサイズ単位になるんですよね. HDD スペースの利用効率を向上させるには,1ファイルに複数のスレのデータを書き込んだ方がいいのか. その代わり,必要なデータを検索する仕事が増えると.1ファイルに書き込みつつ 検索も効率的にするには......結局 MySQL を使うとかなるのかな. freebsdのフラグメントサイズってどれくらいなんですか? >>489 デフォルトでは16k(16384)ですね。 man newfs ... -b block-size The block size of the file system, in bytes. It must be a power of 2. The default size is 16384 bytes, and the smallest allow- able size is 4096 bytes. The optimal block:fragment ratio is 8:1. Other ratios are possible, but are not recommended, and may produce poor results. 4k まで小さくできますが、あんまりおすすめしないかも。 専門な話題なので横槍! フラグメントサイズはブロックサイズを8分の1したものがデフォルトで使われるので 2k(2048)バイト ではないかと。 newfs -b 16384 -f 2048 のように指定されているはずか、オプションなしのどちらかですね。 man newfs -f frag-size ファイルシステムのフラグメントサイズをバイト単位で指定します。 blocksize/8 から blocksize までの範囲の、2 のべき乗である必要があります。 デフォルトは 2048 バイトです。 >>492 確かに、フラグメントサイズとブロックサイズは別物ですね。 ご指摘&補足すみませんです。 各板のライブスレ数は大きく変動しないという前提なら, 過去ログ発生速度≒新スレが立つ速度 なのかなぁ...... これどういうシステムなの? どうやったら反映されるの? スレ内の全レスから単語抽出、DB化して、一定の条件で最頻と思われる 単語を表示させる。 >133 多分92のキーワードというのがスレの関連した語句になるので、それの検索は考えています。 自動的に"「74」「SevenFour」"など関連した語句の摘出は、ネタとしては面白いのですが、 難易度が高いというか、スレ名によっては多分バカ検索になるので、やるとしても実験的な機能としての 実装になります。多分正解は134さんが書かれているスレッド検索に正規表現をサポートでしょう。 >135 いろいろ作っていますが、どれも中途半端でして、、、 >136-139 先にも書きましたが、弱いとか、上手くいかないのではなく、元々対応していないというのが正解のようです。 今回版で一応修正しましたので、御報告いただければ助かります。 >141 >●対応って、面倒なの? 有償アカウントが必要なんですよね? いまのところ対応予定無しです。 >それと、まちBBSとかが見れないんだけど 過去ログを見ると2chに完全対応したら対応させる等書かれていましたので、メニューのトップには 表示されていますが、対応していません。対応させたいのですが、他が優先順位が高いので調査等保留状態です。 >142 すみません。ちょっと意味が判りません。 >143 まだ考え中ですが、本体側ではスレへアクセスの時に毎回キーワード取得してデータベースに溜めていきます。 あとキーワードを入力するIFを用意してユーザーからも入力が可能とします。 js側のAPIはデータベースへアクセスするsfSystem.getKeywordsとsfSystem.setKeywordを用意します。 溜められたデーターは検索やスマートボードに使ったり出来ます。 データベース内の削除は必要かなぁ。と 時間がなかなか取れないので、そんな感じで止っています。 同じキーで何回も検索するとヒット数がまちまちになるぞ ヒットしたりしなかったりするスレがある模様 >>497 スレ内に一度も出てない単語はキーワードとして表示されないの? これもひでえなあ ろう じろう しま があってしまじろうがないw http://p2.2ch.io/getf.cgi?http ://game11.2ch.net/test/read.cgi/amusement/1163256789/l50 アイコンスレでアイコって酷くね http://p2.2ch.io/getf.cgi?http ://bubble6.2ch.net/test/read.cgi/2chse/1163082315/701-800 無論無関係なスレばかりヒット&元のスレもヒットせず リザルトがないのとかあってもまるで関連性のないやつは除外できないんかね 前後の状況によって「アイコン」の区切りはまちまちになるみたいですねぇ<MeCab 【Be】アイコン売買促進スレ★7【icon】 【 記号,括弧開,*,*,*,*,【,【,【 Be 名詞,固有名詞,組織,*,*,*,* 】 記号,括弧閉,*,*,*,*,】,】,】 アイコン 名詞,固有名詞,一般,*,*,*,* 売買 名詞,サ変接続,*,*,*,*,売買,バイバイ,バイバイ 促進 名詞,サ変接続,*,*,*,*,促進,ソクシン,ソクシン スレ 名詞,一般,*,*,*,*,* ★ 記号,一般,*,*,*,*,★,★,★ 7 名詞,数,*,*,*,*,* 【 記号,括弧開,*,*,*,*,【,【,【 icon 名詞,固有名詞,組織,*,*,*,* 】 記号,括弧閉,*,*,*,*,】,】,】 EOS 2ちゃんねる beアイコン サイト 2 名詞,数,*,*,*,*,2,ニ,ニ ちゃん 名詞,接尾,人名,*,*,*,ちゃん,チャン,チャン ねる 動詞,自立,*,*,一段,基本形,ねる,ネル,ネル be 名詞,固有名詞,組織,*,*,*,* アイコン 名詞,一般,*,*,*,*,* サイト 名詞,一般,*,*,*,*,サイト,サイト,サイト EOS アイコン全リスト、販売者登録所、価格情報ほか アイコ 名詞,固有名詞,一般,*,*,*,アイコ,アイコ,アイコ ン 名詞,非自立,一般,*,*,*,ン,ン,ン 全 接頭詞,名詞接続,*,*,*,*,全,ゼン,ゼン リスト 名詞,一般,*,*,*,*,リスト,リスト,リスト 、 記号,読点,*,*,*,*,、,、,、 販売 名詞,サ変接続,*,*,*,*,販売,ハンバイ,ハンバイ 者 名詞,接尾,一般,*,*,*,者,シャ,シャ 登録 名詞,サ変接続,*,*,*,*,登録,トウロク,トーロク 所 名詞,接尾,一般,*,*,*,所,ショ,ショ 、 記号,読点,*,*,*,*,、,、,、 価格 名詞,一般,*,*,*,*,価格,カカク,カカク 情報 名詞,一般,*,*,*,*,情報,ジョウホウ,ジョーホー ほか 名詞,副詞可能,*,*,*,*,ほか,ホカ,ホカ EOS アイコンショッパー アイコンショッパー 名詞,固有名詞,組織,*,*,*,* EOS 他板のアイコンスレ(2ちゃんねる検索) 他 接頭詞,名詞接続,*,*,*,*,他,タ,タ 板 名詞,一般,*,*,*,*,板,イタ,イタ の 助詞,連体化,*,*,*,*,の,ノ,ノ アイコンスレ 名詞,一般,*,*,*,*,* ( 記号,括弧開,*,*,*,*,(,(,( 2 名詞,数,*,*,*,*,2,ニ,ニ ちゃん 名詞,接尾,人名,*,*,*,ちゃん,チャン,チャン ねる 動詞,自立,*,*,一段,基本形,ねる,ネル,ネル 検索 名詞,サ変接続,*,*,*,*,検索,ケンサク,ケンサク ) 記号,括弧閉,*,*,*,*,),),) EOS カタカナやひらがなで直後にンが来る語句は ンの直前で区切っちゃいけないんじゃないの ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる