read.cgiの片隅に表示されている関連キーワードを
きちんとメンテナンスしてみようなスレッド。
探検
関連キーワードをなんとかしようスレ
■ このスレッドは過去ログ倉庫に格納されています
2007/02/16(金) 10:51:18ID:Gnp6zGs8O
textでA B C D Eだけにしてよ
html解析めんどい
html解析めんどい
2007/02/16(金) 11:07:20ID:X0vKb2di0
おいおい、XMLのパースもできないのかよw
2007/02/16(金) 11:25:00ID:cIKZ8NCe0
データのパースをするなら,個人的には JavaScript 版の方がおすすめです.
http://p2.2ch.io/getf.cgi?qb5.2ch.net+operate+1166328527
var keywords = { "keyword1":"encodedKeyword1", "keyword2":"encodedKeyword2", ... };
の行だけ抜き出して,他の行は捨てる.で,キーワードの中には記号が
入ることはないので,単純に , や : でちょん切って前後の " を消せばおk.
http://p2.2ch.io/getf.cgi?qb5.2ch.net+operate+1166328527
var keywords = { "keyword1":"encodedKeyword1", "keyword2":"encodedKeyword2", ... };
の行だけ抜き出して,他の行は捨てる.で,キーワードの中には記号が
入ることはないので,単純に , や : でちょん切って前後の " を消せばおk.
その作業がめんどい
2007/02/16(金) 11:58:54ID:cIKZ8NCe0
Perl ならこんな感じじゃ?
sub extract_keywords {
my @kw;
$_[0] =~ /^var keywords = { ((?:"[^"]+":"[^"]+"(?:, )?)+) };$/m
or return;
foreach (split(/, /, $1)) {
/^"([^"]+)":/ or next;
push(@kw, $1);
}
@kw;
}
sub extract_keywords {
my @kw;
$_[0] =~ /^var keywords = { ((?:"[^"]+":"[^"]+"(?:, )?)+) };$/m
or return;
foreach (split(/, /, $1)) {
/^"([^"]+)":/ or next;
push(@kw, $1);
}
@kw;
}
わがままいったのにやさしくしてくれるsunosさん好き
2007/02/16(金) 12:01:02ID:LpEtGD2H0
すのす
2007/02/16(金) 14:14:03ID:Gv2LZx+i0
これと同じようなインターフェースでおすすめ2ちゃんねるも呼び出せるようにしてほしい。
400動け動けウゴウゴ2ちゃんねる
2007/02/17(土) 12:51:34ID:rbTTlVzI0 まろゆき、振り込んでこいさっさと。鯖は俺の鯖を貸してやる
2007/02/17(土) 13:42:48ID:tFdnFmdq0
>>399 http://qb5.2ch.net/operate/i/1166328527.html
read.js が動いてる鯖ではこんな I/F もありますが......
http://life8.2ch.net/test/readinfo.so?lifesaloon+1171014733
read.js が動いてる鯖ではこんな I/F もありますが......
http://life8.2ch.net/test/readinfo.so?lifesaloon+1171014733
2007/02/17(土) 15:55:07ID:hVA6QFAM0
2007/02/17(土) 21:49:44ID:RVm512sw0
2007/02/17(土) 22:16:36ID:tFdnFmdq0
>>403 そうですか...... MySQL は cp932 で動いてるし,ヘンなバイトシーケンスが
そのまますり抜けるってことはないとは思いますが,またあったら知らせて下さい.
そのまますり抜けるってことはないとは思いますが,またあったら知らせて下さい.
2007/02/17(土) 22:53:35ID:tFdnFmdq0
あ......ひょっとして↓を入れないとデータ化けが起こる可能性もなきにしもあらず?
静かな時間帯にでも入れ替えておこう<DBD::mysql
--- DBD-mysql-4.001/dbdimp.c
+++ DBD-mysql-4.001/dbdimp.c
@@ -3750,19 +3773,11 @@
"Error happened while tried to clean up stmt",NULL);
return 0;
}
+ /* to avoid SIGSEGV when reusing this statement handle */
+ imp_sth->stmt->bind_result_done= 0;
}
(ry
# これも含めパッチ投げて反応待ちだったり.
# http://bugs.mysql.com/bug.php?id=26388
静かな時間帯にでも入れ替えておこう<DBD::mysql
--- DBD-mysql-4.001/dbdimp.c
+++ DBD-mysql-4.001/dbdimp.c
@@ -3750,19 +3773,11 @@
"Error happened while tried to clean up stmt",NULL);
return 0;
}
+ /* to avoid SIGSEGV when reusing this statement handle */
+ imp_sth->stmt->bind_result_done= 0;
}
(ry
# これも含めパッチ投げて反応待ちだったり.
# http://bugs.mysql.com/bug.php?id=26388
406動け動けウゴウゴ2ちゃんねる
2007/02/18(日) 22:01:39ID:qfY4A8BA0 さっそく
http://p2.2ch.io/getf.cgi?http://news22.2ch.net/test/read.cgi/newsplus/1171768421/l50
マラソンをクリックするとこれに
http://find.2ch.net/?BBS=ALL&TYPE=TITLE&ENCODING=SJIS&STR=%83%7D%83%89%83%5C%83%93
http://p2.2ch.io/getf.cgi?http://news22.2ch.net/test/read.cgi/newsplus/1171768421/l50
マラソンをクリックするとこれに
http://find.2ch.net/?BBS=ALL&TYPE=TITLE&ENCODING=SJIS&STR=%83%7D%83%89%83%5C%83%93
407stream ◆PNstream2s
2007/02/18(日) 22:09:21ID:XzsEMgbQ0 >>406
2ch検索側がおかしいと思う
2ch検索側がおかしいと思う
2007/02/18(日) 22:13:20ID:XzsEMgbQ0
%83%7D マ
%83%89 ラ
%83%5C ソ
%83%93 ン
%5C \
%83%83 ャ
%83%89 ラ
%83%5C ソ
%83%93 ン
%5C \
%83%83 ャ
2007/02/18(日) 22:19:53ID:ZJ8NfgfI0
2007/02/18(日) 22:33:55ID:ZJ8NfgfI0
>>409
URIいじってみたけど、少し違ってたみたい。
getf.cgi で %5C をふたつ重ねるようにすればいいのかな?<こちらは動作確認
http://find.2ch.net/?BBS=ALL&TYPE=TITLE&ENCODING=SJIS&STR=%83%7D%83%89%83%5C%5C%83%93
URIいじってみたけど、少し違ってたみたい。
getf.cgi で %5C をふたつ重ねるようにすればいいのかな?<こちらは動作確認
http://find.2ch.net/?BBS=ALL&TYPE=TITLE&ENCODING=SJIS&STR=%83%7D%83%89%83%5C%5C%83%93
2007/02/18(日) 22:51:03ID:XzsEMgbQ0
%5Cを重ねればいいんだろうけど、そもそも find.2ch.net の中を直さなきゃ。
2007/02/18(日) 22:59:08ID:ZJ8NfgfI0
>>411
find.2ch.net の方は EUC で処理してるっぽいのに、getf.cgi の出力が SHIFT_JIS で
発行されてる部分が多分食い違いの原因。
気を使うべき正規表現を扱ってる find.2ch.net の中を修正するのが筋なのは確かかも
find.2ch.net の方は EUC で処理してるっぽいのに、getf.cgi の出力が SHIFT_JIS で
発行されてる部分が多分食い違いの原因。
気を使うべき正規表現を扱ってる find.2ch.net の中を修正するのが筋なのは確かかも
413動け動けウゴウゴ2ちゃんねる
2007/02/19(月) 00:38:36ID:Qm35+Bmi0 >>290に回す
2007/02/19(月) 08:46:54ID:kfF0dg9s0
2007/02/19(月) 08:57:09ID:dFaVY2iE0
stripslashes ってことはPHPなのかな?
PerlでShift_JISの2バイト文字を含む文字から安全に \ を取り除きたい場合は
$strings =~ s/([\x81-\x9f\xe0-\xfc][\x40-\xfc])|\x5c(\x5c)?/$1$2/g;
\\ と二つ並んだものは \ ひとつに。それ以外の単独の \ は全部除去されます。
どのように \ でエスケープされてるかを正しく把握しないと余分な処理しそうなのでご注意
PerlでShift_JISの2バイト文字を含む文字から安全に \ を取り除きたい場合は
$strings =~ s/([\x81-\x9f\xe0-\xfc][\x40-\xfc])|\x5c(\x5c)?/$1$2/g;
\\ と二つ並んだものは \ ひとつに。それ以外の単独の \ は全部除去されます。
どのように \ でエスケープされてるかを正しく把握しないと余分な処理しそうなのでご注意
2007/02/19(月) 11:12:32ID:CkwXuHW70
read.cgiの関連キーワード、MacのSafariでみるとiframeがスクロールバーで埋まって
なんにも見えないんですがどうにかなりませんかね^^;。。
ttp://up.spawn.jp/file/up3382.gif
なんにも見えないんですがどうにかなりませんかね^^;。。
ttp://up.spawn.jp/file/up3382.gif
2007/02/19(月) 13:01:54ID:pBEvSMZ10
どこでもトンファー
2007/02/19(月) 16:59:40ID:Pug69+aE0
>>417 read.js なら iframe 使わないからそういう問題は起きないです
......と言おうと思ったら,そもそも Safari だと read.js 自体ちゃんと動かないんですね.
う~む......
......と言おうと思ったら,そもそも Safari だと read.js 自体ちゃんと動かないんですね.
う~む......
420おふぃす
2007/02/20(火) 01:03:00ID:EBLhrkLWP スレ読まずに
誰かの案は採用されたのかい?まだアイディア出しの段階?
誰かの案は採用されたのかい?まだアイディア出しの段階?
2007/02/20(火) 10:46:59ID:vxB49Y9b0
Safari での read.cgi の表示直ってました。対応ありがとうございます。m(_ _)m
誰かの案?
2007/02/22(木) 00:11:20ID:qlrx2fQN0
>>422
何が?
何が?
2007/02/22(木) 00:19:08ID:wmcK2NTs0
>>420でしょ
あいあい。>>420です。
426動け動けウゴウゴ2ちゃんねる
2007/02/22(木) 01:30:14ID:CIG1Pa+z0 このスレの
キーワード【 rw InnoDB urls id words cgi ch 】
キーワード【 rw InnoDB urls id words cgi ch 】
427動け動けウゴウゴ2ちゃんねる
2007/02/25(日) 01:39:09ID:ha5BeV2q0 スレ内もだけどスレタイから抽出したのがないと
次スレ追っかける時面倒な場合がある
(キーワードが本文であまり使われてない場合とか)
次スレ追っかける時面倒な場合がある
(キーワードが本文であまり使われてない場合とか)
428おふぃす
2007/02/25(日) 06:13:46ID:+aZFC3xFP ごめんごめん。
雑談2007に書いたつもりが誤爆ったのさ♪
雑談2007に書いたつもりが誤爆ったのさ♪
2007/02/25(日) 13:06:47ID:7wLnfKZR0
スレタイもキーワード抽出対象にはなってますが,重要度計算で上位に来ないと
入らないこともありうる,と(スレタイは本文の2倍のウェイトで計算してはいますが).
入らないこともありうる,と(スレタイは本文の2倍のウェイトで計算してはいますが).
2007/02/26(月) 00:33:04ID:cBYEeqLc0
2007/02/26(月) 06:31:21ID:BnRSSGp20
>>430 tv11 は banana3102 つまり T-bananaですね.
今は T-banana とそれ以外で read.cgi のソースが統一されておらず,
その作業と併せて行った方が効率的なので,それまでしばらくお待ち下さい.
今は T-banana とそれ以外で read.cgi のソースが統一されておらず,
その作業と併せて行った方が効率的なので,それまでしばらくお待ち下さい.
2007/02/26(月) 23:50:24ID:0DZUXpKj0
理解しました。確かにサーバのタイプで乗ってるもの違いますしね。ありがとうございます。
433動け動けウゴウゴ2ちゃんねる
2007/02/27(火) 01:20:23ID:GeMrAsRv0434動け動けウゴウゴ2ちゃんねる
2007/02/27(火) 01:22:26ID:GeMrAsRv0 てかスレタイを単語ごとに区切って直接クリックで飛べるようにとかは?
2007/02/27(火) 08:24:10ID:pqZRuyro0
スレタイを重視しすぎると,関連キーワードの性質が微妙に変化しそうな気も.う~む......
2007/02/27(火) 14:17:31ID:hig0wXqC0
そもそも本質は「そのスレの内容から抽出したキーワード」であるので、
ずれた要望はあんまり気にしない方が良いかと。
第一、次スレ検索を主目的にしようとしてる時点で趣旨が違う。
同じ話題が話されているのが次スレだけとは限らないし、
雑談スレなんかスレ毎にキーワードが違うのが当たり前。
関連キーワード検索は「そのスレの内容と同じ話題のスレを検索」
するのであって、「次スレを検索」は用途としてはあっていない。
(結果的に代用出来る場合もあるだけ)
ずれた要望はあんまり気にしない方が良いかと。
第一、次スレ検索を主目的にしようとしてる時点で趣旨が違う。
同じ話題が話されているのが次スレだけとは限らないし、
雑談スレなんかスレ毎にキーワードが違うのが当たり前。
関連キーワード検索は「そのスレの内容と同じ話題のスレを検索」
するのであって、「次スレを検索」は用途としてはあっていない。
(結果的に代用出来る場合もあるだけ)
437動け動けウゴウゴ2ちゃんねる
2007/02/28(水) 01:50:16ID:u1t4BgBC0 でも関連スレって別板に同じスレタイでたってることが多いし
2007/03/03(土) 08:38:56ID:tOQK59wa0
ここにサンプルで貼ったスレ結構クリックされてるなw
2007/03/03(土) 11:56:46ID:oee6jhnS0
半角仮名を関連キーワードに反映させることは出来ませんか?
2007/03/03(土) 12:52:59ID:m4T4tan/0
>>439 単語の抽出に利用している MeCab は,半角カナを記号として扱ってしまうようですね.
キーワードとして利用するのは名詞だけなので......
メールボックスパンクするまで爆撃合戦するスレ
メールボックスパンク 記号,一般,*,*,*,*,*
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ
爆撃 名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ
合戦 名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
スレ 名詞,固有名詞,組織,*,*,*,*
EOS
メールボックスパンクするまで爆撃合戦するスレ
メールボックス 名詞,一般,*,*,*,*,メールボックス,メールボックス,メールボックス
パンク 名詞,サ変接続,*,*,*,*,パンク,パンク,パンク
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ
爆撃 名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ
合戦 名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
スレ 名詞,固有名詞,組織,*,*,*,*
EOS
キーワードとして利用するのは名詞だけなので......
メールボックスパンクするまで爆撃合戦するスレ
メールボックスパンク 記号,一般,*,*,*,*,*
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ
爆撃 名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ
合戦 名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
スレ 名詞,固有名詞,組織,*,*,*,*
EOS
メールボックスパンクするまで爆撃合戦するスレ
メールボックス 名詞,一般,*,*,*,*,メールボックス,メールボックス,メールボックス
パンク 名詞,サ変接続,*,*,*,*,パンク,パンク,パンク
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ
爆撃 名詞,サ変接続,*,*,*,*,爆撃,バクゲキ,バクゲキ
合戦 名詞,サ変接続,*,*,*,*,合戦,カッセン,カッセン
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
スレ 名詞,固有名詞,組織,*,*,*,*
EOS
2007/03/03(土) 14:43:03ID:wHf2rjr80
ゆゆきし問題ですね
2007/03/03(土) 17:19:16ID:yF+lRADQ0
>>440
このあたりの Perl コード欲しいですか? jcode.pl だけでなんとかなるなら不要かもだけど
このあたりの Perl コード欲しいですか? jcode.pl だけでなんとかなるなら不要かもだけど
2007/03/03(土) 17:28:59ID:yF+lRADQ0
C言語でこのあたりのライブラリってどっかにあるのかな……
2007/03/03(土) 17:46:33ID:m4T4tan/0
>>442 いや,正規化しようと思えばできないことはないんですけど,
パーサは c2.2ch.io の処理で一番重い部分なんで(ほとんどは
MeCab によるものですが),さらに重くするのがいいのかどうか,ってとこで.
# 仮に正規化するなら,1-way の変換ではなく MeCab の処理結果を元に戻す,
# ってとこまでやらなきゃならないですし.
パーサは c2.2ch.io の処理で一番重い部分なんで(ほとんどは
MeCab によるものですが),さらに重くするのがいいのかどうか,ってとこで.
# 仮に正規化するなら,1-way の変換ではなく MeCab の処理結果を元に戻す,
# ってとこまでやらなきゃならないですし.
2007/03/04(日) 09:51:09ID:nVnbTany0
半角カナを全角カナに変換して処理すればいいんじゃね
2007/03/04(日) 19:41:00ID:98jJiHZT0
>>445 それが正規化ってことですが......ただ,半角で書かれたものを
全角のキーワードとして表示してもいいのならそれだけでもいいんですが,
半角のは半角のまま表示ということになると,いったん全角に変換したのを
半角に戻す処理も必要になって,そうなると処理が複雑になってくると.
不可能ではないんですが,重くなりそうだなぁ,と......
全角のキーワードとして表示してもいいのならそれだけでもいいんですが,
半角のは半角のまま表示ということになると,いったん全角に変換したのを
半角に戻す処理も必要になって,そうなると処理が複雑になってくると.
不可能ではないんですが,重くなりそうだなぁ,と......
2007/03/04(日) 19:47:14ID:i3rGGgjT0
半角を全角にしてそのままでいいんじゃないかな
2007/03/04(日) 20:21:29ID:Qp8jFuR10
2ch検索の方で半角/全角片仮名の同一視が機能しているんなら、全角のままで良いんじゃないかい?
2007/03/04(日) 22:23:49ID:98jJiHZT0
半角カナで独特のニュアンスを表現する 2ch の文化(?)を考えると
全角に変換したままってのもどうかなぁ......とも思ってたんですが,
とりあえず全角のままでやってみます.
再クロールは2日周期なんで徐々に反映されるかと.
全角に変換したままってのもどうかなぁ......とも思ってたんですが,
とりあえず全角のままでやってみます.
再クロールは2日周期なんで徐々に反映されるかと.
450動け動けウゴウゴ2ちゃんねる
2007/03/05(月) 13:05:32ID:ckCgsY7X0451動け動けウゴウゴ2ちゃんねる
2007/03/05(月) 18:26:45ID:D+u/AYgk0 あのさIDはやめにしない?
http://news22.2ch.net/test/read.cgi/newsplus/1172896755/l50
http://p2.2ch.io/getf.cgi?http://news22.2ch.net/test/read.cgi/newsplus/1172896755/l50
http://news22.2ch.net/test/read.cgi/newsplus/1172896755/l50
http://p2.2ch.io/getf.cgi?http://news22.2ch.net/test/read.cgi/newsplus/1172896755/l50
2007/03/05(月) 19:26:23ID:qjpPIEp90
本文に書かれちゃうとどうしてもねぇ。
2007/03/06(火) 02:56:01ID:1Igmeu5x0
"ctaAcx"とか本文に出てきてないし
2007/03/06(火) 12:54:47ID:Nvn/63930
455動け動けウゴウゴ2ちゃんねる
2007/03/06(火) 18:25:54ID:RZaN2IVv0 あれ落ちたスレの奴って吹っ飛ぶんだっけ?
前は生きてたと思ったけど
前は生きてたと思ったけど
2007/03/06(火) 21:33:48ID:Nvn/63930
>>455 データが無限に膨張し続けないように,dat 落ちしたのは消すようになってます.
ただ,再クロールは2日周期なので,落ちてからデータが消えるまでのタイムラグはあると思いますが.
ただ,再クロールは2日周期なので,落ちてからデータが消えるまでのタイムラグはあると思いますが.
457動け動けウゴウゴ2ちゃんねる
2007/03/08(木) 18:59:20ID:cMnMtVSa0 それだと次スレ追跡には使いづらいわねえ
458トラックバック ★
2007/03/08(木) 21:08:02ID:cMnMtVSa0 【トラックバック来たよ】 (ver. 0.11)
[タイトル] スレタイ検索 スレッドタイトル検索サービス♪2find
[発ブログ] ネットサービス@2ch掲示板
http://pc11.2ch.net/test/read.cgi/esite/1173355555/l50
[=要約=]
主要なもの
http://ttsearch.net/ http://www2.ttsearch.net/
http://page2.xrea.jp/tgrep/tgrep2-test.cgi
http://www6.big.or.jp/%7Ebeyond/bbsnews/
公式のサービス
http://find.2ch.net/ http://test.razil.jp/(苦情は向こうで)
http://h.u.la/dance/
http://is.2ch.net/
その他の検索
http://www.google.co.jp/search?&q=site%3A2ch.net
http://www.2chs.net/
http://www.mimizun.com/
http://makimo.to/
こんな風に使ったり http://find.2ch.net/?STR=find
<a href="../test/read.cgi/esite/1173355555/2-30" target="_blank">>>2-30</a>
[タイトル] スレタイ検索 スレッドタイトル検索サービス♪2find
[発ブログ] ネットサービス@2ch掲示板
http://pc11.2ch.net/test/read.cgi/esite/1173355555/l50
[=要約=]
主要なもの
http://ttsearch.net/ http://www2.ttsearch.net/
http://page2.xrea.jp/tgrep/tgrep2-test.cgi
http://www6.big.or.jp/%7Ebeyond/bbsnews/
公式のサービス
http://find.2ch.net/ http://test.razil.jp/(苦情は向こうで)
http://h.u.la/dance/
http://is.2ch.net/
その他の検索
http://www.google.co.jp/search?&q=site%3A2ch.net
http://www.2chs.net/
http://www.mimizun.com/
http://makimo.to/
こんな風に使ったり http://find.2ch.net/?STR=find
<a href="../test/read.cgi/esite/1173355555/2-30" target="_blank">>>2-30</a>
459動け動けウゴウゴ2ちゃんねる
2007/03/11(日) 20:51:40ID:L60sUdWe0 >>456
スレ落ち後は次スレ追跡モードに差し替えるとかは?
スレ落ち後は次スレ追跡モードに差し替えるとかは?
2007/03/11(日) 21:52:08ID:DiueM2R90
>>459 そのためのデータを保持することになれば,結局データが膨張し続けることになるし,
またデータを保持せず on the fly に生成させるとなると,忙しくなりすぎて破綻しそうだし......
いずれにせよ,過去ログ用に別途専用鯖等のリソースを投入するとかでもない限り困難ではないかと......
またデータを保持せず on the fly に生成させるとなると,忙しくなりすぎて破綻しそうだし......
いずれにせよ,過去ログ用に別途専用鯖等のリソースを投入するとかでもない限り困難ではないかと......
過去ログ用に固定テキストをひたすら保存するサーバがあっても
いいような気がしてきました。
つか、memoriesに同居とか。
いいような気がしてきました。
つか、memoriesに同居とか。
2007/03/12(月) 12:49:49ID:Mzo4MlK10
>>461
memoriesそろそろ容量が少なくなってきてるらしいですよ・・・。
まあ、増設できるらしいですが・・・。
前にもらったtigerあまってないんですか?
それとbeのメール機能が時々おかしいので見てもらえるとうれしいです・・・。
memoriesそろそろ容量が少なくなってきてるらしいですよ・・・。
まあ、増設できるらしいですが・・・。
前にもらったtigerあまってないんですか?
それとbeのメール機能が時々おかしいので見てもらえるとうれしいです・・・。
2007/03/12(月) 14:54:54ID:AFyu+OQm0
なんかコストばっか掛かって利が無いような。
datにくっ付けちゃうってのはどうなの?できない?
datにくっ付けちゃうってのはどうなの?できない?
464動け動けウゴウゴ2ちゃんねる
2007/03/12(月) 20:38:10ID:rmdcm8FM02007/03/12(月) 20:51:43ID:8usXw0FZ0
>>461 なるほど......ただ,memories だと HDD 容量もさることながら
httpd + offlaw.cgi なんかと競合しないかなぁ,とか(MySQL を
ストレスなく動かすには,メモリとかリソース結構食いますし).
>>462 残ってる stiger を専用で使うならリソースの競合とかは心配ないですね.
ただ,そんなに HDD 容量がデカいわけでもないんで...... とはいえ,
単にライブな dat のキーワードをコピーして保存するだけなら,
重要度計算用のデカいテーブル (regwords) は過去ログデータの方では
不要なんで,当面は心配ないかも.中長期的には問題ですが......
もっとも,問題が起きたらその時改めて考えよう,ということにしておけば
2ch らしいかも?w
>>463 dat にそういうデータを付けていいのかどうか,っていう
ポリシーの問題もあるかもですね.あと,dat 落ちを制御してる
F22 はいろいろ亜種ができてるらしいとかで,それぞれの鯖で
個別に F22 を改造しなきゃならないかも,っていうのも......
httpd + offlaw.cgi なんかと競合しないかなぁ,とか(MySQL を
ストレスなく動かすには,メモリとかリソース結構食いますし).
>>462 残ってる stiger を専用で使うならリソースの競合とかは心配ないですね.
ただ,そんなに HDD 容量がデカいわけでもないんで...... とはいえ,
単にライブな dat のキーワードをコピーして保存するだけなら,
重要度計算用のデカいテーブル (regwords) は過去ログデータの方では
不要なんで,当面は心配ないかも.中長期的には問題ですが......
もっとも,問題が起きたらその時改めて考えよう,ということにしておけば
2ch らしいかも?w
>>463 dat にそういうデータを付けていいのかどうか,っていう
ポリシーの問題もあるかもですね.あと,dat 落ちを制御してる
F22 はいろいろ亜種ができてるらしいとかで,それぞれの鯖で
個別に F22 を改造しなきゃならないかも,っていうのも......
2007/03/12(月) 20:56:16ID:8usXw0FZ0
>>464 ワンクッション置いても,データ保存するとすれば
結局データ量が増大することに変わりないですし,
on the fly に生成するにしても,今の p2.2ch.io / c2.2ch.io は
リアルタイムにキーワード抽出する前提で作ってないので
苦しいことには変わりないです.
結局データ量が増大することに変わりないですし,
on the fly に生成するにしても,今の p2.2ch.io / c2.2ch.io は
リアルタイムにキーワード抽出する前提で作ってないので
苦しいことには変わりないです.
2007/03/12(月) 21:03:17ID:AIFnMu+70
難しいかなって思うのもいいけど、がんがん試しちゃうのも吉。
もちろん試すのにいろいろ準備とかあって大変だとは思うけど。
もちろん試すのにいろいろ準備とかあって大変だとは思うけど。
2007/03/12(月) 21:33:42ID:8usXw0FZ0
試すにしても,ライブ dat のキーワード表示に悪影響を与えると元も子もないんで......
なので,過去ログに対処するなら専用鯖等のリソース投入が前提じゃないかなぁと.
なので,過去ログに対処するなら専用鯖等のリソース投入が前提じゃないかなぁと.
2007/03/12(月) 21:37:20ID:8usXw0FZ0
まぁ,専用「鯖」でなくとも,今の c2 に過去ログ用にストレージ追加とかでもいいかもですけど.
470動け動けウゴウゴ2ちゃんねる
2007/03/13(火) 20:31:36ID:rUlVQy5G0 スタートレックをスタートとレックで区切るのやめて欲しい
2007/03/13(火) 22:58:42ID:aGhE8Edp0
まぁ,意図してる訳じゃないけど MeCab がそう区切ってるってことで......>>470
過去ログに関しては、関連キーワードが変更されることがないので、
スレッドkeyのテキストファイルを作って置いておくだけでいいと思うのです。
ってことで、mysqlはいらないかと。
スレッドkeyのテキストファイルを作って置いておくだけでいいと思うのです。
ってことで、mysqlはいらないかと。
2007/03/14(水) 20:08:28ID:LYxNhfWe0
しんぷるいずべすと、と。
ところで
>>472
なんかネタ落としてってw
ひろゆきを訴えたGJ会社員(35) 今度は毎日新聞を訴えてひろゆき涙目www
http://news23.2ch.net/test/read.cgi/news/1173860149/
ところで
>>472
なんかネタ落としてってw
ひろゆきを訴えたGJ会社員(35) 今度は毎日新聞を訴えてひろゆき涙目www
http://news23.2ch.net/test/read.cgi/news/1173860149/
2007/03/14(水) 20:48:05ID:e0bdMMl00
>>472 なるほど......となると,あとは memories 等に
どういう形で入れればいいか,またそれをどうやって read.cgi で
表示させるか,ってあたりですか.ぼちぼち考えてみます.
どういう形で入れればいいか,またそれをどうやって read.cgi で
表示させるか,ってあたりですか.ぼちぼち考えてみます.
XMLにしてjavascriptでincludeみたいなのって出来ないんでしたっけ?
2007/03/15(木) 05:01:15ID:VWGYvz9I0
>>475 XMLHttpRequest だと同一ドメイン(というか実質同一鯖)の制限がありますが,
JSON ならその制限なしで可能です.というか,read.html 用 I/F では今も JSON 的な
やり方でやってます.ただ,read.cgi だとブラウザ側の JavaScript の処理能力の不安があって......
JSON ならその制限なしで可能です.というか,read.html 用 I/F では今も JSON 的な
やり方でやってます.ただ,read.cgi だとブラウザ側の JavaScript の処理能力の不安があって......
1台、それ用のサーバを用意するかんじですかね。
memoriesのHDDに常時書き込み負荷をかけるのは、
できれば避けたいかも。
memoriesのHDDに常時書き込み負荷をかけるのは、
できれば避けたいかも。
478動け動けウゴウゴ2ちゃんねる
2007/03/15(木) 20:08:32ID:/5nJizMU0 findたまに重いとか話出るけど冗長化しなくて大丈夫なの
ふらだんすに振るとか
ふらだんすに振るとか
HDDの速度がはやいハードウェアをどこかから調達するといい感じなんですかね。
T-Bananaサーバーの実験を手伝うって名目でなんとかしてもらうとか、、
T-Bananaサーバーの実験を手伝うって名目でなんとかしてもらうとか、、
2007/03/15(木) 23:01:17ID:MBGNf4P70
名目て
大義名分ってやつですよ。えぇえぇ。
自己板の規制解除しなさい
2007/03/16(金) 06:49:26ID:2y/u3Gvi0
>>479 pc11 = T-banana なので >>431 ということで......
# そろそろ http://qb5.2ch.net/test/read.cgi/operate/1172208065/797 を
# やってもいい頃じゃないか,って気もしないではないですが......
>>480 さっそく http://qb5.2ch.net/test/read.cgi/operate/1172208065/913 がw
ただ,過去ログ用の HDD でほしいのは速度より容量なんですよね.
# むむむさんの >>477 の真意は,「HDD にダメージを与えず長持ちさせたい」ってことじゃないかと.
T-banana のようにディスク I/O の性能が高く,かつ RAM もたくさん積んであるマシンなら,
むしろ MySQL でデカいデータをがんがん扱う用途の方が向いてそうな気がしますね,個人的には.
# そろそろ http://qb5.2ch.net/test/read.cgi/operate/1172208065/797 を
# やってもいい頃じゃないか,って気もしないではないですが......
>>480 さっそく http://qb5.2ch.net/test/read.cgi/operate/1172208065/913 がw
ただ,過去ログ用の HDD でほしいのは速度より容量なんですよね.
# むむむさんの >>477 の真意は,「HDD にダメージを与えず長持ちさせたい」ってことじゃないかと.
T-banana のようにディスク I/O の性能が高く,かつ RAM もたくさん積んであるマシンなら,
むしろ MySQL でデカいデータをがんがん扱う用途の方が向いてそうな気がしますね,個人的には.
必要なHDD容量の算定からはじめてみますか。
2007/03/16(金) 19:36:54ID:2y/u3Gvi0
「各スレ単位で必要な容量 x 過去ログ発生速度」で,どれだけの期間持つか,てな感じですか.
データを .js のように直接表示できる形で保存するとサイズは大きくなるが CPU の仕事は少ない,
一方 CSV のような形で保存するとサイズは小さくなるが表示する際の CPU の仕事が増える,と.
まぁ CPU の仕事が増えるといっても,現状 p2.2ch.io 1台で全ライブスレの
getf.cgi 表示させてるぐらいなので,stiger を専用で割り当てるなら問題ないと思いますが.
ただ,各スレ単位でファイル作ると,HDD 消費はバイト単位でなくフラグメントサイズ単位になるんですよね.
HDD スペースの利用効率を向上させるには,1ファイルに複数のスレのデータを書き込んだ方がいいのか.
その代わり,必要なデータを検索する仕事が増えると.1ファイルに書き込みつつ
検索も効率的にするには......結局 MySQL を使うとかなるのかな.
データを .js のように直接表示できる形で保存するとサイズは大きくなるが CPU の仕事は少ない,
一方 CSV のような形で保存するとサイズは小さくなるが表示する際の CPU の仕事が増える,と.
まぁ CPU の仕事が増えるといっても,現状 p2.2ch.io 1台で全ライブスレの
getf.cgi 表示させてるぐらいなので,stiger を専用で割り当てるなら問題ないと思いますが.
ただ,各スレ単位でファイル作ると,HDD 消費はバイト単位でなくフラグメントサイズ単位になるんですよね.
HDD スペースの利用効率を向上させるには,1ファイルに複数のスレのデータを書き込んだ方がいいのか.
その代わり,必要なデータを検索する仕事が増えると.1ファイルに書き込みつつ
検索も効率的にするには......結局 MySQL を使うとかなるのかな.
freebsdのフラグメントサイズってどれくらいなんですか?
ひーさん2証なんとか汁><。
>>489
デフォルトでは16k(16384)ですね。
man newfs
...
-b block-size
The block size of the file system, in bytes. It must be a power
of 2. The default size is 16384 bytes, and the smallest allow-
able size is 4096 bytes. The optimal block:fragment ratio is
8:1. Other ratios are possible, but are not recommended, and may
produce poor results.
4k まで小さくできますが、あんまりおすすめしないかも。
デフォルトでは16k(16384)ですね。
man newfs
...
-b block-size
The block size of the file system, in bytes. It must be a power
of 2. The default size is 16384 bytes, and the smallest allow-
able size is 4096 bytes. The optimal block:fragment ratio is
8:1. Other ratios are possible, but are not recommended, and may
produce poor results.
4k まで小さくできますが、あんまりおすすめしないかも。
492 ◆Choco52.ko
2007/03/16(金) 23:27:05ID:qjJyqUxr0 専門な話題なので横槍!
フラグメントサイズはブロックサイズを8分の1したものがデフォルトで使われるので 2k(2048)バイト ではないかと。
newfs -b 16384 -f 2048 のように指定されているはずか、オプションなしのどちらかですね。
man newfs
-f frag-size
ファイルシステムのフラグメントサイズをバイト単位で指定します。
blocksize/8 から blocksize までの範囲の、2 のべき乗である必要があります。
デフォルトは 2048 バイトです。
フラグメントサイズはブロックサイズを8分の1したものがデフォルトで使われるので 2k(2048)バイト ではないかと。
newfs -b 16384 -f 2048 のように指定されているはずか、オプションなしのどちらかですね。
man newfs
-f frag-size
ファイルシステムのフラグメントサイズをバイト単位で指定します。
blocksize/8 から blocksize までの範囲の、2 のべき乗である必要があります。
デフォルトは 2048 バイトです。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【すき家】相次ぐ異物混入事態に謝罪&全店を一時閉店へ「大変重く受け止めております」 [香味焙煎★]
- マンションが実態不明の中国人オーナーに変更、急に家賃が7万円から19万円に値上げ、住人は悲鳴 画像あり ★2 [お断り★]
- 中孝介容疑者(44)「全く身に覚えがありません」容疑否認 [Anonymous★]
- プーチン大統領、NATOとの大戦準備―ドイツ連邦情報局(BND) ★2 [お断り★]
- 世界中の人達が「スタジオジブリ風」の画像作成を始める OpenAIアルトマンCEO「ジブリ風ができて大反響呼んでいる」「GPUが溶ける」 [お断り★]
- 【MLB】ドジャースが超劇的サヨナラ勝ちで4連勝!ベッツが決勝3ラン、大谷翔平も執念のヒット [鉄チーズ烏★]
- すき家「全店」を閉店へ😲 [861717324]
- 百田尚樹「敵国が攻めてきたら9条信者を前線に送る」 [834922174]
- 国際経済学者「日本人は消費税と仲良しになろう。財政の安定は幸せを呼びます」 [112181773]
- とんかつに直接ソースをぶっかけるジャップ、育ちが悪かった… [479913954]
- 同窓会に行ったことあるケンモメン、ほぼいない説 [786835273]
- お前らがすき家に期待している事