read.cgiの片隅に表示されている関連キーワードを
きちんとメンテナンスしてみようなスレッド。
関連キーワードをなんとかしようスレ
■ このスレッドは過去ログ倉庫に格納されています
2動け動けウゴウゴ2ちゃんねる
2006/12/17(日) 13:21:13ID:4jYrj3pWO 2get
3外出中 ◆MUMUMUhnYI
2006/12/17(日) 13:40:53ID:0jOWSCkU0 お、スレ来ましたか。
先日管理人からお誘いがきたです。
もう一人、超強力な人(仮名)が呼ばれている様子。
先日管理人からお誘いがきたです。
もう一人、超強力な人(仮名)が呼ばれている様子。
はろゆき
2006/12/17(日) 13:49:15ID:wNcpXAtu0
>>1 スレ立て乙です.
で,core 吐くのは何とかなったっぽいですが,Solaris の port_associate() / port_get() 前提に作ったのを
FreeBSD の kevent() に対応させた(つもりの)部分の動きが相変わらず怪しいと......<crawld
で,truss を使えるように(/proc をマウント?)してもらえると,デバッグがしやすいかなぁ,と......
Mozilla/5.0 (X11; U; SunOS i86pc; ja; rv:1.9a1) Gecko/20061128 Minefield/3.0a1
で,core 吐くのは何とかなったっぽいですが,Solaris の port_associate() / port_get() 前提に作ったのを
FreeBSD の kevent() に対応させた(つもりの)部分の動きが相変わらず怪しいと......<crawld
で,truss を使えるように(/proc をマウント?)してもらえると,デバッグがしやすいかなぁ,と......
Mozilla/5.0 (X11; U; SunOS i86pc; ja; rv:1.9a1) Gecko/20061128 Minefield/3.0a1
7es ◆MUMUMUhnYI
2006/12/17(日) 14:02:29ID:EyZpTx1c0 で、/proc を mount する作業についても、
帰宅後に進めるです。
帰宅後に進めるです。
2006/12/17(日) 19:56:03ID:vlTtZt4FQ
専ブラや携帯でも習得できるといいな
>>7 done.
■ これまでのまとめ
2006年の4月頃、read.cgi の出力の上のほうに「関連キーワード」を
表示する機能を、管理人がつけました。
http://qb5.2ch.net/operate/kako/1145/11456/1145615267.html の 490-
プログラムは管理人が作成したプロトタイプ版でした。
まずプロトタイプ版で動かし将来よくしていこう、という目論見だったようです。
http://qb5.2ch.net/operate/kako/1145/11456/1145615267.html の 496
現在でもこの機能は、一部サーバで動いています。
* 全サーバでの動作はさせていません(負荷問題)
* 負荷軽減のため21時から2時まではリクエストの処理をしていません(同上)
また、事情により最近立ったスレッドではこの機能は動いていないそうです(by 管理人)
* キーワード【準備中】 になっているもの
このような状況の中、管理人からSunOSさんと私に、
「これ、やってみませんかー」というオファーが来ました。
そして、相談の結果、オファーを受けてみることとしました。
2006年の4月頃、read.cgi の出力の上のほうに「関連キーワード」を
表示する機能を、管理人がつけました。
http://qb5.2ch.net/operate/kako/1145/11456/1145615267.html の 490-
プログラムは管理人が作成したプロトタイプ版でした。
まずプロトタイプ版で動かし将来よくしていこう、という目論見だったようです。
http://qb5.2ch.net/operate/kako/1145/11456/1145615267.html の 496
現在でもこの機能は、一部サーバで動いています。
* 全サーバでの動作はさせていません(負荷問題)
* 負荷軽減のため21時から2時まではリクエストの処理をしていません(同上)
また、事情により最近立ったスレッドではこの機能は動いていないそうです(by 管理人)
* キーワード【準備中】 になっているもの
このような状況の中、管理人からSunOSさんと私に、
「これ、やってみませんかー」というオファーが来ました。
そして、相談の結果、オファーを受けてみることとしました。
■ これまでにすすめたこと
・先日管理人・SunOSさん・私の3人でオフラインで会い、現在の状況の確認をしました。
(管理人が手ずからペンとスケッチブックを持ってきて、絵を描いて説明しました)
・このためのサーバを2台準備し、私がインフラ部分の基本環境を作りました。
p2.2ch.io と c2.2ch.io になります。
・管理人が今日、このスレを立てました。
そんなわけで例によって、表でわいわいやっていくことになりました。
・現在 SunOS さんが中身の開発をすすめているところです。
というわけでどんな構想で作っておられるか等については、
ぼちぼちとここでやっていくのがいいのかなと思います。
例によって今後進めていく作業者間の作業連絡等も、
表ででやれるところについては(パスワードとかセキュリティ関係じゃないものとか)、
ここでやっていけるといいのかなと。
こんなところで。
・先日管理人・SunOSさん・私の3人でオフラインで会い、現在の状況の確認をしました。
(管理人が手ずからペンとスケッチブックを持ってきて、絵を描いて説明しました)
・このためのサーバを2台準備し、私がインフラ部分の基本環境を作りました。
p2.2ch.io と c2.2ch.io になります。
・管理人が今日、このスレを立てました。
そんなわけで例によって、表でわいわいやっていくことになりました。
・現在 SunOS さんが中身の開発をすすめているところです。
というわけでどんな構想で作っておられるか等については、
ぼちぼちとここでやっていくのがいいのかなと思います。
例によって今後進めていく作業者間の作業連絡等も、
表ででやれるところについては(パスワードとかセキュリティ関係じゃないものとか)、
ここでやっていけるといいのかなと。
こんなところで。
よろしくです。よろしくです。
2006/12/18(月) 00:52:19ID:mIMTUYYw0
あんまりガンガリ過ぎない程度にね、、、
SunOS さんからの依頼により、
[cp]2.2ch.io の libcurl を 7.16.0 に更新しました。
[cp]2.2ch.io の libcurl を 7.16.0 に更新しました。
>>9-11,15 乙です.
>>12-13 よろしくです.
構想については管理人さんから大枠が示されていまして
シード: 取得する Web ページの URL を保持し,それをクローラに渡す
↓
クローラ: 渡された URL のコンテンツを取得する
↓
パーサ: コンテンツから特徴的なキーワードを抽出する
↓
インデクサ: URL とキーワードの対応テーブルを DB として保持する
フロントエンドからは,まずそのスレに対応するキーワードデータがすでに DB に存在するか調べ,
あればそのキーワードを使用し,なければシードに URL を渡して上記の処理を行う,と.
で,/proc をマウントしてもらったおかげで truss が使えるようになり,
かなりデバッグがやりやすくなりました.で,crawld(=クローラ)もだいぶ安定してきたかな.
usage: crawld [-fh] [-b host] [-d datadir] [-i interval] [-o unixfile] [-p port] [-s statfile] [-u useragent]
-b host: bind UDP socket to this host [0.0.0.0]
-d datadir: directory for fetched files [/var/crawld]
-f: run in foreground
-h: this help
-i interval: interval(sec) for a same host [3]
-o unixfile: output filenames to this unix domain socket [none]
-p port: bind UDP socket to this port [9606]
-s statfile: dump statistics to statfile on SIGUSR1 [/dev/null]
-u useragent: set User-Agent request header [none]
シードからは,crawld が待ち受けしてる UDP ポートに URL を投げ入れると,
そのページのコンテンツを取得しデータディレクトリ配下に格納します.
crawl.pl という Perl スクリプトを使えば,コマンドラインから URL を渡せます.
usage: crawl.pl URL [URL ...]
or
crawl.pl <file_of_URLs
-o オプションを使うと,取得したコンテンツが格納されているファイル名を Unix ドメインソケット経由でパーサに渡すことができます.
-i オプションのインターバルは同一ホストに対するもので,別ホストに対してはインターバル指定にかかわらず即時取得します.
2ch 限定で使う分には,とりあえずインターバルを 0 にしてもいいかもですが.
並列度は,URL をどんどん放り込めば,理論上は1プロセスあたりの fd 数の限界に達するまで増えて逝きます.
ただし,同一ホストに対するリクエストは Keep-Alive を有効利用できるように直列化されます.
んで,crawld の次はパーサになるわけですが......キーワードの妥当性チェックのために
Google に問い合わせてヒット数で判断するということが言われてるのですが,
外部のサービスに依存する形になるのはちと危うさがあるかな,という懸念が個人的には......
クローリングしたデータから自前で単語のヒット数のようなデータを蓄積するとか,
自前で完結できる形でできないかなぁ,とも......
>>12-13 よろしくです.
構想については管理人さんから大枠が示されていまして
シード: 取得する Web ページの URL を保持し,それをクローラに渡す
↓
クローラ: 渡された URL のコンテンツを取得する
↓
パーサ: コンテンツから特徴的なキーワードを抽出する
↓
インデクサ: URL とキーワードの対応テーブルを DB として保持する
フロントエンドからは,まずそのスレに対応するキーワードデータがすでに DB に存在するか調べ,
あればそのキーワードを使用し,なければシードに URL を渡して上記の処理を行う,と.
で,/proc をマウントしてもらったおかげで truss が使えるようになり,
かなりデバッグがやりやすくなりました.で,crawld(=クローラ)もだいぶ安定してきたかな.
usage: crawld [-fh] [-b host] [-d datadir] [-i interval] [-o unixfile] [-p port] [-s statfile] [-u useragent]
-b host: bind UDP socket to this host [0.0.0.0]
-d datadir: directory for fetched files [/var/crawld]
-f: run in foreground
-h: this help
-i interval: interval(sec) for a same host [3]
-o unixfile: output filenames to this unix domain socket [none]
-p port: bind UDP socket to this port [9606]
-s statfile: dump statistics to statfile on SIGUSR1 [/dev/null]
-u useragent: set User-Agent request header [none]
シードからは,crawld が待ち受けしてる UDP ポートに URL を投げ入れると,
そのページのコンテンツを取得しデータディレクトリ配下に格納します.
crawl.pl という Perl スクリプトを使えば,コマンドラインから URL を渡せます.
usage: crawl.pl URL [URL ...]
or
crawl.pl <file_of_URLs
-o オプションを使うと,取得したコンテンツが格納されているファイル名を Unix ドメインソケット経由でパーサに渡すことができます.
-i オプションのインターバルは同一ホストに対するもので,別ホストに対してはインターバル指定にかかわらず即時取得します.
2ch 限定で使う分には,とりあえずインターバルを 0 にしてもいいかもですが.
並列度は,URL をどんどん放り込めば,理論上は1プロセスあたりの fd 数の限界に達するまで増えて逝きます.
ただし,同一ホストに対するリクエストは Keep-Alive を有効利用できるように直列化されます.
んで,crawld の次はパーサになるわけですが......キーワードの妥当性チェックのために
Google に問い合わせてヒット数で判断するということが言われてるのですが,
外部のサービスに依存する形になるのはちと危うさがあるかな,という懸念が個人的には......
クローリングしたデータから自前で単語のヒット数のようなデータを蓄積するとか,
自前で完結できる形でできないかなぁ,とも......
自前で完結するとなると全体のデータの中の単語量を調べるってので、
なんとかなるかもかも。
でも、ある程度大きな規模のデータがないと
結果に偏りが出ると思います。
なんとかなるかもかも。
でも、ある程度大きな規模のデータがないと
結果に偏りが出ると思います。
2006/12/18(月) 19:03:41ID:VjfjyBvg0
人が少ないスレ・板だと、やっぱり恥ずかしい思いをすることになるのかな。
>>17 ですねぇ.最初のうちしばらくは,キーワード表示はせず単語データ収集のためだけに動かすとか......
で,クローラをがんがん動かすことになると,バーボンに引っかからないようにしてもらった方がいいのかも.
あと,DB (MySQL) もぼちぼち立ち上げてもらった方がいいのかも.
で,クローラをがんがん動かすことになると,バーボンに引っかからないようにしてもらった方がいいのかも.
あと,DB (MySQL) もぼちぼち立ち上げてもらった方がいいのかも.
全体の単語量を調べるのであれば、Ngramのsennaとか入れたほうがいいかもです。
>MySQL
>MySQL
>>20
あとでみてみるです。
あとでみてみるです。
MySQLを覚えるいい機会が出来てなによりです。
えぇえぇ。
えぇえぇ。
2006/12/18(月) 19:41:46ID:RjC/hzvl0
発想が前向きですね
>>19
サーバは、p2/c2 どちらで上げましょうか。
サーバは、p2/c2 どちらで上げましょうか。
>>27 そうですねぇ......とりあえず p2 の方でおながいします.
>>29 急ぎではないので,ゆっくりでいいです.
試しにクローラ部分だけぶん回す実験をちょっとしてみようとか思ったりも
するんですが,今 read.cgi 画面から読み込まれてる p.2ch.io のやつを
p2.2ch.io に変えちゃったりしてもいいんですかね?
あと,c2.2ch.io をバーボン対象から外さないと引っかかる可能性も
あるかも知れないですが,外してもいいんですかね?
それと......[cp]2.2ch.io には LAN セグメントは1つしかつながってないようですが,
[cp]2.2ch.io 同士のやりとりのためにプライベートアドレスを論理 I/F というか
alias で付与するとかは可能なんですかね......?
するんですが,今 read.cgi 画面から読み込まれてる p.2ch.io のやつを
p2.2ch.io に変えちゃったりしてもいいんですかね?
あと,c2.2ch.io をバーボン対象から外さないと引っかかる可能性も
あるかも知れないですが,外してもいいんですかね?
それと......[cp]2.2ch.io には LAN セグメントは1つしかつながってないようですが,
[cp]2.2ch.io 同士のやりとりのためにプライベートアドレスを論理 I/F というか
alias で付与するとかは可能なんですかね......?
>>31
> 今 read.cgi 画面から読み込まれてる p.2ch.io のやつを
> p2.2ch.io に変えちゃったりしてもいいんですかね?
様子を見ながらなら、いいんではないでしょうか。
> c2.2ch.io をバーボン対象から外さないと引っかかる可能性も
> あるかも知れないですが,外してもいいんですかね?
リロードバーボンですね。
心配要らないはず。理由は別途メールででも。
> プライベートアドレスを論理 I/F というか
> alias で付与するとかは可能なんですかね......?
できるはず。
ちょっとトライしてみます。
> 今 read.cgi 画面から読み込まれてる p.2ch.io のやつを
> p2.2ch.io に変えちゃったりしてもいいんですかね?
様子を見ながらなら、いいんではないでしょうか。
> c2.2ch.io をバーボン対象から外さないと引っかかる可能性も
> あるかも知れないですが,外してもいいんですかね?
リロードバーボンですね。
心配要らないはず。理由は別途メールででも。
> プライベートアドレスを論理 I/F というか
> alias で付与するとかは可能なんですかね......?
できるはず。
ちょっとトライしてみます。
というか、、、。
p2 と c2 の間の通信って、多くなりそうなのかしら。
それなら 100Mbps に I/F を変更してもらったほうがいいのかなと。
p2 と c2 の間の通信って、多くなりそうなのかしら。
それなら 100Mbps に I/F を変更してもらったほうがいいのかなと。
>>32-33 乙です.
>リロードバーボンですね。
>心配要らないはず。理由は別途メールででも。
あ,そうだったんですか.
>p2 と c2 の間の通信って、多くなりそうなのかしら。
とりあえず思い付くものとして
・ p2 から c2 にクロールすべき URL を投げる.
・ c2 から p2 にレコード登録のための MySQL のクエリーを投げる.
これらがどの程度か,ってところですかねぇ......
>リロードバーボンですね。
>心配要らないはず。理由は別途メールででも。
あ,そうだったんですか.
>p2 と c2 の間の通信って、多くなりそうなのかしら。
とりあえず思い付くものとして
・ p2 から c2 にクロールすべき URL を投げる.
・ c2 から p2 にレコード登録のための MySQL のクエリーを投げる.
これらがどの程度か,ってところですかねぇ......
[cp]2 にプライベートアドレスを振りました。
いくつを振って、それがどのような名前で参照できるかは、
セキュリティ上ここでは書かないので、
すみませんが該当サーバの /etc/hosts あたりを見ていただけると。
いくつを振って、それがどのような名前で参照できるかは、
セキュリティ上ここでは書かないので、
すみませんが該当サーバの /etc/hosts あたりを見ていただけると。
>>34
> あ,そうだったんですか.
というか、管理人が自らのためにやるもの(ブラジル等)については、
そもそもリロードバーボンの対象外にする(している)という話ですね。
> とりあえず思い付くものとして
> ...
> これらがどの程度か,ってところですかねぇ......
統計とってみるですかね。
これは別途。
> あ,そうだったんですか.
というか、管理人が自らのためにやるもの(ブラジル等)については、
そもそもリロードバーボンの対象外にする(している)という話ですね。
> とりあえず思い付くものとして
> ...
> これらがどの程度か,ってところですかねぇ......
統計とってみるですかね。
これは別途。
>>35 乙です,確認しますた.
http://p2.2ch.io/getf.cgi?http://qb5.2ch.net/test/read.cgi/operate/1166328527/l50
のように呼ぶと crawld に dat の URL 投げるようにしますた.
さて,やってみるかな......<read.cgi 画面から読み込み
のように呼ぶと crawld に dat の URL 投げるようにしますた.
さて,やってみるかな......<read.cgi 画面から読み込み
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- フジテレビCM差し替え50社超 「不買につながる」★7 [ひかり★]
- 【中居正広問題】フジテレビCM差し止め拡大 サントリー、アサヒ、ホンダ、明治、ライオンなど50社超に ★8 [Ailuropoda melanoleuca★]
- 立花孝志氏「間違いでございました」元兵庫県議の死を巡る発言で謝罪 情報のソースは「2つ」だった [七波羅探題★]
- 中居正広の女性トラブルはフジだけではない、現役プロデューサーが明かす「各局で起こる上納トラブル」の実態 復活のカギは『SMAP再始動』 [Ailuropoda melanoleuca★]
- 来日中のブリンケン米国務長官に中指を立て「Fuck You!!」叫んだ赤いパーカーの男性、解雇 会社の車で逃走 豊洲市場内の青果卸売 [お断り★]
- フジ37歳男性アナ、生放送で涙の叫び「13年1度も辞めたいと思ったことない、好きな会社を…」★3 [シコリアン★]
- 【実況】しぐれういのえちえちこより専用凸待ち🌂🧪 ★2
- 【実況】しぐれういのえちえちこより専用凸待ち🌂🧪
- 【悲報】アメリカ人「アメコミとマンガの違いがこれ(笑)」👉10万いいね [269899796]
- ホロライブ総合スレ🥰
- 総務省幹部「フジテレビの電波停止を求める声がありますが、法律に処分する根拠はない。処分はできない」 [256556981]
- 誰でも簡単にゲーミングPCのグラボを静かにする方法教える