X



datをUTF8にするのはどうだろうスレッド

■ このスレッドは過去ログ倉庫に格納されています
1ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 13:13:09ID:???0?S★(1017889)
datをUTF8にするのはどうだろうスレッドです。

影響があるのは、AA周りすかねぇ。
168動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 14:56:49ID:xTlUCmvY0
キャー
169動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 14:58:08ID:7ll30m+t0
きたわー
2008/04/13(日) 15:03:15ID:kxv6NZZS0
やっぱりやるのorz
2008/04/13(日) 15:04:59ID:0XvMalSq0
やるのか・・・

いろいろ書き変えなきゃだから面倒なんだよなー
2008/04/13(日) 15:05:56ID:kVyyRmgi0
クライアント殺しですな
2008/04/13(日) 15:07:16ID:kxv6NZZS0
転送量もうp
2008/04/13(日) 15:14:22ID:tJNqLDKd0
>>167
まずはvipで実験とか無いの?
2008/04/13(日) 15:15:08ID:tJNqLDKd0
まずはvipで実験
2008/04/13(日) 15:18:33ID:rvnAmOzj0
UTF-8板を作ればいいじゃない
2008/04/13(日) 15:30:12ID:VH1s+Zc80
じゃあ、それでー
2008/04/13(日) 15:33:51ID:aGQDXiog0
ったく、どこもかしこもAjaxだな・・・
2008/04/13(日) 15:35:34ID:a9sD+1fd0?2BP(0)
勝手にどうぞ
2008/04/13(日) 16:12:18ID:ScidMAOk0
>>167
削除のスクリプト
復帰のスクリプト
bbs.cgi
read.cgi
offlaw.cgi
f22
バーボン

すべて自分で直すのならやってもいいよ
2008/04/13(日) 16:37:09ID:q0zHxcQA0
トリップは変えないでね
2008/04/13(日) 17:29:42ID:bUtMGTU00
>>180
datの文字コード変えても、F22とかバーボンには影響出ないんでないかい?
2008/04/13(日) 17:31:03ID:ScidMAOk0
>>182
F22はキャップかどうかを区別してdat落ちされる機能があったような
バーボンは関係無かったかも
2008/04/13(日) 17:31:22ID:dlOra1gw0
Firefoxに目覚めたりUnicodeに目覚めたりひろゆきも大変だな
今度は鯖を全部lighttpdにしろとか言い出したりして
2008/04/13(日) 18:12:51ID:bQzKPqzI0
>>184
OSをLinuxにしろというのが先な気ガス
2008/04/13(日) 18:39:47ID:tkOSp5550
>>184
現状に満足してなにもしないひろゆきなんてひろゆきじゃない
2008/04/13(日) 18:44:14ID:q0zHxcQA0
トリップはどうすんのー?
2008/04/13(日) 18:47:33ID:v+chTub70
http://qb5.2ch.net/operate/kako/1101/11010/1101003269.html

172 :ひろゆき@どうやら管理人 ★ [] :04/11/21 16:00:50 ID:???
トリップに全角を使うのは間違いですよ。うむうむ。
2008/04/13(日) 19:27:09ID:tNpHuAU40
この際だからトリップも変えたらー
もう8完程度は数ヶ月で出るレベルだろ
2008/04/13(日) 19:28:41ID:B/AZbDKM0
「その理屈はおかしい」
     ,. -──- 、
    /   /⌒ i'⌒iヽ、
   /   ,.-'ゝ__,.・・_ノ-、ヽ
   i ‐'''ナ''ー-- ● =''''''リ      _,....:-‐‐‐-.、
  l -‐i''''〜ニ-‐,.... !....、ー`ナ      `r'=、-、、:::::::ヽr_
   !. t´ r''"´、_,::、::::} ノ`     ,.i'・ ,!_`,!::::::::::::ヽ
   ゝゝ、,,ニ=====ニ/r'⌒;   rー`ー' ,! リ::::::::::::ノ
    i`''''y--- (,iテ‐,'i〜´ゝ''´    ̄ ̄ヽ` :::::::::::ノ
    |  '、,............, i }'´       、ー_',,...`::::ィ'
 ●、_!,ヽ-r⌒i-、ノ-''‐、    ゝ`ーt---''ヽ'''''''|`ーt-'つ
    (  `ーイ  ゙i  丿   ;'-,' ,ノー''''{`'    !゙ヽノ ,ヽ,
    `ー--' --'` ̄       `ー't,´`ヽ;;;、,,,,,,___,) ヽ'-゙'"
                   (`ー':;;;;;;;;;;;;;;;ノ
                    ``''''''``'''''´
2008/04/13(日) 19:56:00ID:yLuJOOIH0
>>185
それはかなりの確率でないと思うよ
2008/04/13(日) 20:43:48ID:so96GoL1P?2BP(6000)
Unicodeは?
2008/04/13(日) 21:07:18ID:NAu5wA4u0
これは・・・
2008/04/13(日) 21:16:16ID:pyJ0SWQN0
UTF-16じゃなくてUTF-8にしたのは理由があるの?
UTF-8の方が優れてるのか?
2008/04/13(日) 21:22:17ID:sI/zeL780
>>180
丁稚どんが、なかまに入りたそうにこちらを見ています。
2008/04/13(日) 21:22:46ID:5qNEkOKV0
utf-16だと正義の報告スレや芋掘りスレがすぐ500KB行くな
197ひろゆき@どうやら管理人 ★
垢版 |
2008/04/13(日) 22:49:56ID:???0?S★(1017890)
http://money6.2ch.net/
も特殊事情すか?
2008/04/13(日) 22:51:16ID:ScidMAOk0
>>197
ただ単に忘れられているだけでしょ
199ひろゆき@どうやら管理人 ★
垢版 |
2008/04/13(日) 22:58:57ID:???0?S★(1017890)
うひょ
2008/04/13(日) 22:59:21ID:snz6m59l0
1回read.cgi全停止して負荷のテストしようよ。
労力をかけてread.jsを広める価値があるか見極めよう。
201動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 22:59:32ID:fzCQaRPH0
>>194
優れている。ASCII互換。
2008/04/13(日) 23:17:20ID:79W2bbXw0
utf-8に移行したほうがいいよ。
eucとかsjisを使う時代じゃねえしな
ajaxでクライアントサイドでもっとおもしろいことをやってほしいな
質問。開発には名無しで参加できないの?
2008/04/13(日) 23:19:06ID:KIagsko40
開発っていうのかな。これ。
どっちかと言うとメンテナンスに近いような。

Ajaxの作成なら面白ければ採用されるかもね。
204動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:20:42ID:DYHqJMaE0
何だか>>202からプロフェッショナルなニオイがします クンクン
2008/04/13(日) 23:22:32ID:azBiCliC0
素人騙すのは簡単なんだな
2008/04/13(日) 23:26:29ID:TVTorZbK0
プロフェッショナルな方なら優れた点だけじゃなくて
互換性や移行することで起こるデメリットもちゃんと考えてもらいたいものですね
2008/04/13(日) 23:37:27ID:4GGbGOj50
>>200
同意。
転送サイズが増えることで、当然圧縮負荷が増えるわけだから
本当にメリットがあるのか判断すべきだよね。
2008/04/13(日) 23:44:08ID:DM/v/XWgP
目先のシステム負荷だけじゃなく
翻訳機能を付ける(スポンサーが増えるよ?)
とか、展望があるなら賛成だけはさせて貰います。
209
垢版 |
2008/04/13(日) 23:46:31ID:Cf1nArvr0
2ちゃんねるなんて意味不明の文字列が多いのに
翻訳したらどうなるのかな?
210動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:50:18ID:yiqhMaUM0
ひねくれてUTF-16にしようぜ
2008/04/13(日) 23:51:04ID:DM/v/XWgP
学問、政治系などはOK。
それなりに意味はあると思う。
2008/04/13(日) 23:54:06ID:sI/zeL780
どうしても「あやっくす」と読んでしまいます(照)>ajax
213
垢版 |
2008/04/13(日) 23:56:04ID:Cf1nArvr0
そうか文系は効果ありそうだね。
面白そうではあるけど。
海外ドメイン規制が行われている昨今、海外進出?
それとも在日ターゲットかしら、、、
2008/04/13(日) 23:56:32ID:yLuJOOIH0
BBS_UNICODE=changeのおかげでシリア語ブラクラ投稿や変な文字使ったAAが
投稿できなかった板も再びそれらで汚染されていくのかね
215動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:58:16ID:fzCQaRPH0
>>214
別にシリア文字は個別に表示できないようにすればいいだけ
216root▲▲ ★
垢版 |
2008/04/13(日) 23:58:32ID:???0?DIA(100256)
UTF-8 にする、ということは、
いわゆるCJKじゃないやつも書けるわけで(何もチェックしないなら)、

とここまで書いて思ったのは、
SETTING.TXT でやるのが、専用ブラウザ的にも bbs.cgi 的にも
いいのかもしんないですね。

BBS_UNICODE=utf-8 とか。
217動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 00:01:22ID:fzCQaRPH0
>>216
普通にHTMLヘッダでcharset=UTF-8 じゃダメなの?
2008/04/14(月) 00:04:13ID:yLuJOOIH0
>>215
自分は専用ブラウザであぼーんするからいいけど
IEでread.html使っててひっかかるのが嫌な場合
フォント削除するしか対策法ないよね
2ch側ではじいてくれるならいいが
219stream ◆PNstream2s
垢版 |
2008/04/14(月) 00:05:19ID:lljZ5hxu0
必要性って言うなら
わざわざ日本語の文字に限定する必要性もないし
220root▲▲ ★
垢版 |
2008/04/14(月) 00:06:37ID:???0?DIA(100256)
>>217
いや、内部処理的にって話で。
221root▲▲ ★
垢版 |
2008/04/14(月) 00:07:47ID:???0?DIA(100256)
今自分の環境が SJIS 環境なのか UTF-8 環境なのか、
cgi の内部でわかるといいっていう話です。

いろんな方法が考えられるんでしょうけど、
SETTING.TXT に入れるというのは、そのうちの一つということで。
2008/04/14(月) 00:09:19ID:JRpRJhxcO
2chの場合はメリットよりデメリットの方が多いのではないか?
専ブラ対応とか以前に黒山羊とか。日本の携帯はしばらく(短くても4〜5年?)はSJISメインだし。
SJISの仕様のいい加減さもそれに合わせた実装の厄介さも知ってるけど、今は動きにくいよ。
特に携帯がなぁ…。

そのへんどうなのよ?
2008/04/14(月) 00:11:34ID:GcHpuStD0
全然関係ないんだがそういえば最近メリットってシャンプーみかけなくなったな
224stream ◆PNstream2s
垢版 |
2008/04/14(月) 00:12:23ID:N0GpEYGp0
>>216>>221
Shift_JISのままにしておく板と
UTF-8にする板が混在するってことですか?
225root▲▲ ★
垢版 |
2008/04/14(月) 00:13:00ID:???0?DIA(100256)
YahooがこないだEUC-JPからUTF-8に変わったんでしたっけ。
Wikipediaは最初からUTF-8か。

PCのほうはUTF-8でも今や割と大丈夫かなと。
何せ日本のPCの6割ぐらいは、スタートページがYahooらしいんで。

携帯サイトとかはどうなんだろう。
そのままUTF-8出して大丈夫なんだっけか。
226root▲▲ ★
垢版 |
2008/04/14(月) 00:14:11ID:???0?DIA(100256)
>>224
そうなるかどうかよくわからないけど、
少なくともbbs.cgiとかは両方対応にしておきたい気がしますね。
直感だけですけど。
2008/04/14(月) 00:14:56ID:IXMEQBy50
>>223
メリットの弱酸性は地肌に悪いらしいぞ
頭皮が心配な方は要注意
2008/04/14(月) 00:15:39ID:groaCB79P
>>225
http://miniturbo.org/2006/12/29/034842
最近のは対応してるみたいですね
2008/04/14(月) 00:15:49ID:JHhdwy/60
うーむ・・・確かに変更にはかなりの手間がかかることが予想されるが・・・
今後を見据えると、sjisもそのうち廃れるかなぁ

だが問題は、utf8に変えて5年ぐらいたった後にUnicodeの次の規格とかが現れはしないか、ということだ
2008/04/14(月) 00:16:40ID:+XpIpRG20
そのまえに2ちゃんが・・・w
231root▲▲ ★
垢版 |
2008/04/14(月) 00:18:03ID:???0?DIA(100256)
>>229
UTF-8は単なる「エンコーディング方式」であって、
Unicodeの規格は常にバージョンアップしているんではないかなと。

つい先だっても、Unicode 5.1が出たばっかり。
確か1000文字以上追加されたんじゃなかったっけか。
232動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 00:18:22ID:ijHQs/T00
>>229
>だが問題は、utf8に変えて5年ぐらいたった後にUnicodeの次の規格とかが現れはしないか、ということだ

現れない。万が一現れたところで絶対に普及しない。
233
垢版 |
2008/04/14(月) 00:21:15ID:Wz1y+uBn0
>>225
私の自宅サーバはUTF-8仕様です。
携帯からもアクセスしてます。
234root▲▲ ★
垢版 |
2008/04/14(月) 00:23:10ID:???0?DIA(100256)
あと直感的にUTF-8にする場合、
これに注意、ってかんじですかね。

http://www.wdic.org/w/WDIC/Unicode%20Directory%20Traversal
2008/04/14(月) 00:27:45ID:5Zy1uAAsO
auの場合はGWでtext/から始まるMIMEは自動的にSJISに変換するよ
2008/04/14(月) 01:16:03ID:jFRZTMlU0
これはタラコの罠だぞ
2008/04/14(月) 01:57:02ID:GnyASzU20
>>229
Unicodeが改定されたところで
符号化方式であるUTF-8には関係ない
238ミ(゚θ゚)彡
垢版 |
2008/04/14(月) 02:11:31ID:refxpzT5O
http://portable.blog.ocn.ne.jp/t/typecast/168237/172389/show_image/tate.jpg?src=http://suzukiq.blog.ocn.ne.jp/photos/uncategorized/tate.jpg
2008/04/14(月) 02:21:40ID:uJeEyM4Q0
まずは文字集合と符号化方式の違いからお勉強しようか
2008/04/14(月) 11:06:42ID:UqZJCtMn0
datをxml化するのもひとつの手だと思う。たた>>86の指摘もあるので、やるんなら

<?xml version='1.0' encoding='UTF-8'?>
<2ch:dat>
<2ch:post time="">
 <2ch:name value="" id="" be="" />
<2ch:msg>ほげ</2ch:msg>
</2ch:post>
<2ch:post time="">
 <2ch:name value="" id="" be="" />
<2ch:msg>あげ</2ch:msg>
</2ch:post>
</2ch:dat>

みたいな形でしょうね・・・。
2008/04/14(月) 12:24:07ID:uS+Zg9fZ0
今はdatにレスを追加する時
動け動けウゴウゴ2ちゃんねる<>sage<>2008/04/14(月) 02:21:40 ID:uJeEyM4Q0<> まずは文字集合と符号化方式の違いからお勉強しようか <>
を単純に追加すれば良かったが、xmlならそうはいかないんだよね
単純に追加するのとxmlを再構築するのにどれくらい処理時間/処理能力に差があるのかしらん
2008/04/14(月) 13:18:19ID:UqZJCtMn0
XML化のメリット?

・beのようなdatに書く性格の機能追加対応が容易
・クライアント側にパースレンダリングを投げられるため、当該部分のストリーム転送だけで済むので負荷が減る
・ディスク追記のタイミングを非同期に出来る(ライブスレッドは基本オンメモリで)
2008/04/14(月) 13:53:08ID:8lP9ZWi10
XML文書にすると、<>区切りよりはるかにサイズがでかくなってしまうよ(´・ω・`)。
だけど、一度に読み込んでメモリ上にDOM展開できるから、いろんな抽出や
編集処理はし易くなるね。
2008/04/14(月) 14:02:25ID:UqZJCtMn0
XML採用の最大のデメリットはメモリとディスク容量の問題(UTF8化と含めて約3倍ぐらい)ですね。
とはいえ、UTF8化だけでも512KBリミッターが確実に問題になるので、そのへんをひろゆきがどうしたいか次第でしょうね。

ちなみにUTF8化は2chが抱える2つの問題の解消も図れます。

・read.js使用が容易になる
・UTF-8系がデフォであるトラックバックの文字化け解消

2008/04/14(月) 16:06:00ID:uW55yU790
>>244 上の方で書いたことではあるんですが,少なくとも現状では
read.js 利用上 Shift JIS が問題になっているということはほとんどないですし,
逆に UTF-8 にすれば read.js の抱える問題が目に見えて改善されるということもないと思います
(read.js の抱える問題はむしろ別のところにある,と >>36).

まぁ,read.js 云々とは別の観点(国際化とか)からは検討の価値はあるかも,
というところだとは思いますが.
2008/04/14(月) 18:15:41ID:0Ly6tNjI0
新鯖追加のついでに外人用鯖、板でも作ったりする?w
新規の外人なら専ブラ使わないし。

GLの英語化とか必要だろうし、削除とか大変そうだけど。。
2008/04/14(月) 20:19:09ID:X9wUUlTC0
>>240
名前空間接頭辞の最初の文字に数字は使えません
2008/04/14(月) 20:24:11ID:groaCB79P
>>244
トラックバックってもうないだろ・・・
2008/04/14(月) 20:25:15ID:40B7tu6Z0?2BP(920)
2008/04/14(月) 20:26:27ID:40B7tu6Z0
誤爆申し訳ない。
ところで誤爆ついでに質問なのだが、トリップなどは正常に今までどおり機能するの?
どこかでトリップが云々って聞いたんですがー
2008/04/14(月) 21:03:30ID:r1BeOitr0
昔のbe板みたいに
トリップの互換性はなくなるねぇ
2008/04/14(月) 21:06:25ID:xJ37E6qd0
酉は酉屋さんで♪
tu-kaもう既に改定案はまとまっていたりしちゃったりしてたんだっけ?
2008/04/14(月) 21:45:09ID:eoQYvWuF0
>>252
まとまってないというか、人大杉解除&鯖新設で急ぐ必要が無くなって
しまったので停滞中と言うか。

究極的に >>65が目的ならその内また必要性が湧いてくるのだろうけど。
2008/04/14(月) 21:48:17ID:KR/tGomC0
旧be板みたいに別のサーバに別のbbs.cgiを入れて、
テスト鯖作ればいいんじゃないですか。
snow.2ch.netみたいな実験サーバ扱いで。

実験板で最低限の動作確認したら、
VIPなりν速なり狼なりを入れればいいんだし。
それで問題なければ、サーバリフレッシュ工事でどんどん移転していくと。
2008/04/14(月) 22:10:16ID:30U21/ag0
そういや find.2ch.net ってEUCだったっけ?
2008/04/14(月) 22:20:53ID:cCOFpiLP0?PLT(12346)
be.2ch.netもEUCだったような・・・?
2008/04/14(月) 22:31:23ID:KR/tGomC0
/dat/1234567890.dat ←従来のdat
/utf/1234567890.utf ←UTF-8なdat
って感じでUTF-8なdatは別フォルダに置くのもありかもね
2008/04/14(月) 22:50:19ID:aKkJUmqR0
Unicode使うと海外とかからのロボット爆撃が激しくなるなんてことないよね…?
EUC-JPやUTF-8は海外でも分かりやすい規格だけど
Shift_JISって日本のみで使われてるんだよね…?
2008/04/14(月) 22:50:44ID:eOGH3P2Y0
いっちょ鯖負荷テストの精鋭、VIPPERにテストをお願いしてみては
2008/04/15(火) 00:47:03ID:Ccobbv9t0
>>257
dat容量が単純に倍(orそれ以上)になるのはHDD容量的にきつくないか?
2008/04/15(火) 00:56:05ID:42mEP3AY0
書き込みコストも倍(最大)だぜ
2008/04/15(火) 01:53:14ID:x33BRSyR0
SJIS以外のコードにすると携帯の絵文字は全滅だよね
ってか、2ちゃんの書き込みなんて99%はSJISの文字
(正確を期すとJIS X 0201と0208の文字集合)
なんだから利用者的にはUTF-8になるメリットが少なくね?
2008/04/15(火) 03:48:42ID:ne8d6Vtf0
動機が動機ですからそういう話ではないかと
2008/04/15(火) 04:27:23ID:fw6LTgXw0
そもそも2chはぴろゆきの個人の掲示板なので、利用者のメリットとかあんまどうでもいいのです。。。
2008/04/15(火) 07:21:22ID:zruzuaAC0
>>260
書き込みがあるたびに、shift jisの.datとutf-8の.utfの両方を作るんじゃなくて、
.utfしか作らないんだけど、別フォルダにしておくと言いたかったのです。
subject.txtもutf-8版はsubject.utfにすれば、subject.txtや/datは
エンコードが変更しましたと書かれている924.datだけ置いてutfに誘導できるから。
266stream ◆PNstream2s
垢版 |
2008/04/15(火) 08:27:58ID:owLyqy6F0
ところで、提案者の示した目的が「負荷軽減」だけど、( >>4 )
負荷軽減はUTF-8化では無理、というかむしろマイナスという結論。
それを受けて提案者はどう考えてるのか。
2008/04/15(火) 08:33:33ID:fw6LTgXw0
>>265ぬるぽど・・・とすると例えば、新しい構成のdatは
/operate/utf/1207973589.dat
とかなってて普通にutf8版datが入ってて、mod_rewriteで
RewriteRule ^/operate/dat/([0-9]+)\.dat$ /operate/dat/pleaseuseutf8.dat
とかしておいて
/operate/dat/pleaseuseutf8.dat
にはsjisで
utf8使え<>utf8使え<>utf8使え<>utf8版を使えや(゚Д゚)ゴルァ!!<>utf8版を使えや(゚Д゚)ゴルァ!!
みたいなのが一行だけ入ってる、とw
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況