X



datをUTF8にするのはどうだろうスレッド

■ このスレッドは過去ログ倉庫に格納されています
1ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 13:13:09ID:???0?S★(1017889)
datをUTF8にするのはどうだろうスレッドです。

影響があるのは、AA周りすかねぇ。
2008/04/15(火) 09:07:31ID:9wLnJxGDP
>>1
shift_jisとUTF-8の(具体的な)コスト比較をやってけれ!
って事なのかな?
2008/04/15(火) 10:14:58ID:gVyxVVdr0
2ちゃんねるブラウザ「JaneView」 Part54
http://pc11.2ch.net/test/read.cgi/win/1202424797/840
840 名前:View ◆AcQTmXmylo [sage] 投稿日:2008/04/15(火) 05:19:13 ID:zEhpNNaT
ガクブル
長い目で見たらメリットはあるだろうけど、
ネイティブでやろうとするとDoeのレス表示の部分の修正だけでもえらいことに。

表示だけでなく書き込みやNGワードなどユニコードに対応したUIの必要性を考えると・・・
ユニコードのコンポーネントはTntWareがTMS Unicodeになってシェア化されてしまってたり。
RichEdit2.0を使うのもいろいろ問題有り。

JaneViewに関しては自分がTntWareの最終版を持ってるのでどうにでもなるけど、
OJはいよいよまずいかな。。。
2008/04/15(火) 11:09:56ID:42mEP3AY0
>>262
絵文字はむしろ排除の方向で
2008/04/15(火) 11:10:25ID:gCHxp9NE0
サーバリソースのゆとりがあるなら、の話ですが、utf8>sjis変換サービスってのもありかも。

sjisで要求→1234567890.utfしかない→read.cgiは別ホストで動いている変換サービスにutf-datを投げる
→変換サービスはdatをsjisに変換→変換サービスは要求したホストに直接datを返す。

去年の後半あたりから「非同期」が一種のキーワードになっています。
これはその考えを反映させたもの。
2008/04/15(火) 13:48:52ID:JP1tmOnY0
人大杉対策としてread.cgiはc.2ch.netなしくみで動かすというのもありかも。

現在のc.2ch.netのphpスクリプトを元に
ブラウザで表示したときの見た目がread.cgiと同等なものを作って
それをpc.2ch.netみたいな名前を付けたサーバで動かして
bbs.cgiが入っている鯖のread.cgiは全部止める変わりにそっち使ってという感じで。
2008/04/15(火) 13:49:06ID:KsMxiwKa0
キャッシュ機能とかも持たせれば効率いいソリューションになりそうだね
2008/04/15(火) 14:37:02ID:v+BHHlzC0
文字コードは根っこが深いからテストサーバー作って
コツコツとつついていくのが良いと思う。
utf8.2ch.net
2008/04/15(火) 14:37:47ID:42mEP3AY0
pc.2ch.net は予約済(現在は過去ログ鯖)
非公式なら既に存在する
2008/04/15(火) 14:48:46ID:2CK6LpAs0
いきなり現行の板に適用したりしたら
たぶん専ブラの中の人が大変なことに…
2008/04/15(火) 15:44:48ID:+NkgmXUf0
単にIE6でアクセスされたら専ブラかIE7かFirefoxかSafariかOpera使えって返せば良い予感。文字コードだけが問題じゃないようだし。
278動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 16:31:43ID:RHiqUynv0
MEサポートしろ
2008/04/15(火) 17:49:51ID:+NkgmXUf0
>>278
PC買い換えるかUbuntu使え
2008/04/15(火) 18:06:43ID:fDN7Mt7+0
>>277
(・∀・)ソレダ!!
2008/04/15(火) 19:21:48ID:GaC/2Jby0
なんで西村はこんなことを思い付いたの?
2008/04/15(火) 21:08:59ID:6Jv1uKWo0
林檎機開発環境だと負担軽減するのかなぁ♪
2008/04/15(火) 21:11:26ID:+NkgmXUf0
林檎はDarwinだからなぁ。LinuxもLinuxだし。FreeBSD向け開発にはFreeBSDが一番な気ガス。
2008/04/15(火) 22:23:36ID:v+BHHlzC0
>>281
日本以外のマルチバイトな文字に対応したいんだろうな。
285あらすじ
垢版 |
2008/04/15(火) 23:23:25ID:9ycp3lZE0
ひろゆき)人大杉が出ると、閲覧できる人が減って広告収入に影響がでるから困る。

ひろゆき)鯖のセッティングのことはよくわからないけど、人大杉が出るってことはサーバーリソースを使いすぎってことだろう。

ひろゆき)サーバーリソースを使わないread.jsを標準にすればよくね?

SunOs)read.jsだとIE6で挙動不審だからデフォルトで採用できないっす。

ひろゆき)なるほど。(文字コードがUTF8なら問題解決ってことだな)

///////////////////スレ立て////////////////////////////////

ひろゆき)datをUTF8にするのはどうだろう。 >>1

技術屋さん達)ざわざわ。問題点はあーだこーだ。

ひろゆき)サーバリソースを使わないモデルにできれば、人大杉が無くなるよね。(真意)>>65

SunOs)read.jsを標準で使わない理由は文字コードの問題じゃないってばよ。>>36,72

SunOs)ちなみに人大杉の時にread.jsを効かなくしてるのは、鯖屋のFOXの指示ですわ。>>73

ひろゆき)じゃあ人大杉のときはread.jsを標準で使うようにしてください。(目的達成)>>93

SunOs)了解っす。>>123

技術屋さん達)ざわざわ。UTF8にしたらあんなことやこんなことを。

ひろゆき)文字コードを変えるとしたら、サーバ移転ごととかそんな感じすかね。(適当な思いつき)>>167

技術屋さん達)ざわざわ。あーだこーだ。

root)管理人がやれって言うならやるけどさ。技術屋の威信をかけて。>>216

専ブラ作者)思いつきで仕様変えるのかよ('A`)マンドクセ>>269
2008/04/15(火) 23:40:23ID:msDMZS8WP
まとめ乙
2008/04/15(火) 23:41:06ID:FySE2P/g0
苦労してまでUTF-8にするメリットが見つかりませんが・・・
ちなみにUnicodeならJIS2004も扱えたりするんですけど、専ブラも当然対応するんですよね?
2008/04/15(火) 23:46:06ID:JfBALhQn0
ていうか専ブラの対応なんてそんなに大変じゃないだろ
なんて思う俺はOSX
2008/04/15(火) 23:48:53ID:2CK6LpAs0
しばらく実験用の鯖だけで動かしていれば
その間にユーザーがつつくから対応してくれるかもしれない。
更新が止まって久しいソフトは淘汰されそうな気がする。
290stream ◆PNstream2s
垢版 |
2008/04/15(火) 23:50:04ID:bBUm3FbL0
スレ立て前の経緯を今知ったぞ
2008/04/15(火) 23:58:49ID:FySE2P/g0
RLO(Right-to-Left Override)の問題は大丈夫っすか?
RLO埋め込んだアドレスでjpgファイルに見せかけたexeファイルをうpするとか・・・
http://ura2ch/hogehoggpj.exe

http://ura2ch/hogehogexe.jpg
とか
2008/04/16(水) 00:03:38ID:4/Qc/rGp0
あったなぁそんなの
293root▲▲ ★
垢版 |
2008/04/16(水) 01:06:57ID:???0?DIA(100256)
>>291
確かに。
>>234 と同様に Unicode の問題ですね。
2008/04/16(水) 01:13:00ID:fJ7JEU020
>>291
それ、今でも文字参照で可能。ただ、既にブラウザ・OS側で対策されてるからあまり問題ない。
98? ME? んなサポート切られたOSなんて知らね。
2000? M$神はあなたを見放した。
2008/04/16(水) 01:15:17ID:fJ7JEU020
ちなみに参考
http://pc11.2ch.net/test/read.cgi/software/1206928829/116
296stream ◆PNstream2s
垢版 |
2008/04/16(水) 01:17:53ID:ek0XYmnn0
今の2chでも&rlo;使えるしなあ
&rlo;あなるえ使;olr&もでhc2の今
2008/04/16(水) 01:22:34ID:73yP5jMQ0
> &rlo;あなる

まで読んだ。
2008/04/16(水) 01:23:21ID:VmcCj0d9P
リンクの偽装に使えるのかしら。
いずれにしてもリンク先になにがあるかは2chが関知するところではないのだけど。
2008/04/16(水) 06:15:02ID:FX89xfze0
地デジでも採用されてる、ARIB 8単位符号(STD−B24)にしようよ。

JIS 8単位符号ベースだから、多国語対応もOK。
DRCSをつかってユーザ定義の絵文字を混ぜられる。
漢字は2 bytes、英数・平仮名・片仮名は1 byte。要エスケープシーケンス。
更にC0, C1制御符号を使って、書式も付けられる。
2008/04/16(水) 07:20:03ID:laDIPMVY0
特殊記号作品スレ5
http://love6.2ch.net/test/read.cgi/aasaloon/1187147919/
2008/04/16(水) 13:52:37ID:yM0xssmr0
シリアスに考えないで、研究目的で実験サーバ立てればいいじゃない
2008/04/16(水) 14:38:38ID:j6iNdeGw0
じゃあ頼んだぞ
2008/04/16(水) 16:58:06ID:KAYqMy1f0
>>22
妙に感動した27歳フリーターの夕暮れ
2008/04/16(水) 21:47:05ID:8vcknS5q0
サーバはタダじゃない
2008/04/16(水) 22:49:07ID:2koVwYXu0
utf化でどの程度、データーの容量増えるか実測してみた
tmp7のdownload板の全datファイルをダウソして実験

元のdat  -- 38MB
UTF8化dat --- 46MB (1.2倍)


次に、gzipでこれらを圧縮してみた
UTF8化してもほぼ同じ容量になる

圧縮後の元のdat -- 12MB
圧縮後のUTF8化dat -- 13MB (1.1倍)

メジャーなブラウザーは通信時データーをgzipで圧縮できるので
通信帯域的にはUTF8であろうがなかろうが同じ程度になると思う。


次に、datをUTF8化して、更に、XML化してみた
↓例えばこのスレのdatをXML化
ttp://www7.axfc.net/uploader/93/so/File_5414.xml.html
XML化しても圧縮するとやはり元のdatと同程度のサイズだった。

XML化後のdat -- 54MB (元のdatの1.4倍)
圧縮後のxml化dat -- 14MB (圧縮後のdatの1.2倍)


datをUTF8化して、ついでにXML化もしてはどうかな?

今read.cgiにアクセスしてくるようなビュワーを使わない「普通の」閲覧者にも
XML化datとスタイルシートを与えて閲覧者のブラウザー側で見栄えを処理してもらえば
perlとかをガリガリ動かすより負荷も減るかと思う。

閲覧者に広告をフィルタリングされやすくなっちゃうだろうけどw
逆に見てもらいたい広告を挿入しやすくもなると思う。
2008/04/16(水) 23:04:41ID:8iiGNMQL0
>>305
必要に迫られない面倒くさいことはやらない(基本)
2008/04/16(水) 23:29:45ID:PW3HC1soP
UTF-8にしてXMLにしてgzip圧縮して
それって逆に負荷を増やしているんじゃないのか
2008/04/16(水) 23:36:04ID:8vcknS5q0
XMLはコンテンツのみで
見栄えはXSLTでいいんじゃね
2008/04/16(水) 23:38:27ID:whhUnnKa0
SJISからUTF-8にしたり
datをXMLに変換するのは負荷になるだろうね。
そこで最初からUTF-8、最初からXMLであれば話は別かと。
2008/04/17(木) 00:00:32ID:v8ifVSIP0
CPUの負荷と、回線の転送料の負荷と、ファイルの容量が混ざってないか
2008/04/17(木) 00:51:12ID:IgHwqogZ0
>>308
IE6のXSLTは酷いから使うのはお勧めしないよ。
2008/04/17(木) 03:11:26ID:LfXY4knO0
そんなことより、顔文字を共通化して文字コードを割り振って、国際標準にしろよw
2008/04/17(木) 17:33:04ID:v8ifVSIP0
AA職人に欲しい記号をリストアップして貰おうか

逆半角スラッシュ?
2008/04/17(木) 17:55:25ID:M/L+gyPS0
今のままでいいよ
315動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/17(木) 19:31:33ID:GmeyqZuk0
ユニコードってバックスラッシュと円記号って違うコード?
エンコードによって揺れる?
2008/04/17(木) 19:50:50ID:x31S+u9S0
2ch DAT落ちスレ ミラー変換機の管理人さんが0chスクリプトを
UTF-8化したものを配布(http://mirror.s151.xrea.com/0ch_utf8/)していて、
サンプル(http://mirror.s151.xrea.com/2ch/0chu/utf8/)もあるので、
どんな感じになるのかはここで実験できるかもしれない。
2008/04/17(木) 20:26:07ID:l0VrTek40
>>315
違うに決まってんでしょ
2008/04/17(木) 21:11:03ID:0giwvNAd0
>>316
サンプルの惨状にワロス
2008/04/17(木) 21:21:30ID:chmztg1a0
多言語なんて荒れるんじゃない?
2008/04/17(木) 22:33:14ID:x31S+u9S0
>>318
荒れてるんじゃなくて、台湾版ニコニコ動画の掲示板のログを持ってきた
って管理人さんが書いてた。
考えてみたら、http://tw.bbs.nicovideo.jp/user/ の方を紹介すべきだったかな。
ニコニコ動画が運営しているUTF-8エンコードのサポート掲示板。
2008/04/18(金) 16:24:52ID:QnO5qrZL0
>>315
違うコードだけど、Windowsではどちらも¥に見える
2008/04/18(金) 18:28:59ID:PzY0ZFSE0
>>321
たぶんそれはアプリに問題が
2008/04/18(金) 19:33:59ID:sdKsYN1gO
暗黙の了解でバックスラッシュは特殊な仕様になってる。
詳しくは調べてね
2008/04/19(土) 00:04:03ID:hJxMwF/u0
マイクロソフトの変換法では、日本の円記号はUnicodeのバックスラッシュ(U+005C)に変換される。
そして、日本語用のフォントではバックスラッシュ(U+005C)を円記号として表示してしまうのである。
賛否両論の対応ではあったが、旧来のソフトウェアを捨て去ることなくUnicodeを利用できる現実的な方法として広く使われている。

なにこれー
2008/04/19(土) 04:37:18ID:PNa6uLXK0
Windows のフォントにパッチを当てて、円記号を無理やりバックスラッシュにしたり
してた人も居たはず…
2008/04/19(土) 09:40:01ID:E5leIjkHP
Beかなんかで、トリップの文字化けがあったよね。関係あるのかな。
ログだけじゃなく、全部ひっくるめて統一したい、とか?
2008/04/19(土) 10:47:11ID:i4TihsY/0
エンコーディングにSJISを使うかUTF-8を使うか、ということより
最終的にどんなフォントが使われるかということだな、問題は。
2008/04/19(土) 11:29:41ID:RC0Bf5GwP
フォントにな
2008/04/19(土) 12:05:13ID:WwihNvKZ0
すくなくともバックスラッシュを多用する板なんて限られてくるんだし(ム板とか)
そいつらがBSを表示できれば問題ない
2008/04/19(土) 12:18:26ID:BN4RLckC0
AA職人もバックスラッシュは欲しがるんじゃないか?
ってもMS標準のUnicodeフォントで統一されるなら支障無いと思うけど
2008/04/19(土) 12:25:16ID:Eb+X94MG0
バックスラッシュは是非欲しい
2008/04/19(土) 13:04:42ID:ZaXhrfEE0
\ ←?
2008/04/19(土) 13:42:54ID:WwihNvKZ0
>>332
\
2008/04/19(土) 13:43:17ID:boa9zPeZ0
>>328
2008/04/19(土) 14:29:20ID:PNa6uLXK0
以下スレチ
>>326
(旧 BE板と) BE プロフィール画面でのトリップ非互換問題は以下の通り。

・BE の内部処理が EUC-JP で、なおかつ本来トリップとしては不正な多バイトコード
 もしくはいわゆる半角カタカナを使用しているため。
・プロフィール画面の方では、各処理系で特殊用途として用いられる文字のエスケープ
 処理が板のトリップでの処理と違うため(「"、'、[、]、\」なんかが該当)。

すべての原因は何処かのスレで自身が発言してた、ひ(rが文字コード問題に弱いため。
2008/04/19(土) 14:33:40ID:AofXqpHw0
http://etc7.2ch.net/test/read.cgi/be/1184835944/225
5:トリップが化けないようにして

いまいち文字コード周りに弱いおいらです。。。
DBの文字コードを変えるとさらに文字化けを誘発しそうなんですよね。。
2008/04/19(土) 18:12:39ID:7NOZ3hUG0
>>328
2008/04/19(土) 21:00:50ID:pEn192nm0
UTF-8を理解していない人が
スレ参加とか。。アフォかと。。。
2008/04/19(土) 22:57:37ID:E5leIjkHP
もはや釣堀w
2008/04/20(日) 00:20:40ID:FJYFc2yt0
専ブラ作者には負担かけるわけだよねー
●で儲けさせてもらったくせにその仕打ちはどうかと
2008/04/20(日) 00:30:15ID:CZ8CMSVeP?PLT(13132)
>>340
、、、。
2008/04/20(日) 00:49:13ID:ioURv1tiP
\(^O^)/ドンマーイ
343動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 02:52:04ID:6eEXFguv0
世界はUTF-8
344動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 04:29:24ID:2uISEUW5O
俺のサイトもSjisからUTF8にしようと思ったけど面倒だからやめた。
PHP使ってるから初めからほうしとけば良かった。
2008/04/20(日) 10:42:00ID:E+evngot0
>>340
エンコ指定なんてふつう外出しにしてるだろ。大した手間じゃないよ。
2008/04/20(日) 10:46:48ID:ioURv1tiP
讃岐は●非対応、いや未対応。
完全ボラだからなー。
2008/04/20(日) 11:21:20ID:gBO4l9OF0
>>340
>>269
2008/04/20(日) 11:28:21ID:gBO4l9OF0
340じゃなくて345だった
2008/04/20(日) 12:56:44ID:E+evngot0
つまりJaneViewの設計が糞だってことか
2008/04/20(日) 13:03:17ID:6E0oOuN20
えんこーでぃんぐだけじゃなくてゆーあいにひょうじしたりあぼーんでのしょりがふくざつになるのに
お前はアホか。
2008/04/20(日) 14:07:13ID:75H7xodgP
ID:E+evngot0
ここはあなたみたいな無知な方が来る所じゃありませんよ、と
2008/04/20(日) 14:09:46ID:AQa/Gq8O0
内部処理がSjisの専ブラの方が多いだろ
2008/04/20(日) 16:11:58ID:sNEtEpdP0
WinアプリでWin95系をサポートしてるなら内部処理Unicodeにするのは困難
2008/04/20(日) 16:26:03ID:OWZ6WVMR0
いまさら95/98/MEを使っている奴なんて…いないだろう?
いないよね?いないと言ってくれよ!
2008/04/20(日) 16:41:03ID:16hsI3LLP
ここにいる!
2008/04/20(日) 16:42:43ID:E+evngot0
つまりエンコの変更に対応できないようなソフトを作っておいて
自前のコントロールじゃないからどうとか開発環境の内部処理が
どうとかOSがどうとか言い訳がましいことを言うなと
2008/04/20(日) 16:45:36ID:siTEX6bu0
>>353
でも不可能じゃ無いし、実際95でも使えるアプリでUnicode対応してるのも
ある。

ちょっと検索すれば判る程度の話だし。
2008/04/20(日) 17:05:38ID:6E0oOuN20
不可能じゃなければ簡単なわけじゃない。

>>356
やったことがなくてわからない事までろくに知りもせずに言及するな。
>>345のような発言する時点で実際にどんな問題が出てくるか全く把握してないだろ。
2008/04/20(日) 17:09:44ID:OWZ6WVMR0
ここは2chだし「まずやってみよう!」の精神でいいんじゃないかな?
問題が起きたら後から考えると。
2008/04/20(日) 17:12:52ID:iVEweGOHP
やるんならアフィ速とかVIPとか小規模に実験してから全板にいれてくれ
2008/04/20(日) 17:22:48ID:CuEhiLzy0
2chブラウザ製造機によく使われてるDelphiがUTF(Unicode)に標準で対応してないんだ。
かちゅ、ギコナビ、ホットゾヌ、Jane系は騙し騙しの対応になるか、対応を諦めるかのいずれかになるな。

そもそもひろゆきがUTF8に変更する積極的な理由がなくなったんだから
このままでいいんじゃないのかね。
2008/04/20(日) 17:47:46ID:E+evngot0
2ch鯖がSJISに特化した処理結果を返してるからといって
クライアントがSJISを前提にした設計にしちゃっていい理由には
ならんだろ?文字コードが変更されたとき、ユーザーの手間を
最小限に抑えて最低限の表示が出来るような設計にしておかなきゃ
糞だろ?
2008/04/20(日) 18:19:31ID:a/sg/Mv90
必レスのガイドラインスレに迷い込んだのかと思った。
2008/04/20(日) 18:41:36ID:nLYdFtzu0
専用ブラウザがどうのこうの言ってるけど
おいらのJDには関係ない
ついでにいうとNavi2chでも関係ない
つまりはどうでもいいってこった。
2008/04/20(日) 18:53:32ID:SICVUDUsO
>>362
フリーソフトにどんだけスケーラビリティ求めてんだ。ww
頭悪いの?それとも常識がないの?
2008/04/20(日) 19:58:54ID:OWZ6WVMR0
2chサーバ側の仕様なんて、これまでも結構変わっているわけで、
専ブラ作者もそれに追従してきている。
(gzip圧縮とか、EUCとか、バーボン回避のウエイト挿入とか)

今回の場合、暫定回避策を作るとすればliveb1.2ch.netみたいのを
ベースに変換Proxyを用意して、未対応の専ブラはそこを経由させる
ような対応もあるだろう。

もちろん「表示不能な文字が出る」「更新が遅延する」等の制限も
あるわけで、それを回避したい作者はUTF-8の本格対応をしてくる
だろう。

ま、実験サーバで様子見ながら進めるのが良いだろうね。
2008/04/20(日) 20:59:57ID:glaB1xWs0
ていうかそもそもUTF-8にするメリットってあんの?
専ブラとかトリップとかデメリットははっきりしてるけど
2008/04/20(日) 22:29:35ID:OWZ6WVMR0
UTF-8のメリットと言うよりも、SJISのデメリットの方が大きかったり。
SJISのままだとまともに検索処理できなかったりするしなあ。

findがEUCなのもこの辺が理由だろうし。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況