X



トップページ運用情報
469コメント128KB
datをUTF8にするのはどうだろうスレッド
■ このスレッドは過去ログ倉庫に格納されています
0001ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 13:13:09ID:???0?S★(1017889)
datをUTF8にするのはどうだろうスレッドです。

影響があるのは、AA周りすかねぇ。
0004ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 13:15:37ID:???0?S★(1017889)
utf8にしちゃえば、read.jsが使えるので、
サーバリソースは軽くなるかなぁと。
0007c(・ω・c)))))) ◆....w.VIPQ
垢版 |
2008/04/12(土) 13:29:09ID:Q2BscwRD0
   /⌒ヽ)
  i三 ∪
 ○三 |
  (/~∪
  三三
 三三
三三三
0009 [―{}@{}@{}-] 動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 13:32:00ID:cHsq6m3t0
       _r-._,-,_
      r‐' __ ~t_
     j'/"il li ~\〈
     rf/l |_l_l| |l_l_ i゙ト'、
   /"ハl U  U |l゙i l    
  / / li.ゝ γニ ヽノ | l |   ふ〜ん
.  l /  il f:`l .l i_| | j l |
  |/  ξ ゞ_`,-ィイ ξ l|
  彡    /:::::::::::〇,   ミ
  ソ    i::::::::::::::l_l:l   リ
0010root▲▲ ★
垢版 |
2008/04/12(土) 13:34:07ID:???0?DIA(100256)
今日はちとこれからおでかけにつき、記念カキコのみで。

何となく、いろんなところが影響ありな気がしますけど、
やる価値はあるかもですね。

ただ、これまでのSJISのdatを変換するのは実際的ではなさそうなので、
どうしても「混ざった」状態になると。
ということで大抵のスクリプト(削除など)は、
両方対応にしないと、だめなような。
0012root▲▲ ★
垢版 |
2008/04/12(土) 13:35:32ID:???0?DIA(100256)
で、ライブなdatだけでも一斉に変換するかどうか、
というのも考えどころなのかな、と。
0015ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 13:41:17ID:???0?S★(1017889)
utf8のdatファイルを.dataとかにするか、
qb7みたいに新しいサーバ名の.datを全部utf8にするか、、、

管理周りは粛々と対応すればなんとかなると思うのですが、
アスキーアートみたいに、出来なくなることとか、
デメリットはどういうのがあるのかなぁ。。と。
0016Cooks
垢版 |
2008/04/12(土) 13:41:34ID:V2OGDCmc0?DIA(200748)
よくわからんけど
read.cgiをapacheモジュールにしたらいい
ついでにbbs.cgiも
mod_2ch
0018動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 13:44:45ID:rbaOIjlz0
デメリットや手間のわりにメリットは少ないかと・・・
大抵のソフトウェアはdatはSJISだと決めてハードコーディングしてるだろうかなぁ・・・
0019stream ◆PNstream2s
垢版 |
2008/04/12(土) 13:52:47ID:sMNaDZg+0
UTF-8でAAが影響受ける?なんで?
フォントなら、CSSでsans-serifつけりゃいいと思ってるけど
0020ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 13:54:07ID:???0?S★(1017889)
半角カナとか。
0021stream ◆PNstream2s
垢版 |
2008/04/12(土) 13:55:15ID:sMNaDZg+0
>>4
現状でもある程度read.jsは使えてるし、UTF-8にしてもそんな軽くならないと思う

>>6
UTF-8にBOMは必要ないから反対

>>20
半角カタカナはUnicodeに存在して普通に使えるよ
0022動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 13:55:50ID:dKHHUdt+0
上のもんは下のもんの気持ちは汲んでも
顔色を伺ったらあかん

って仮面の兄ちゃんがいってた
0023stream ◆PNstream2s
垢版 |
2008/04/12(土) 13:56:08ID:sMNaDZg+0
UTF-8の問題点は、サイズだな。
日本語の場合たいてい1文字で3バイト使うから、500KB制限を引き上げる必要があると思う。
0025ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 13:57:13ID:???0?S★(1017889)
>半角カタカナはUnicodeに存在して普通に使えるよ
まじすか。
0030stream ◆PNstream2s
垢版 |
2008/04/12(土) 14:04:35ID:sMNaDZg+0
サイズが問題ならUTF-16にする?w
0031 株価【950】 △△ ◆cZfSunOs.U
垢版 |
2008/04/12(土) 14:05:12ID:S3vPJJLd0
ん...... UTF-8 にしないと read.js が使えない環境ってどんなのだろう?
少なくとも,IE6 での問題は anydat.so で対策されてますが......
0032ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 14:08:38ID:???0?S★(1017889)
anydat.soみたいなサーバ処理がいらないものだけで、
回せないかなと。
0033 株価【950】 △△ ◆cZfSunOs.U
垢版 |
2008/04/12(土) 14:13:29ID:S3vPJJLd0
IE6 を無視すれば Content-Type で charset=Shift_JIS を追加するとかでいいんで
mod_headers で事足りるわけですが......
IE7 への強制アップデートもあったらしいですし,今後 IE6 の比率が下がれば
それでいいのかも,とも......
0036 株価【950】 △△ ◆cZfSunOs.U
垢版 |
2008/04/12(土) 14:22:10ID:S3vPJJLd0
まぁ IE6 での問題は文字コードより,JavaScript が時々挙動不審になったり
ブラウザの動作が重くなったり,ということの方が大きいんですけどね.

# それで read.js をデフォルトにするのを断念した,という経緯も......
0037動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 14:22:37ID:nO2fnwtX0
>>30
UTF-16にすると、1バイトで表現できている英数文字が2バイトに
なるであってる?
UTF-8は漢字が2バイトから3バイト必要になる
どちらにしても、datサイズが増える事に変わりがないような
そうすると、オンメモリで処理可能なdatの総量が何割か減ったり、
通信容量の増大を招いたりでいい事がないような
0038stream ◆PNstream2s
垢版 |
2008/04/12(土) 14:26:40ID:sMNaDZg+0
>>37
あってる

ただ、Shift_JISは日本語のコードにASCIIを含んでるから(つまり腐ってる)
UTF-8にすればShift_JISだったから必要な余計な処理が無くなって
負荷が減るとかコードの見通しが良くなるとかあるかもね。
Rock54まわりはいろいろ大変だったような。
0039動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 14:34:16ID:dKHHUdt+0
ほいほい文字コード変えられたら
内部設定をテキストファイルで読み込ませる組み込みは大変なことになる
多言語対応なんてやってられねーんだよ
どこのlinux脳だ
ということに
0040 株価【950】 △△ ◆cZfSunOs.U
垢版 |
2008/04/12(土) 14:37:31ID:S3vPJJLd0
まぁ read.js 以外のことを考えた場合,>>38 のような利点はありますけどね.
もっとも,その点に関しては EUC-JP でもいいんですけど.
0042動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 14:46:47ID:ddwKMOyI0
キャップの文字化けとか
目欄で「age」の直前に「鋭郭虐茎行市峻尽壮痴」でsageになってたとか
そんなの無くなる?
0044 株価【950】 △△ ◆cZfSunOs.U
垢版 |
2008/04/12(土) 14:50:32ID:S3vPJJLd0
不正バイトシーケンスの問題は,どの文字コード使うにせよ
解決するならきちんとチェックするという以外ないような.
0046stream ◆PNstream2s
垢版 |
2008/04/12(土) 15:21:54ID:V5lKbYlC0
持ってる運用情報のdatファイル1102個をiconvを使ってCP932からUTF-8に変換してみた。
正常に変換できたdatが1024個(偶然)。

CP932の場合 98.1MB (平均で98KB)
UTF-8の場合 121MB (平均で122KB)  1.24倍

意外と大きくなってない。
この程度の増加なら、全然許容範囲だと思った。
0048stream ◆PNstream2s
垢版 |
2008/04/12(土) 15:38:36ID:V5lKbYlC0
>>47
iconv: 位置 138601 で不正な入力シーケンスがありました
携帯の絵文字が入ってたとかそんなとこかねえ
0055動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 18:12:22ID:GThHi3CAP
UTF-8にするんなら、いっそのことdatの仕様を思いっきり弄くり回すとか。
レイアウトとフォントはCSSにすればdat自体の容量は減る
互換性全くなしで、専ブラがひどいことになるがw
0056動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 18:19:15ID:Kt287Ydo0
「これが、私が考えた掲示板だ。使い勝手についていろいろ言う人もいるかもしれない。
 それは対応する専用ブラウザを作るボランティアや利用者が、この仕様に合わせてもらうしかない」

この道ーはー
いつかーきたみーちー
0059動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 18:56:20ID:mbw97Ct90
とりあえず新板で試すのがベターだろうな
で、専ブラ作者には馴れてもらうと
その流れで文字コードの判別にセンシティブになってもらうと

変換とか引越しって、絶対にトラブるんだよな
0060動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 19:04:54ID:rbaOIjlz0
新板からとか、スレッド番号でスッパリ分けるとかするべきだろう。
あと、文字コード情報について正しくヘッダを送る。

既存のスレッド全部変換するのは、失敗のリスクとかが大きいと思う。
それから512KB制限も考え直すべきでしょう。
0063動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 19:20:08ID:mbw97Ct90
専ブラがdat拾うときもhttpで拾うわけだから、Content-typeのヘッダ見れば
理論上はいいのけ?追加メタ情報いらない?
0064動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 19:24:05ID:qz4qWTVKO
なんか変更を見据えた話になってる?
多言語扱うわけじゃないし
変えるメリットが見当たらない

ここはひろゆきをなだめて止めさせるべきだろ
0065ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 19:35:32ID:???0?S★(1017889)
サーバリソースを使わないモデルにできれば、
人大杉が無くなるかなぁと。
0067動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 19:42:21ID:zZm1c7bD0
つか人大杉をなくしてread.htmlに転送して欲しい。
0070動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 19:45:57ID:jcGGWTbi0
>>63
過去ログを.datファイルで入手したときに分かりにくくなる。
BOM有りならutf-8、無しならshift-jisと判断できるのが一番簡単で確実。
0072 株価【866】 △△ ◆cZfSunOs.U
垢版 |
2008/04/12(土) 19:47:25ID:S3vPJJLd0
人大杉解消が一義的な目的であれば,少なくとも read.js に関しては
ネックになるのはむしろ文字コード以外の部分ですね(>>36).
anydat.so 自体は,ライブな dat を扱う際はデフォルトハンドラとほぼ同程度の
処理しかしないので,負荷的には anydat.so を使わない場合とほぼ変わらないかと.
0073 株価【866】 △△ ◆cZfSunOs.U
垢版 |
2008/04/12(土) 19:56:31ID:S3vPJJLd0
ちなみに,人大杉状態の時に板トップの「read.cgi モード切替」が効かない問題に関しては,
技術的問題よりポリシーの問題(いつぞやの FOX さんの「見えないようにしているのは意図的なので
人大杉の時には read.html に振らないようにしてほしい」という趣旨の発言を受けたもの)なので,
これについてはしかるべき人にしかるべき方針を打ち出してもらえれば,効くようにすることは不可能ではないです.
0076動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 20:00:51ID:S6q0mxTHP
>>75
やってない。前Be系の板はBe関連のシステムがPHPで文字コードがEUC-JPだったから
それに合わせてたけど06年ぐらいにログ全部Shift_JISにコンバートして移行した
0078動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 20:03:48ID:LVULPQ2v0
>>55
datは現状でいいんでね?

と、思ったが、日付とIDとbeとかが全部一つになってるのはちょっとな
xmlにしてくれたら助かるが、そうはいかんか
0079stream ◆PNstream2s
垢版 |
2008/04/12(土) 20:06:05ID:6gzpKs4Q0
>>64
多言語扱えたほうが便利でしょ
曲のタイトルにアクセント記号つきのアルファベットとかあるし
ニュースで中国人の名前書くとき便利になるし
àáâäçñ

>>78
XMLは単純にレスを追記することが出来ないからねえ。
<>区切りはどうかと思うが。
0080動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 20:06:40ID:zZm1c7bD0
外字とか画数の多い漢字は実体参照にしてutf-8で実体山椒のままにしておく必要のない
実体三章は素の文字に変えて、とりあえずutf-8にしてしまったらええ。
専ブラなんて気にすんな。utf-8にしてフラッシュでも何でもつこたらええ。
0081動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 20:10:30ID:P0Wz6qUM0
>>76
あ..EUCだったな。
コンバートしたのは不覚にも全然知らなかった。
でも、それに対応するために多くの専ブラはEUC-JPに対応してるはずだから、
実装によっては今回の対応が必要ないものもあるのかも。
0082動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 20:11:32ID:LVULPQ2v0
<2chdat>
 <res>
  <name>名無しさん</name>
  <msg>datは現状でいいんでね?と、思ったが、日付とIDとbeとかが全部一つになってるのはちょっとなxmlにしてくれたら助かるが、そうはいかんか</msg>
 <res>
 <res>
  <name>名無しさん</name>
  <msg>datは現状でいいんでね?と、思ったが、日付とIDとbeとかが全部一つになってるのはちょっとなxmlにしてくれたら助かるが、そうはいかんか</msg>
 <res>
</2chdat>
じゃなくて
 <res>
  <name>名無しさん</name>
  <msg>datは現状でいいんでね?と、思ったが、日付とIDとbeとかが全部一つになってるのはちょっとなxmlにしてくれたら助かるが、そうはいかんか</msg>
 <res>
 <res>
  <name>名無しさん</name>
  <msg>datは現状でいいんでね?と、思ったが、日付とIDとbeとかが全部一つになってるのはちょっとなxmlにしてくれたら助かるが、そうはいかんか</msg>
 <res>
と、単純追加出来る独自形式とか…w

今でこそ<>区切りは掲示板のログの標準だけど
何かの標準規格で、それに2chが合わせただけなの?
それとも慣習?
0086動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 21:16:53ID:sjQIQGbL0
>>82
HTMLをデータとして持つ場合はHTMLで使わない文字列で区切らないと
区切り位置がバグる可能性があるでしょ
そう考えると最も単純に区切れる文字列は<>になる
0087動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 21:19:38ID:LVULPQ2v0
テキストエディター ってかキーボードから打ち込めない文字を使うのは嫌だな
まぁDATを直接編集する事なんてそうあるもんじゃないけど
0088stream ◆PNstream2s
垢版 |
2008/04/12(土) 21:28:50ID:JtND79Jx0
TSVで良いと思うんだけどねえ
0089動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 21:33:32ID:sjQIQGbL0
2ちゃんのdatに使われてる制御文字はLFだけだから
1byte文字で全く使われてない領域が32文字分あるんだよね
勿体無いというか無駄というか
0090動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 21:38:49ID:Kt287Ydo0
過去ログだって
専ブラで取得したらログとして残る
いままでの専ブラで累積したログの変換にも
おまえら対応しろよ
0092未承諾広告※ ◆TWARamEjuA
垢版 |
2008/04/12(土) 21:52:28ID:RXwERaHF0
perl本体としては処理が軽くなるのかしら?
そしてperl5.10移行は未だ先なのかしら?

Rock54系は、別に変わりはないと思う。。。@現状euc-jp→Shift_JISしている(´・ω・`)

多分一番のネックは携帯系かしら?
0093ひろゆき@どうやら管理人 ★
垢版 |
2008/04/12(土) 21:53:27ID:???0?S★(1017889)
ほいだら、人大杉のときは、
read.htmlをデフォルトで動くようにしちゃってくださいー。
0094stream ◆PNstream2s
垢版 |
2008/04/12(土) 21:53:29ID:JtND79Jx0
>>92
Rock54は全部UTF-8のまま扱えるから負荷がさがるんでねえか?
0095動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 21:54:52ID:GlCRmdt00
目的を明確にできないかな。
どういう板、どういうスレ、どういう場合に必要とか。

そういう話の進め方を意図してないのか
あるいは既に暗黙の了解があるのかも分からないけど。

スレタイはsjis。
0096動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 21:56:22ID:LVULPQ2v0
つーかなんでひろゆきってなんで運営に関わる事2ch上で言うけど
当然しかるべき人にはメールで伝えて、2chに書き込むのは告知のためだよな?
0097動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 21:57:33ID:5VEp3aUo0
日本語で
0098動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 22:00:15ID:LVULPQ2v0
×つーかなんでひろゆきってなんで運営に関わる事2ch上で言うけど
○つーかひろゆきってなんで運営に関わる事2ch上で言うけど

最初は
つーかなんでひろゆきってなんで運営に関わる事2ch上で言うの?
って書いてたけど
「2chの事を2ch上で言うのに理由なんて無いだろ」って言われるのが目に見えてたからやめた
0099動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 22:01:04ID:LVULPQ2v0
つーかひろゆきって運営に関わる事2ch上で言うけど
当然しかるべき人にはメールで伝えて、2chに書き込むのは告知のためだよな?
0100動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 22:01:28ID:KeiU5ZPe0
>>1
早く金払えよ犯罪者タラコ
0102動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 22:05:20ID:rbaOIjlz0
>>92
perlのEncodeモジュールや、utf8フラグのあたりはなかなか難解。

理解できれば便利、でも理解できないと原因不明の文字化けに一生苦しむという諸刃の剣。

そんな俺は、スクリプトは全部utf8で書いてuse utf8;、でもってbinmodeで入出力の文字コードを指定、これラクチン。
とととところがどっこい、

入力sjis→変換→Perl内utf8→変換→出力sjis

という風に、無駄に変換がおこなわれてCPU時間食いまくりでオワタ
0104動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 22:08:15ID:GlCRmdt00
あそっか>>4が目的か。
事務屋と技術屋は出発点がまるで違うよな・・

俺はこれ以上異議を唱える根拠も対案も無いから逃げるけど・・・
0107動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 22:16:10ID:EbL6AfUg0
>>105
いや、すでに不具合を解消したニューバージョンが出ているので。
いろいろな事情で6から7に移行しない人が多いのだよ。
0109動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 22:27:37ID:r3kzlRsw0
なんだかんだで専用ブラウザ・外部ツールが一気に使えなくなって不便になるだけの悪寒
ほとんどのブラウザ・ツールが対応し終えた1年後にはIE7もかなり普及していたりして
何のための改変だったのかと思うことだろう
0114動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 22:55:44ID:YDSCmcu10
元々裏でコソコソやらずになんでもオープンにっていう主義じゃないか
rootさんにしても何かやる時は大抵、スレに書き込みとして残すし

本来なら、管理人って立場なんだから勝手にいろいろ弄くって
事後報告とか、関係者とメルなりなんなりで話しつけて
いろいろやっちゃってもいいんだろうけど、そうじゃないところがイイ

まあ、ひろゆきの場合はただ単に自分で全部考えるのがめんどくさいという線も捨てがたいがw
0115動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/12(土) 23:01:29ID:0GY5xnVJ0
2ちゃんねるの場合、ひろゆきがこーゆうのやりたいって公開の場で言えば、
そのやりたいことを実現できる人間が集まってくるからじゃね?
0116
垢版 |
2008/04/12(土) 23:08:45ID:uLxpBJZm0
というか、過去に勝手に弄って問題起こしたからでしょ。
事後報告だったよ、あれも。

まーオープンでっていうのもあるけどね。
0117ひろゆき@どうやら管理人 ★
垢版 |
2008/04/13(日) 00:27:03ID:???0?S★(1017889)
スピナッチ。スピナッチ。
0121動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 00:39:55ID:SbE0ciHo0
専ブラすぐ対応できるのかなー
(過去ログ含む)
0125動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 01:10:09ID:WwSbXBGt0
どうせ変えるならP2P掲示板でも作ってみろ
0126ひろゆき@どうやら管理人 ★
垢版 |
2008/04/13(日) 01:20:21ID:???0?S★(1017889)
tmp7って特殊な事情でもあるんですか?
0129動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 01:28:50ID:Wu6bVQ1G0
それより2ch総BE化して閲覧は出来るけど書き込みはBEにしたほうが良いって俺意見
無駄な書き込みが減る
削除管理がしやすい
0133 株価【940】 △△ ◆cZfSunOs.U
垢版 |
2008/04/13(日) 01:38:00ID:2j/Y2XY60
>>131 うむ......旧 banana は全廃になったので mod_rewrite の罠は解消したと思ったんですが,
science6 と academy6 にはまだ残ってたんですかね......
いったん .htaccess を元に戻します......
0134 株価【940】 △△ ◆cZfSunOs.U
垢版 |
2008/04/13(日) 01:43:53ID:2j/Y2XY60
となると,mod_rewrite の設定は全鯖配布用 .htaccess じゃなくて,
現在人大杉の鯖で個別に行った方が良さそうですね.
今人大杉の鯖ってどれですかね?
0138動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 01:53:10ID:fzCQaRPH0
さっさとUTF8にしろ。
0139動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 01:53:48ID:69UFjW+90
    ハ,,ハ
   ( ゚ω゚ )
   i^∩∩^i  お断りします
   ヽ_ノ ヽノ
    / .y  ) 
    /ー(ー<   
   ./:::/ ヽ:::ヽ 
   i:::〈   ヽ::::) 
   ヽ:::)   レ'
0147委員長 ◆/DABoneCRY
垢版 |
2008/04/13(日) 04:22:24ID:tCeEzQLV0
専ブラの対応としては、仮にUTF-8に変更するとして、
気になるのは移行方法かな?
過去ログも含めて全部一気にUTR-8に変更?
それとも、新たに立てたスレッドからUTF-8になるとか。
0148動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 04:29:04ID:+2F/2VhoP
>新たに立てたスレッドから
になると思いますよ
文字コードの判定はBOMつけるってのもあるけど
UTF-8としてはイレギュラーなんだよね
だから初めの一行を読み込んで判断すればいいと思う
0150委員長 ◆/DABoneCRY
垢版 |
2008/04/13(日) 04:45:05ID:tCeEzQLV0
>148
文字コードの判定が必要になるってのは良いのですが、
1000レスに到達していないスレッドまでUTF-8に変換した場合
ほとんどの専ブラはバイト数であぼーんの有無を判断しているハズなので
取得し直しになりますよね。
「新たに立てたスレッドから」であるなら、その心配はないですが
read.cgi的には二種類の振る舞いが必要になるわけですよね?
そう考えると全部一気に変換しちゃうのかなぁと想像ました。
0152動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 06:19:05ID:WwSbXBGt0
かちゅ〜しゃは独自ログだから関係ないよね?
0153動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 06:45:50ID:ooYitbSt0
>>142
etc7
0156
垢版 |
2008/04/13(日) 08:25:14ID:P7RZZbCn0
>>1
乙。
0157動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 09:40:36ID:QX30fn2x0
>ひろゆき ★

>beポイント:1017889
>登録日:2004-11-16
>紹介文
>AA等のアイコンを作っていて、beのプロフィールで使ってもいいという人がいましたら、
>ご連絡くださいー。

俺beやってないから意味が分からなかったけど
ひろゆきのアイコンにAAを追加したいと判断したお

どんなAAキボン?
0159動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 11:33:24ID:S20X8prC0
どうせ専ブラもすべて書き換えになるのだから
.datの拡張子を変更したらいいんじゃないの?
古い専ブラが知らずに読んでクラッシュするってことも無くなるし。
0161動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 12:57:21ID:fhXK1V5D0
まさか
ここが原因じゃないよね?
まさかね
0167ひろゆき@どうやら管理人 ★
垢版 |
2008/04/13(日) 14:56:19ID:???0?S★(1017890)
文字コードを変えるとしたら、
サーバ移転ごととかそんな感じすかね。
0168動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 14:56:49ID:xTlUCmvY0
キャー
0169動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 14:58:08ID:7ll30m+t0
きたわー
0184動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 17:31:22ID:dlOra1gw0
Firefoxに目覚めたりUnicodeに目覚めたりひろゆきも大変だな
今度は鯖を全部lighttpdにしろとか言い出したりして
0190動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 19:28:41ID:B/AZbDKM0
「その理屈はおかしい」
     ,. -──- 、
    /   /⌒ i'⌒iヽ、
   /   ,.-'ゝ__,.・・_ノ-、ヽ
   i ‐'''ナ''ー-- ● =''''''リ      _,....:-‐‐‐-.、
  l -‐i''''〜ニ-‐,.... !....、ー`ナ      `r'=、-、、:::::::ヽr_
   !. t´ r''"´、_,::、::::} ノ`     ,.i'・ ,!_`,!::::::::::::ヽ
   ゝゝ、,,ニ=====ニ/r'⌒;   rー`ー' ,! リ::::::::::::ノ
    i`''''y--- (,iテ‐,'i〜´ゝ''´    ̄ ̄ヽ` :::::::::::ノ
    |  '、,............, i }'´       、ー_',,...`::::ィ'
 ●、_!,ヽ-r⌒i-、ノ-''‐、    ゝ`ーt---''ヽ'''''''|`ーt-'つ
    (  `ーイ  ゙i  丿   ;'-,' ,ノー''''{`'    !゙ヽノ ,ヽ,
    `ー--' --'` ̄       `ー't,´`ヽ;;;、,,,,,,___,) ヽ'-゙'"
                   (`ー':;;;;;;;;;;;;;;;ノ
                    ``''''''``'''''´
0199ひろゆき@どうやら管理人 ★
垢版 |
2008/04/13(日) 22:58:57ID:???0?S★(1017890)
うひょ
0201動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 22:59:32ID:fzCQaRPH0
>>194
優れている。ASCII互換。
0202動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:17:20ID:79W2bbXw0
utf-8に移行したほうがいいよ。
eucとかsjisを使う時代じゃねえしな
ajaxでクライアントサイドでもっとおもしろいことをやってほしいな
質問。開発には名無しで参加できないの?
0203動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:19:06ID:KIagsko40
開発っていうのかな。これ。
どっちかと言うとメンテナンスに近いような。

Ajaxの作成なら面白ければ採用されるかもね。
0204動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:20:42ID:DYHqJMaE0
何だか>>202からプロフェッショナルなニオイがします クンクン
0206動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:26:29ID:TVTorZbK0
プロフェッショナルな方なら優れた点だけじゃなくて
互換性や移行することで起こるデメリットもちゃんと考えてもらいたいものですね
0208動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:44:08ID:DM/v/XWgP
目先のシステム負荷だけじゃなく
翻訳機能を付ける(スポンサーが増えるよ?)
とか、展望があるなら賛成だけはさせて貰います。
0209
垢版 |
2008/04/13(日) 23:46:31ID:Cf1nArvr0
2ちゃんねるなんて意味不明の文字列が多いのに
翻訳したらどうなるのかな?
0210動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:50:18ID:yiqhMaUM0
ひねくれてUTF-16にしようぜ
0213
垢版 |
2008/04/13(日) 23:56:04ID:Cf1nArvr0
そうか文系は効果ありそうだね。
面白そうではあるけど。
海外ドメイン規制が行われている昨今、海外進出?
それとも在日ターゲットかしら、、、
0214動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:56:32ID:yLuJOOIH0
BBS_UNICODE=changeのおかげでシリア語ブラクラ投稿や変な文字使ったAAが
投稿できなかった板も再びそれらで汚染されていくのかね
0215動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/13(日) 23:58:16ID:fzCQaRPH0
>>214
別にシリア文字は個別に表示できないようにすればいいだけ
0216root▲▲ ★
垢版 |
2008/04/13(日) 23:58:32ID:???0?DIA(100256)
UTF-8 にする、ということは、
いわゆるCJKじゃないやつも書けるわけで(何もチェックしないなら)、

とここまで書いて思ったのは、
SETTING.TXT でやるのが、専用ブラウザ的にも bbs.cgi 的にも
いいのかもしんないですね。

BBS_UNICODE=utf-8 とか。
0217動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 00:01:22ID:fzCQaRPH0
>>216
普通にHTMLヘッダでcharset=UTF-8 じゃダメなの?
0218動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 00:04:13ID:yLuJOOIH0
>>215
自分は専用ブラウザであぼーんするからいいけど
IEでread.html使っててひっかかるのが嫌な場合
フォント削除するしか対策法ないよね
2ch側ではじいてくれるならいいが
0219stream ◆PNstream2s
垢版 |
2008/04/14(月) 00:05:19ID:lljZ5hxu0
必要性って言うなら
わざわざ日本語の文字に限定する必要性もないし
0220root▲▲ ★
垢版 |
2008/04/14(月) 00:06:37ID:???0?DIA(100256)
>>217
いや、内部処理的にって話で。
0221root▲▲ ★
垢版 |
2008/04/14(月) 00:07:47ID:???0?DIA(100256)
今自分の環境が SJIS 環境なのか UTF-8 環境なのか、
cgi の内部でわかるといいっていう話です。

いろんな方法が考えられるんでしょうけど、
SETTING.TXT に入れるというのは、そのうちの一つということで。
0222動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 00:09:19ID:JRpRJhxcO
2chの場合はメリットよりデメリットの方が多いのではないか?
専ブラ対応とか以前に黒山羊とか。日本の携帯はしばらく(短くても4〜5年?)はSJISメインだし。
SJISの仕様のいい加減さもそれに合わせた実装の厄介さも知ってるけど、今は動きにくいよ。
特に携帯がなぁ…。

そのへんどうなのよ?
0224stream ◆PNstream2s
垢版 |
2008/04/14(月) 00:12:23ID:N0GpEYGp0
>>216>>221
Shift_JISのままにしておく板と
UTF-8にする板が混在するってことですか?
0225root▲▲ ★
垢版 |
2008/04/14(月) 00:13:00ID:???0?DIA(100256)
YahooがこないだEUC-JPからUTF-8に変わったんでしたっけ。
Wikipediaは最初からUTF-8か。

PCのほうはUTF-8でも今や割と大丈夫かなと。
何せ日本のPCの6割ぐらいは、スタートページがYahooらしいんで。

携帯サイトとかはどうなんだろう。
そのままUTF-8出して大丈夫なんだっけか。
0226root▲▲ ★
垢版 |
2008/04/14(月) 00:14:11ID:???0?DIA(100256)
>>224
そうなるかどうかよくわからないけど、
少なくともbbs.cgiとかは両方対応にしておきたい気がしますね。
直感だけですけど。
0229動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 00:15:49ID:JHhdwy/60
うーむ・・・確かに変更にはかなりの手間がかかることが予想されるが・・・
今後を見据えると、sjisもそのうち廃れるかなぁ

だが問題は、utf8に変えて5年ぐらいたった後にUnicodeの次の規格とかが現れはしないか、ということだ
0231root▲▲ ★
垢版 |
2008/04/14(月) 00:18:03ID:???0?DIA(100256)
>>229
UTF-8は単なる「エンコーディング方式」であって、
Unicodeの規格は常にバージョンアップしているんではないかなと。

つい先だっても、Unicode 5.1が出たばっかり。
確か1000文字以上追加されたんじゃなかったっけか。
0232動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 00:18:22ID:ijHQs/T00
>>229
>だが問題は、utf8に変えて5年ぐらいたった後にUnicodeの次の規格とかが現れはしないか、ということだ

現れない。万が一現れたところで絶対に普及しない。
0233
垢版 |
2008/04/14(月) 00:21:15ID:Wz1y+uBn0
>>225
私の自宅サーバはUTF-8仕様です。
携帯からもアクセスしてます。
0240動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 11:06:42ID:UqZJCtMn0
datをxml化するのもひとつの手だと思う。たた>>86の指摘もあるので、やるんなら

<?xml version='1.0' encoding='UTF-8'?>
<2ch:dat>
<2ch:post time="">
 <2ch:name value="" id="" be="" />
<2ch:msg>ほげ</2ch:msg>
</2ch:post>
<2ch:post time="">
 <2ch:name value="" id="" be="" />
<2ch:msg>あげ</2ch:msg>
</2ch:post>
</2ch:dat>

みたいな形でしょうね・・・。
0241動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 12:24:07ID:uS+Zg9fZ0
今はdatにレスを追加する時
動け動けウゴウゴ2ちゃんねる<>sage<>2008/04/14(月) 02:21:40 ID:uJeEyM4Q0<> まずは文字集合と符号化方式の違いからお勉強しようか <>
を単純に追加すれば良かったが、xmlならそうはいかないんだよね
単純に追加するのとxmlを再構築するのにどれくらい処理時間/処理能力に差があるのかしらん
0242動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 13:18:19ID:UqZJCtMn0
XML化のメリット?

・beのようなdatに書く性格の機能追加対応が容易
・クライアント側にパースレンダリングを投げられるため、当該部分のストリーム転送だけで済むので負荷が減る
・ディスク追記のタイミングを非同期に出来る(ライブスレッドは基本オンメモリで)
0243動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 13:53:08ID:8lP9ZWi10
XML文書にすると、<>区切りよりはるかにサイズがでかくなってしまうよ(´・ω・`)。
だけど、一度に読み込んでメモリ上にDOM展開できるから、いろんな抽出や
編集処理はし易くなるね。
0244動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 14:02:25ID:UqZJCtMn0
XML採用の最大のデメリットはメモリとディスク容量の問題(UTF8化と含めて約3倍ぐらい)ですね。
とはいえ、UTF8化だけでも512KBリミッターが確実に問題になるので、そのへんをひろゆきがどうしたいか次第でしょうね。

ちなみにUTF8化は2chが抱える2つの問題の解消も図れます。

・read.js使用が容易になる
・UTF-8系がデフォであるトラックバックの文字化け解消

0245 株価【1000】 △△ ◆cZfSunOs.U
垢版 |
2008/04/14(月) 16:06:00ID:uW55yU790
>>244 上の方で書いたことではあるんですが,少なくとも現状では
read.js 利用上 Shift JIS が問題になっているということはほとんどないですし,
逆に UTF-8 にすれば read.js の抱える問題が目に見えて改善されるということもないと思います
(read.js の抱える問題はむしろ別のところにある,と >>36).

まぁ,read.js 云々とは別の観点(国際化とか)からは検討の価値はあるかも,
というところだとは思いますが.
0246動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 18:15:41ID:0Ly6tNjI0
新鯖追加のついでに外人用鯖、板でも作ったりする?w
新規の外人なら専ブラ使わないし。

GLの英語化とか必要だろうし、削除とか大変そうだけど。。
0250動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 20:26:27ID:40B7tu6Z0
誤爆申し訳ない。
ところで誤爆ついでに質問なのだが、トリップなどは正常に今までどおり機能するの?
どこかでトリップが云々って聞いたんですがー
0252未承諾広告※ ◆TWARamEjuA
垢版 |
2008/04/14(月) 21:06:25ID:xJ37E6qd0
酉は酉屋さんで♪
tu-kaもう既に改定案はまとまっていたりしちゃったりしてたんだっけ?
0253動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 21:45:09ID:eoQYvWuF0
>>252
まとまってないというか、人大杉解除&鯖新設で急ぐ必要が無くなって
しまったので停滞中と言うか。

究極的に >>65が目的ならその内また必要性が湧いてくるのだろうけど。
0254動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 21:48:17ID:KR/tGomC0
旧be板みたいに別のサーバに別のbbs.cgiを入れて、
テスト鯖作ればいいんじゃないですか。
snow.2ch.netみたいな実験サーバ扱いで。

実験板で最低限の動作確認したら、
VIPなりν速なり狼なりを入れればいいんだし。
それで問題なければ、サーバリフレッシュ工事でどんどん移転していくと。
0257動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 22:31:23ID:KR/tGomC0
/dat/1234567890.dat ←従来のdat
/utf/1234567890.utf ←UTF-8なdat
って感じでUTF-8なdatは別フォルダに置くのもありかもね
0258動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/14(月) 22:50:19ID:aKkJUmqR0
Unicode使うと海外とかからのロボット爆撃が激しくなるなんてことないよね…?
EUC-JPやUTF-8は海外でも分かりやすい規格だけど
Shift_JISって日本のみで使われてるんだよね…?
0262動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 01:53:14ID:x33BRSyR0
SJIS以外のコードにすると携帯の絵文字は全滅だよね
ってか、2ちゃんの書き込みなんて99%はSJISの文字
(正確を期すとJIS X 0201と0208の文字集合)
なんだから利用者的にはUTF-8になるメリットが少なくね?
0264動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 04:27:23ID:fw6LTgXw0
そもそも2chはぴろゆきの個人の掲示板なので、利用者のメリットとかあんまどうでもいいのです。。。
0265動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 07:21:22ID:zruzuaAC0
>>260
書き込みがあるたびに、shift jisの.datとutf-8の.utfの両方を作るんじゃなくて、
.utfしか作らないんだけど、別フォルダにしておくと言いたかったのです。
subject.txtもutf-8版はsubject.utfにすれば、subject.txtや/datは
エンコードが変更しましたと書かれている924.datだけ置いてutfに誘導できるから。
0266stream ◆PNstream2s
垢版 |
2008/04/15(火) 08:27:58ID:owLyqy6F0
ところで、提案者の示した目的が「負荷軽減」だけど、( >>4 )
負荷軽減はUTF-8化では無理、というかむしろマイナスという結論。
それを受けて提案者はどう考えてるのか。
0267動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 08:33:33ID:fw6LTgXw0
>>265ぬるぽど・・・とすると例えば、新しい構成のdatは
/operate/utf/1207973589.dat
とかなってて普通にutf8版datが入ってて、mod_rewriteで
RewriteRule ^/operate/dat/([0-9]+)\.dat$ /operate/dat/pleaseuseutf8.dat
とかしておいて
/operate/dat/pleaseuseutf8.dat
にはsjisで
utf8使え<>utf8使え<>utf8使え<>utf8版を使えや(゚Д゚)ゴルァ!!<>utf8版を使えや(゚Д゚)ゴルァ!!
みたいなのが一行だけ入ってる、とw
0269動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 10:14:58ID:gVyxVVdr0
2ちゃんねるブラウザ「JaneView」 Part54
http://pc11.2ch.net/test/read.cgi/win/1202424797/840
840 名前:View ◆AcQTmXmylo [sage] 投稿日:2008/04/15(火) 05:19:13 ID:zEhpNNaT
ガクブル
長い目で見たらメリットはあるだろうけど、
ネイティブでやろうとするとDoeのレス表示の部分の修正だけでもえらいことに。

表示だけでなく書き込みやNGワードなどユニコードに対応したUIの必要性を考えると・・・
ユニコードのコンポーネントはTntWareがTMS Unicodeになってシェア化されてしまってたり。
RichEdit2.0を使うのもいろいろ問題有り。

JaneViewに関しては自分がTntWareの最終版を持ってるのでどうにでもなるけど、
OJはいよいよまずいかな。。。
0271動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 11:10:25ID:gCHxp9NE0
サーバリソースのゆとりがあるなら、の話ですが、utf8>sjis変換サービスってのもありかも。

sjisで要求→1234567890.utfしかない→read.cgiは別ホストで動いている変換サービスにutf-datを投げる
→変換サービスはdatをsjisに変換→変換サービスは要求したホストに直接datを返す。

去年の後半あたりから「非同期」が一種のキーワードになっています。
これはその考えを反映させたもの。
0272動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 13:48:52ID:JP1tmOnY0
人大杉対策としてread.cgiはc.2ch.netなしくみで動かすというのもありかも。

現在のc.2ch.netのphpスクリプトを元に
ブラウザで表示したときの見た目がread.cgiと同等なものを作って
それをpc.2ch.netみたいな名前を付けたサーバで動かして
bbs.cgiが入っている鯖のread.cgiは全部止める変わりにそっち使ってという感じで。
0274動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 14:37:02ID:v+BHHlzC0
文字コードは根っこが深いからテストサーバー作って
コツコツとつついていくのが良いと思う。
utf8.2ch.net
0277動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 15:44:48ID:+NkgmXUf0
単にIE6でアクセスされたら専ブラかIE7かFirefoxかSafariかOpera使えって返せば良い予感。文字コードだけが問題じゃないようだし。
0278動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 16:31:43ID:RHiqUynv0
MEサポートしろ
0285あらすじ
垢版 |
2008/04/15(火) 23:23:25ID:9ycp3lZE0
ひろゆき)人大杉が出ると、閲覧できる人が減って広告収入に影響がでるから困る。

ひろゆき)鯖のセッティングのことはよくわからないけど、人大杉が出るってことはサーバーリソースを使いすぎってことだろう。

ひろゆき)サーバーリソースを使わないread.jsを標準にすればよくね?

SunOs)read.jsだとIE6で挙動不審だからデフォルトで採用できないっす。

ひろゆき)なるほど。(文字コードがUTF8なら問題解決ってことだな)

///////////////////スレ立て////////////////////////////////

ひろゆき)datをUTF8にするのはどうだろう。 >>1

技術屋さん達)ざわざわ。問題点はあーだこーだ。

ひろゆき)サーバリソースを使わないモデルにできれば、人大杉が無くなるよね。(真意)>>65

SunOs)read.jsを標準で使わない理由は文字コードの問題じゃないってばよ。>>36,72

SunOs)ちなみに人大杉の時にread.jsを効かなくしてるのは、鯖屋のFOXの指示ですわ。>>73

ひろゆき)じゃあ人大杉のときはread.jsを標準で使うようにしてください。(目的達成)>>93

SunOs)了解っす。>>123

技術屋さん達)ざわざわ。UTF8にしたらあんなことやこんなことを。

ひろゆき)文字コードを変えるとしたら、サーバ移転ごととかそんな感じすかね。(適当な思いつき)>>167

技術屋さん達)ざわざわ。あーだこーだ。

root)管理人がやれって言うならやるけどさ。技術屋の威信をかけて。>>216

専ブラ作者)思いつきで仕様変えるのかよ('A`)マンドクセ>>269
0287動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 23:41:06ID:FySE2P/g0
苦労してまでUTF-8にするメリットが見つかりませんが・・・
ちなみにUnicodeならJIS2004も扱えたりするんですけど、専ブラも当然対応するんですよね?
0289動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/15(火) 23:48:53ID:2CK6LpAs0
しばらく実験用の鯖だけで動かしていれば
その間にユーザーがつつくから対応してくれるかもしれない。
更新が止まって久しいソフトは淘汰されそうな気がする。
0290stream ◆PNstream2s
垢版 |
2008/04/15(火) 23:50:04ID:bBUm3FbL0
スレ立て前の経緯を今知ったぞ
0293root▲▲ ★
垢版 |
2008/04/16(水) 01:06:57ID:???0?DIA(100256)
>>291
確かに。
>>234 と同様に Unicode の問題ですね。
0294動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/16(水) 01:13:00ID:fJ7JEU020
>>291
それ、今でも文字参照で可能。ただ、既にブラウザ・OS側で対策されてるからあまり問題ない。
98? ME? んなサポート切られたOSなんて知らね。
2000? M$神はあなたを見放した。
0296stream ◆PNstream2s
垢版 |
2008/04/16(水) 01:17:53ID:ek0XYmnn0
今の2chでも&rlo;使えるしなあ
&rlo;あなるえ使;olr&もでhc2の今
0298動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/16(水) 01:23:21ID:VmcCj0d9P
リンクの偽装に使えるのかしら。
いずれにしてもリンク先になにがあるかは2chが関知するところではないのだけど。
0299動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/16(水) 06:15:02ID:FX89xfze0
地デジでも採用されてる、ARIB 8単位符号(STD−B24)にしようよ。

JIS 8単位符号ベースだから、多国語対応もOK。
DRCSをつかってユーザ定義の絵文字を混ぜられる。
漢字は2 bytes、英数・平仮名・片仮名は1 byte。要エスケープシーケンス。
更にC0, C1制御符号を使って、書式も付けられる。
0305動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/16(水) 22:49:07ID:2koVwYXu0
utf化でどの程度、データーの容量増えるか実測してみた
tmp7のdownload板の全datファイルをダウソして実験

元のdat  -- 38MB
UTF8化dat --- 46MB (1.2倍)


次に、gzipでこれらを圧縮してみた
UTF8化してもほぼ同じ容量になる

圧縮後の元のdat -- 12MB
圧縮後のUTF8化dat -- 13MB (1.1倍)

メジャーなブラウザーは通信時データーをgzipで圧縮できるので
通信帯域的にはUTF8であろうがなかろうが同じ程度になると思う。


次に、datをUTF8化して、更に、XML化してみた
↓例えばこのスレのdatをXML化
ttp://www7.axfc.net/uploader/93/so/File_5414.xml.html
XML化しても圧縮するとやはり元のdatと同程度のサイズだった。

XML化後のdat -- 54MB (元のdatの1.4倍)
圧縮後のxml化dat -- 14MB (圧縮後のdatの1.2倍)


datをUTF8化して、ついでにXML化もしてはどうかな?

今read.cgiにアクセスしてくるようなビュワーを使わない「普通の」閲覧者にも
XML化datとスタイルシートを与えて閲覧者のブラウザー側で見栄えを処理してもらえば
perlとかをガリガリ動かすより負荷も減るかと思う。

閲覧者に広告をフィルタリングされやすくなっちゃうだろうけどw
逆に見てもらいたい広告を挿入しやすくもなると思う。
0309動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/16(水) 23:38:27ID:whhUnnKa0
SJISからUTF-8にしたり
datをXMLに変換するのは負荷になるだろうね。
そこで最初からUTF-8、最初からXMLであれば話は別かと。
0315動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/17(木) 19:31:33ID:GmeyqZuk0
ユニコードってバックスラッシュと円記号って違うコード?
エンコードによって揺れる?
0320動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/17(木) 22:33:14ID:x31S+u9S0
>>318
荒れてるんじゃなくて、台湾版ニコニコ動画の掲示板のログを持ってきた
って管理人さんが書いてた。
考えてみたら、http://tw.bbs.nicovideo.jp/user/ の方を紹介すべきだったかな。
ニコニコ動画が運営しているUTF-8エンコードのサポート掲示板。
0324動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/19(土) 00:04:03ID:hJxMwF/u0
マイクロソフトの変換法では、日本の円記号はUnicodeのバックスラッシュ(U+005C)に変換される。
そして、日本語用のフォントではバックスラッシュ(U+005C)を円記号として表示してしまうのである。
賛否両論の対応ではあったが、旧来のソフトウェアを捨て去ることなくUnicodeを利用できる現実的な方法として広く使われている。

なにこれー
0325動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/19(土) 04:37:18ID:PNa6uLXK0
Windows のフォントにパッチを当てて、円記号を無理やりバックスラッシュにしたり
してた人も居たはず…
0326動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/19(土) 09:40:01ID:E5leIjkHP
Beかなんかで、トリップの文字化けがあったよね。関係あるのかな。
ログだけじゃなく、全部ひっくるめて統一したい、とか?
0327動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/19(土) 10:47:11ID:i4TihsY/0
エンコーディングにSJISを使うかUTF-8を使うか、ということより
最終的にどんなフォントが使われるかということだな、問題は。
0329動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/19(土) 12:05:13ID:WwihNvKZ0
すくなくともバックスラッシュを多用する板なんて限られてくるんだし(ム板とか)
そいつらがBSを表示できれば問題ない
0330動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/19(土) 12:18:26ID:BN4RLckC0
AA職人もバックスラッシュは欲しがるんじゃないか?
ってもMS標準のUnicodeフォントで統一されるなら支障無いと思うけど
0335動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/19(土) 14:29:20ID:PNa6uLXK0
以下スレチ
>>326
(旧 BE板と) BE プロフィール画面でのトリップ非互換問題は以下の通り。

・BE の内部処理が EUC-JP で、なおかつ本来トリップとしては不正な多バイトコード
 もしくはいわゆる半角カタカナを使用しているため。
・プロフィール画面の方では、各処理系で特殊用途として用いられる文字のエスケープ
 処理が板のトリップでの処理と違うため(「"、'、[、]、\」なんかが該当)。

すべての原因は何処かのスレで自身が発言してた、ひ(rが文字コード問題に弱いため。
0343動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 02:52:04ID:6eEXFguv0
世界はUTF-8
0344動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 04:29:24ID:2uISEUW5O
俺のサイトもSjisからUTF8にしようと思ったけど面倒だからやめた。
PHP使ってるから初めからほうしとけば良かった。
0350動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 13:03:17ID:6E0oOuN20
えんこーでぃんぐだけじゃなくてゆーあいにひょうじしたりあぼーんでのしょりがふくざつになるのに
お前はアホか。
0356動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 16:42:43ID:E+evngot0
つまりエンコの変更に対応できないようなソフトを作っておいて
自前のコントロールじゃないからどうとか開発環境の内部処理が
どうとかOSがどうとか言い訳がましいことを言うなと
0357動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 16:45:36ID:siTEX6bu0
>>353
でも不可能じゃ無いし、実際95でも使えるアプリでUnicode対応してるのも
ある。

ちょっと検索すれば判る程度の話だし。
0358動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 17:05:38ID:6E0oOuN20
不可能じゃなければ簡単なわけじゃない。

>>356
やったことがなくてわからない事までろくに知りもせずに言及するな。
>>345のような発言する時点で実際にどんな問題が出てくるか全く把握してないだろ。
0361動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 17:22:48ID:CuEhiLzy0
2chブラウザ製造機によく使われてるDelphiがUTF(Unicode)に標準で対応してないんだ。
かちゅ、ギコナビ、ホットゾヌ、Jane系は騙し騙しの対応になるか、対応を諦めるかのいずれかになるな。

そもそもひろゆきがUTF8に変更する積極的な理由がなくなったんだから
このままでいいんじゃないのかね。
0362動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 17:47:46ID:E+evngot0
2ch鯖がSJISに特化した処理結果を返してるからといって
クライアントがSJISを前提にした設計にしちゃっていい理由には
ならんだろ?文字コードが変更されたとき、ユーザーの手間を
最小限に抑えて最低限の表示が出来るような設計にしておかなきゃ
糞だろ?
0364動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 18:41:36ID:nLYdFtzu0
専用ブラウザがどうのこうの言ってるけど
おいらのJDには関係ない
ついでにいうとNavi2chでも関係ない
つまりはどうでもいいってこった。
0366動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 19:58:54ID:OWZ6WVMR0
2chサーバ側の仕様なんて、これまでも結構変わっているわけで、
専ブラ作者もそれに追従してきている。
(gzip圧縮とか、EUCとか、バーボン回避のウエイト挿入とか)

今回の場合、暫定回避策を作るとすればliveb1.2ch.netみたいのを
ベースに変換Proxyを用意して、未対応の専ブラはそこを経由させる
ような対応もあるだろう。

もちろん「表示不能な文字が出る」「更新が遅延する」等の制限も
あるわけで、それを回避したい作者はUTF-8の本格対応をしてくる
だろう。

ま、実験サーバで様子見ながら進めるのが良いだろうね。
0367動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 20:59:57ID:glaB1xWs0
ていうかそもそもUTF-8にするメリットってあんの?
専ブラとかトリップとかデメリットははっきりしてるけど
0368動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/20(日) 22:29:35ID:OWZ6WVMR0
UTF-8のメリットと言うよりも、SJISのデメリットの方が大きかったり。
SJISのままだとまともに検索処理できなかったりするしなあ。

findがEUCなのもこの辺が理由だろうし。
0374動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/21(月) 22:25:50ID:fSMi00ydO
同鯖なんだから、iframeでSJISのテキストひっぱってきて、
JSで整形すればいいジャマイカ
IE6どころかそれ以前でも問題ない

Ajaxにこる必要はないですよ、と。。。
0383動け動けウゴウゴ2ちゃんねる
垢版 |
2008/04/23(水) 05:56:01ID:EDGasE+IP
いつかはやるべきだろうけど、「動いているモノはいじるな」でしょうか。
googlebot対策なんかやるのかな?
0384ひろゆき@どうやら管理人 ★
垢版 |
2008/04/25(金) 07:50:49ID:???0?S★(1018222)
sports11もread.jsの設定お願いしますー。
0389動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/05(月) 17:25:01ID:afyb9tX10
(´・ω・`)このスレ終わっちゃったの?
0390動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/05(月) 17:58:44ID:U3TbI2+30
>>389
「俺がUTF8化してやるぜ! utf.2ch.netという名前を付けて鯖よこせ! 」
みたいなことを言う人が現れなかったので終了しました。
0392動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/06(火) 21:05:24ID:ztX/ckgM0
実際UTF8化した場合、簡単な設定変更で表示可能なブラウザって
IE以外だと何がありますか?(IEならエンコードは自動認識だったかな)
0397動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/07(水) 00:43:11ID:FVQiW6yh0
今時、問題になるようなウェブブラウザはないかと。
(ウェブブラウザが見るのはhtmlだから、もし問題ならread.cgiが
SJISなhtmlを吐くようにすればいい)
対応が大変なのはdatを自分で読んでいる専ブラ。
0398委員長 ◆/DABoneCRY
垢版 |
2008/05/07(水) 05:20:13ID:QxFtrOUb0
専用ブラウザの場合、最悪IEコンポーネントを使っているなら
そのままUTF-8で吐き出せば表示されるかな?と思いますが
独自描画だとキツいでしょうねぇ。
内部でSJISにコンバートしてから表示ってことになるかな?

SUBJECT.TXTもUTF-8になるのなら、同じ感じですね。
スレッド一覧表示のところね。
上手く表示出来ない文字とか出るんでしょうねぇ。

SJISのままで行きましょうよ……。
0400動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/07(水) 10:37:11ID:FVQiW6yh0
ご時世を考えるとむしろ内部UTF-8な専ブラもあったりするんじゃないかと
思わないでもなかったり。

ところでトリップの話が出てますけど、トリップだけはSJISに変換して
計算すればいいんでない?
あと、トリップの強度を上げる話は、キーはSJIS8バイト以内なら現トリップ、
それよりキーが長ければ次世代トリップというように、互換性をもたせたまま
拡張する手もある。
0402動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/07(水) 18:05:49ID:PHJOcw2w0
>>400
トリップの件… 多分この板の過去スレのどこかにソースがあるはずだけど(トリップ
統一スレだっけかな?)、2ちゃんねるの仕様としては、non-ASCII なキャラクタは
トリップコードしては不正なはず。
0403stream ◆PNstream2s
垢版 |
2008/05/07(水) 18:28:39ID:m32b509z0
>>188
0404動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/11(日) 10:29:19ID:3JPX5k+W0
管理人がそう言っていたとしても、
現実使ってる奴がいる以上需要はあるかと。

対応する理由が2ch側には無いのはわかってますけどね。
0406動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/18(日) 06:06:12ID:yWeFaP7n0
S-JISを通信の世界に出すなと言う20年以上昔の議論の結論が今頃出てきたなw わずかな期間のわずかなリソース節約の為にどれだけのパワーが削がれてきたのか、 そして、正しき状態に戻すためにどれだけのパワーを必要とされるのか、、、南無、、、
0409動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/18(日) 08:30:45ID:uwERh9TE0
>>406
20年以上前は80x40の端末しか存在しなかったから
改行して読みやすくするなどの
読み手のことなど全く考慮する必要がないということですね。
0410動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/18(日) 09:17:21ID:jVWe2BtW0
通信の世界で使えと言ってたのはISO-2022-JPなわけだが(今でも日本語メールにその名残がある)
datをISO-2022-JPにしろとでもおっしゃいますか
アホか
0411動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/18(日) 11:08:47ID:HxyQJ5j/0
>>410
名残もなにも、RFC 1468(ISO-2022-JP)は現役バリバリで obsolete されていないから、
text/plain での日本語環境 mail/netnews じゃ ISO-2022-JP しか使っちゃ駄目。
0418動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/19(月) 23:02:17ID:PaaKUwwi0
こんなにあるもんなのか

UTF-7
UTF-16 (後述)で表したUnicodeをBase64で変換して表す方式。
ただし、ASCIIのアルファベット範囲等については(ry

UTF-9
8ビット単位の可変長コード(1?5バイト)にエンコードする方式。
ISO-8859-1に対して一部互換である。
しかし、UTF-8が普及しつつあり、それと比べて欠(ry

UTF-18 (エイプリルフールネタだそうで)
Unicode符号位置を単一の18ビットによりエンコードする方式。
UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた(ry
0422動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/20(火) 15:02:44ID:CxBd8N6S0
> 30 名前:止まない雨は名無しさん[sage] 投稿日:2008/04/11(金) 17:52:40 ID:3n18t16j0
> 狐は「もうずっと人大杉」にした。
>   ひろゆきは三度、専ブラを使え(で書き込め)なくした。
>     それを受け、むむむさんは静かにqb5・6を停止した。

ニュース実況++ / 2ちゃん人大杉拡大 行き場を失ったユーザーの荒らし行為が各地で続発★3
ttp://news24.2ch.net/test/read.cgi/liveplus/1207900534/30
 嫌な予感がしてkakikomi.txt確認したら…>‎>1ネタをネタと(ry
0423動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/23(金) 20:07:51ID:7tXSpSoi0
よし、文字コード設計からやろう
0424動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/24(土) 01:23:43ID:m9uPvIcS0
datの先頭あたりで判別できるようにすればいいんじゃないかな

Shift_JIS:[名無し]さん(bin+cue).rar<>sage<>
UTF-8:[名無し]さん(bin+cue).rar><sage<>

ってみたいに
0430動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/24(土) 12:49:22ID:PCPcTJ5b0
いわゆる BOM 付き UTF-8 は問題児なので反対。RFC 3626 でも基本的に
「使用を禁止すべき」扱いだし。ていうか、HTTP header の Content-Type の
charset で十分だべ。
0431動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/24(土) 15:28:00ID:jwQb16jz0
datファイルは2ちゃんねる専用フォーマットだから自由に設計していいんじゃね?
もちろん標準バリバリでXML化でも良いけど、標準ってのも移り変わるもんだからねぇ。
0433動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/24(土) 15:50:33ID:jwQb16jz0
圧縮とセットならXMLもそれほど容量に影響しないと思う。
同じようなキーワードが並ぶのなら全部符号化されちまう。
0435動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/25(日) 13:45:49ID:U0RJgIvu0
このスレの主旨?とはまったく異なる視点で…

・read.cgi が吐くものを XML で再定義する
・それに食わせる dat?も XML で再定義する

ってのなら、まだ分からんでもないけど > dat?の XML 化

専ブラ開発者からみたら、メリットはないわな。
0437動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/25(日) 15:57:25ID:nr0ZnGPL0
> ・read.cgi が吐くものを XML で再定義する

read.cgiの吐くhtmlにスキーマを付けるのには全く独立した話として賛成。
0438動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/25(日) 19:13:36ID:/yE7qfVJ0
>>430
> いわゆる BOM 付き UTF-8 は問題児なので反対。RFC 3626 でも基本的に
> 「使用を禁止すべき」扱いだし。

RFC 3626 Optimized Link State Routing Protocol (OLSR) って
Unicode 関係なくない?
0440動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/25(日) 19:43:12ID:nr0ZnGPL0
書き込みがちょん切れたorz

RFC3629的には、
datが、HTTPでやりとりされる物だと見るなら、HTTPのContent-Type
ヘッダがあるからBOMは禁止すべきということになるけど、
dat ファイル単体として見ると、エンコーディングを知る方法が
(なんらかの拡張をしない限り)ないから、BOMは禁止されるべきでない。

専ブラがローカルに持ってるdatについて、ファイル名を変えるとか、
専ブラ独自の形式にするとか、外部に情報ファイルを持つとか、
しなきゃいけなくなる。
0441動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/26(月) 16:51:29ID:ZKBghHLV0
うぁ… RFC の番号打ち間違えてたか、すまん orz

dat 単体で見たときは云々、ってのはあくまでローカルな環境、ユーザエンドで
ファイル単体として扱うときの話なんで、それは環境・アプリ依存。
2ch の素の dat のファイルがどうあろうと、それをユーザ・アプリがどう扱おうと
好きにすればいい。

意味的には、したらばの EUC-JP な dat を Winodws な専ブラがローカルに
Shift_JIS(CP932) で保存するようなもの。
0443動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/26(月) 23:05:42ID:4dBEta1n0
そもそも人間が読めるようにしてるのは誰かってことを考えればなんてことないわけで
作り直すのに時間とお金がかかるのが問題なのかなあとか思ったり
ご飯食べないで生きられて時間が無限にあれば全部解決

とか実も蓋もないことを書いてみる
0444動け動けウゴウゴ2ちゃんねる
垢版 |
2008/05/29(木) 00:47:21ID:ivI86OvK0
金も時間もあって2chの心臓部に触れられる人間というと一人しかいないな
飯のかわりにうまい棒で済むし
0455動け動けウゴウゴ2ちゃんねる
垢版 |
2008/11/04(火) 19:47:09ID:TFZ/W06V0
sjisをブラウザでutf8に変換してread.js使えばおkじゃねの?
0458動け動けウゴウゴ2ちゃんねる
垢版 |
2009/02/11(水) 21:18:57ID:qUTVryWc0?PLT(18613)
DBの容量食うけどutf8でよいよ。
???????がなくなるな。
0460動け動けウゴウゴ2ちゃんねる
垢版 |
2009/05/25(月) 16:07:09ID:ZveJmHBs0
utf8にしたらrockの方もutf8にする必要あるんじゃないの?

現在のshift-jisに無い文字はhtmlで使われてる&〜; で対応可能だけど
utf8になったら生を扱う事になって(ry
0462動け動けウゴウゴ2ちゃんねる
垢版 |
2009/05/30(土) 17:31:30ID:WUEb7YiBP
SJISはダメ文字がうざいな。
管理人の主眼はread.jsのようだが。

専ブラの対応は、文字コード処理なんてどの言語も
関数なりライブラリなりがあるから大した手間じゃないでしょ。
と、スクリプト程度しか作れない身で思ったら、
Delphiはめんどいのか>>361


切り替えは、ある時期に旧鯖は新スレ禁止、
utf鯖に全てスレを立て直して、keyの前後で区別すればいいよ。
鯖での区別はリスト保持がめんどい>>15
0469 [―{}@{}@{}-] ぞうさん
垢版 |
2009/11/24(火) 01:32:33ID:uSaRUPBN0


規制議論板から誘導されてきました。

この板を荒らした方が面白い反応が得られそうなので、これから数ヶ月間あの手この手で荒らし続けます。

これはほんの挨拶代わりのコピペマルチポポポです。

どうか面白い反応で楽しませてください。

以上、苦情は規制議論板まで。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況