1 :デフォルトの名無しさん:2011/05/29(日) 00:12:44.96
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/

115 :デフォルトの名無しさん:2011/07/10(日) 03:36:29.63
安岡はもう引退した方がいい。既に頭が老人ぼけずぎ

119 :デフォルトの名無しさん:2011/07/10(日) 07:26:41.38
>>115
「互換漢字にVSを付けられるようにすればいい」とか何も考えてないにもほどがあるよな

163 :デフォルトの名無しさん:2011/07/18(月) 13:13:12.26
MSゴシックの昴の字形みたいにいつの間にかこっそり訂正されてたりして。
その結果IBM拡張文字の昴の字形が入れ替わったわけだが
誰も話題にしていないところを見るとやっぱりほとんどの人にとっては自分の
名前に使われていない限りどうでもいいらしいな

207 :デフォルトの名無しさん:2011/08/02(火) 18:25:02.58
南堂案って委員会に提出されてないよ
http://opac.ndl.go.jp/recordid/000003624020/jpn
そもそも南堂がアレを言いだしたのは委員会終了後

214 : [―{}@{}@{}-] 忍法帖【Lv=7,xxxP】 !denji 株価【E】 u:2011/08/03(水) 02:54:06.88
で、結局南堂案のコンセプトが正しかったことが証明された。
にもかかわらず、南堂を無視し続けた。
それどころか南堂の案の重要な点である、字体の変更をトンデモ扱いした。
そんなことをすれば南堂が委員会を敵だとみなすのも無理は無い。
万死に値すると思うが。


230 :デフォルトの名無しさん:2011/08/04(木) 10:15:32.74
????????????????????????????????????

テスト

280 : 忍法帖【Lv=10,xxxPT】 !denji 株価【E】 u:2011/08/17(水) 19:50:00.10
結局南堂の業績は認めるの?認めないの?
はっきりさせろ・

285 :デフォルトの名無しさん:2011/08/18(木) 18:10:38.20
次からといわず移せばいいのに

294 :デフォルトの名無しさん:2011/08/30(火) 23:03:39.03
汎用電子のレビューコメント全然来ないのか…

319 :デフォルトの名無しさん:2011/09/09(金) 14:40:15.38
合成を使わないと某半島のアレがウン十万字分のコードポイント占めるんだよ

321 :デフォルトの名無しさん:2011/09/09(金) 16:22:51.70
>>319
合成済みのが追加済みじゃなかったっけ?
あまりにも数が多いので規則的にして計算式で求められるようになってて表からは除外されてる

328 :デフォルトの名無しさん:2011/09/10(土) 18:15:23.12
>>321
コードポイントのどのあたり?

333 :デフォルトの名無しさん:2011/09/17(土) 16:06:00.17
シングルバイト文字しかない文字列をエディタで保存したとき、
内部文字コードをUTF-8にしてもUTF-8にはならず、SJISとなってしまいます。
単にエディタが識別できないだけだと思いますが、気にしなくてもいいですか?
例えばhtmlでContent-Typeをtext/html;charset=UTF-8と指定してるにも関わらず、
マルチバイト文字がないため、内部文字コードがSJISになってる感じです。

335 :デフォルトの名無しさん:2011/09/17(土) 17:06:36.21
BOMはバイトオーダーを識別するためにあるんですよ。

336 :デフォルトの名無しさん:2011/09/17(土) 17:31:46.68
>>333
円記号については問題が発生する

337 :デフォルトの名無しさん:2011/09/17(土) 17:59:00.61
>>333
> 内部文字コードがSJISになってる

というのはどういう状態? なぜそう判断したの?


338 :333:2011/09/17(土) 18:19:16.94
レスありがとうございます。

>>335
一般的にはそうみたいですね。
UTF-8には無意味とも書いていました。
ただ判別するためにUTF-8でも使うみたいなことは書いてました。

>>336
よくわかりませんが確かに\は発生しそうですね。

>>337
エディタで文字コードを指定して保存する時UTF-8で保存しますが、
再度開いたときにSJISで開かれてエディタもSJISと判断してるということです。
バイナリエディタなんかで開いたとき、
シングルバイト文字は、SJISでもUTF-8でも、16進数ダンプで同じ値になるので、
エディタにはそのへんが判断できないんじゃないのかなぁと思ってます。

367 :デフォルトの名無しさん:2011/11/01(火) 04:28:14.19
ブログのログインみたいな感じの部分を想像してほしいのですが、
データベースやファイルに入っているログイン情報がUTF-8以外、
ログインするためにフォームから入力する値がUTF-8で、
これらを比較するとします。

基本ログイン情報は半角英数字だと思うので問題は起きにくいとは思いますが、
もしこの状態のまま、ログイン情報にマルチバイト文字を入れた場合、
ログインが出来なくなる以外に何か問題は発生しますか?

例えば情報があってないのにログイン出来たとか、
そんな感じのはありえますか?

405 :デフォルトの名無しさん:2011/12/19(月) 23:57:13.20
あれってすごく不思議なんだけど、「金」「日」は親子共用で1つでことたりるよね?
ただでさえ王家専用符号位置なのに、なんで「金」「日」「成」「金」「正」「日」って6つも使うの?

組み文字として「金日成」「金正日」を符号化したなら分解できないから仕方ないし、
「“金日成”はポップ体、“金正日”は相撲体を使う」とかの儀礼があるなら意義がわかるんだけど。

「金」「日」「成」「正」だと付け足しみたいで金正日に不敬、みたいな価値観があったりする?


そうなると、うっかり「金正日」の「日」に「金日成」の「日」を使ってしまったらお仕置きがあったりするの?

407 :デフォルトの名無しさん:2011/12/20(火) 07:42:15.65
ある国には過去、
天皇陛下 という 1x4 の活字が過去存在してたんだ。
別にどうだっていいだろうそんなもん。

415 :デフォルトの名無しさん:2011/12/20(火) 22:14:02.07
まさかUnicodeに入れるとかしないよな?

420 :デフォルトの名無しさん:2011/12/21(水) 23:45:09.33
すみません、CGI質問スレが無いので、どなたか教えてください
sitemixで、メールフォームのchamamailを設置したのですが、http://www.chama.ne.jp/download/mail/chamamail/index.htm
送信の確認画面に??と出たりメールを受け取った時のメールフォームの中が
----------------------------------------------------
縺雁錐蜑�=縺�
email=doostynahin@gmail.com
---------------------------------------------------
の様に文字化けしてしまいます。サクラエディタ使用でファイル転送ソフトはFFTPです
ローカルの文字コードはEUCにしているのですが、ホスト側の漢字コードもどう設定したら良いのでしょうか?
ホスト側をJISやSJISにするとエラーが表示されます


422 :デフォルトの名無しさん:2011/12/22(木) 06:59:10.28
おまいらなんでそんな朝鮮事情に詳しいんだ
在日か?

429 :デフォルトの名無しさん:2011/12/22(木) 13:35:42.06
日本語の文字コードの保存形式を聞きたいだけなので
こっちのほうが専門かと思ったんですが・・・



431 :デフォルトの名無しさん:2011/12/22(木) 14:16:57.94
>>429
ソースをダウンロードしてみたら、chamamail.cgi(perl code)はシフトJISで書かれていた。
更に改行コードがCR+LFなので、Windows環境で開発された物と思われる。

>■設定設置方法
の部分を見るに文字コードについては一切の指定が無い。
どうやら作った人間は、そういう事まで頭が回らない人間と思われる。

ソース中に、
print "<META http-equiv=\"Content-Type\" content=\"text/html; charset=Shift_JIS\">\n";
というハードコーディングがなされているので、シフトJISのままサーバーに設置する物なのだろう。

ソースに書かれた日付を見ると、どうやら最後にメンテナンスされたのは2001年頃らしい。

2001年頃に、サーバー側にインストールされていたperlのバージョンを考えると、
最新でも5.6.0、ちょっと古ければ5.5.0、5.0.xxx、下手すればperl4の可能性だってある。

シフトJISのまま動かない理由としては、perlはバージョンが変わると、
使用可能なリテラルが変わったり、エスケープしなければならない文字が変わるので、
シフトJISで書かれたコードは上記の制限に該当しやすいのでエラーが発生し、
それはCGIでは結果的にInternal Server Errorを引き起こす。

これは元々シフトJISに対応していないperlで、
無理矢理シフトJISを使う事による弊害なので、perlが悪い訳でも無い。

修正したいならエラー出力に、問題となった箇所が出力されている筈なので、
httpdのerrorログを見てソースを修正すれば良い。

あとは↓のスレに行ってやれ。
http://toro.2ch.net/test/read.cgi/tech/1319953460/

449 :デフォルトの名無しさん:2012/01/05(木) 09:45:50.28
え、なにこれ…

Genuine Han Unification
http://blogs.adobe.com/CCJKType/2012/01/genuine-han-unification.html
http://lundestudio.com/PDF/iuc35-lunde-s12t2.pdf


460 :デフォルトの名無しさん:2012/01/07(土) 00:50:31.27
Han Unif.がレンダラ実装の重荷だってことは分かるけど、
レンダラは主なものに収斂してきているから、
こういう動きが足早に進められることはなさそう。

461 :デフォルトの名無しさん:2012/01/07(土) 08:29:02.18
>>460
よく意味がわからないのだが。
純粋なレンダリングの処理にはコードポイントは関係ないし、
フォントの切り替えとかの話なら別にHan Unif.が無くても生じるわけだが。

463 :デフォルトの名無しさん:2012/01/07(土) 11:43:07.48
>>461
コードポイントでなく、
言語情報でフォント切り替えるのは、
ハンユニフィケーション以外にあるの?

475 :デフォルトの名無しさん:2012/01/15(日) 00:27:41.03
ISO-2022-JPのファイルで「ESC ( B ESC $ B」とか「ESC ( B ESC ( B」という並びは形式的に許されますか?

508 :デフォルトの名無しさん:2012/02/04(土) 21:30:32.27
URL貼るの忘れてた
https://sourceforge.net/projects/code2000/
OFL 1.1とのデュアルライセンスになった模様

547 :デフォルトの名無しさん:2012/03/01(木) 02:13:06.91
むしろ、複数コードポイントが1文字になるのでUTF-32の存在意義すら危うくする存在>IVS
合成やセレクタをうまいこと区別できるUTF-??出てこないかなあ。

566 :デフォルトの名無しさん:2012/03/02(金) 22:11:09.49
CIDをUnicodeに変換する事って出来るの?
記号(♂)のまっすぐバージョンがCIDにはあるんだけど、これをhtmlで表示させたい(もちろん、フォントには収録してます)。
もし、Unicodeに出来るのであれば、そのコードを指定してやれば表示させられるとは思うのですが、果たしてCIDをUnicodeに変換する事は可能なのでしょうか?

573 :デフォルトの名無しさん:2012/03/03(土) 11:19:19.87
もしやもしや、FirefoxのIVSってTruetypeしか対応してない?
花園明朝のTrueならIVS表示できたがOpenだとIVS表示できてない…

574 :デフォルトの名無しさん:2012/03/03(土) 11:47:22.43
あ~、jp78とかいう属性付けるとIVSではないけど異体字表示できますね。
俺としてはIVSでやりたいんだが、誰か方法を御教授願います。

578 :573:2012/03/03(土) 19:29:53.70
http://senda.shiteyattari.com/aalt.html

何か信じてくれてなさそうなので表示サンプル作ってみた。ローカルに落として、それぞれのフォント指定を自分の環境に変更させた上で
Firefoxで表示させてみて。OTFだけIVSが正常に表示されないから。

もし、俺のコーディングがおかしくて表示されてないのだとしたら、修正稿の提示をどうかお願いします。

584 :デフォルトの名無しさん:2012/03/11(日) 13:26:15.37
そういや結局0213って改正するの? 常用漢字の関係で

598 :デフォルトの名無しさん:2012/03/24(土) 20:21:52.09
さっそくバグ
http://slashdot.jp/journal/548379/%E3%80%8CU%2B9415-U%2BE0101%E3%80%8D%E3%81%A8%E3%80%8CU%2B9415-U%2BE0103%E3%80%8D%E3%81%AE%E5%B7%AE

599 :デフォルトの名無しさん:2012/03/25(日) 14:07:19.61
>>598
なんでレビューのときに指摘しないの? 指摘してるけど無視されてるの?
(無視したらそれまででそのまま登録するしかない)

604 :デフォルトの名無しさん:2012/03/25(日) 22:42:55.72
>>599
Unicodeのレビューシステムが壊れてて
結局レビューが届かなかったらしい >>294

659 :デフォルトの名無しさん:2012/06/12(火) 15:38:38.15
http://www.icelandreview.com/icelandreview/daily_news/International_Day_of_Icelandic_Letter_%C3%9E_Celebrated_0_390746.news.aspx

英語がよくわからないんだけど
U+00DEがUnicodeに収録されたのが1994年6月9日ってこと?

665 :デフォルトの名無しさん:2012/06/25(月) 22:21:18.35
安岡はキティの癖に、
コレじゃまるでマトモな人じゃないか。

666 :デフォルトの名無しさん:2012/06/25(月) 23:43:55.09
漢字やキー配列の話題から離れればこんなものなのかも。

672 :デフォルトの名無しさん:2012/06/27(水) 22:02:50.38
次回が最終回

684 :デフォルトの名無しさん:2012/07/11(水) 17:28:44.01
1:1ってのがコードポイントの話ならno、
ラウンドトリップ可能かって意味ならyes…だったと思う。

685 :デフォルトの名無しさん:2012/07/11(水) 18:00:46.36
ということはJISの文字はそのままUnicodeに変換可能。
CJKの問題はあまり影響無いような。

689 :デフォルトの名無しさん:2012/07/11(水) 22:33:52.23
文盲が多いな
「我々が扱いたい日本の文字はx0213以外の文字もあるため
CJKの問題を考慮する必要があります」って言えばいいだけだろ
誰もCJK統合に問題がないなんて言ってないし

693 :デフォルトの名無しさん:2012/07/12(木) 18:23:01.02
Office 1 の頃から?
ちょっと信じられんが。

706 :デフォルトの名無しさん:2012/07/27(金) 19:01:38.86
http://slashdot.jp/%7Eyasuoka/journal/553806
>U+20F96は誰が提案したのか

711 :デフォルトの名無しさん:2012/08/01(水) 01:17:22.20
有効なUnicodeのコードポイントかどうかを判定する必要に迫られているのですが、
どう調べたらいいですかね。コードポイントのデータベースとか、APIとか。

自分が受け取ったHTMLに文字参照(数値参照)がたくさん含まれているんだけど
どうもデタラメなコードポイントを含んでいるようで、それをチェックしたいのですが。
あ、HTMLから文字参照を抜き出すとかその辺はできてるんですが、数値の判定を
どうするかということです。

まあ実際にはいろんな次元のデタラメがある(たとえばUnicode的には正当でも
文書内容的におかしいとか)わけですが、今はUnicodeのレベルでのチェックを
必要としております。

712 :デフォルトの名無しさん:2012/08/01(水) 01:41:03.42
自分が使いたい文字の一覧を作っておけばいいだろう。
君が何を有効としたいかは誰にもわからないわけだし。

713 :デフォルトの名無しさん:2012/08/01(水) 01:50:05.73
\p{Cn}

714 :デフォルトの名無しさん:2012/08/01(水) 04:59:22.11
>>711
割当済コードポイントの一覧が欲しいってことならこれ。
http://www.unicode.org/Public/6.1.0/ucd/UnicodeData.txt

715 :デフォルトの名無しさん:2012/08/01(水) 08:34:50.33
どうも>>711です。

>>712 とりあえず最低限のチェックをしたいなと思って。
>>713 perlですね。なるほど。
>>714 なるほど。

というわけで>>713>>714をまず試してみようかと思います。どうもありがとうございます。

716 :デフォルトの名無しさん:2012/08/01(水) 11:29:05.51
>>715
シフトJISだけでいいなら
Unicodeコンソーシアムのcp932を基に一覧作るとか

728 :デフォルトの名無しさん:2012/08/22(水) 00:59:38.82
DIS 10646第1版
http://ja.wikipedia.org/wiki/DIS_10646
ってもう少し詳しい情報載ってるところある?

733 :デフォルトの名無しさん:2012/08/24(金) 12:43:49.51
http://www.itscj.ipsj.or.jp/senmon/11sen/sc02.html
>JIS X0221については前回の改正から5年が経過するということで,
>2012年度は第3版の内容に基づいた改正を検討することになっている.

734 :デフォルトの名無しさん:2012/08/24(金) 18:09:26.47
10646じゃなくJIS X 0221を参照している規格ってあるのかな

739 :デフォルトの名無しさん:2012/08/27(月) 12:37:24.88
http://rtk.art.coocan.jp/cjk/rads/index.html

745 :デフォルトの名無しさん:2012/08/28(火) 22:17:55.13
文字コードと関係ないが、
安岡はバイトオーダーについて
少しは勉強した方がいい。

748 :デフォルトの名無しさん:2012/08/30(木) 00:58:43.10
>>713
化石レスなんですがperlが対応しているUnicodeのバージョンって調べられますかね?
自分の環境でやったらどうもCJK Extension C/D の文字が微妙な感じなので。

749 :デフォルトの名無しさん:2012/08/30(木) 01:29:09.72
>>748
データベースのバージョンなら
perl -MUnicode::UCD -E 'say Unicode::UCD::UnicodeVersion();'
かな


http://toro.2ch.net/test/read.cgi/tech/1306595564/l50/../人気ブログランキングへ