[B! 文字コード] nikunokiのブックマーク

nikunoki id:nikunoki

文字コードに関するnikunokiのブックマーク (3)

シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories
2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら
nikunoki 2007/05/18
文字コード

シフトjis

文字化け
リンク
マルチバイト文字列関数 (mbstring)
導入全ての文字をシングルバイトで一対一表現可能な言語は数多くありますが、文字表現に単一バイトによる表現範囲を越えるほど多くの文字を必要とする言語も多くあります (1 バイトは 8 ビットから構成されます。各ビットには、1 あるいは 0 の 2 種類の値しか保持できません。そのため、単一のバイトで表すことのできる値は 256 (2 の 8 乗) 種類までとなります)。マルチバイト文字のエンコーディング法は、 256 を越える文字を通常のビット単位の符号化システムで表現するために開発されました。マルチバイトエンコーディングで符号化された文字列を (trim, split, splice などで) 処理する際、こうしたエンコーディングでは二つ以上の連続するバイトが一つの文字を表す可能性があるため、特別な関数を使用する必要があります。マルチバイトに対応しない文字列関数を文字列に適用した
nikunoki 2007/05/09
php

文字コード
リンク
文字エンコーディング毎のUnicodeマッピングの違いについて。 - Enjoy*Study
Javaにおいて、文字コードの変換は、文字エンコーディング対Unicodeの変換表を使用して行われます。同じ字形でも、文字エンコーディングによってUnicodeとのマッピングが異なるので注意が必要です。文字エンコーディングによって、Unicodeとのマッピングが異なる字形について、下記の表にまとめます。なお、下記表で「JIS X 0212」と書いてある項目以外は、「JIS X 0208」の字形となります。参考：Enjoy×Study - 文字エンコーディング毎の収録文字の違いについて。確認したバージョンは、Sun J2SE 1.4.2になります。字形 ¢ £ ¬ ‖ − 〜 ― 〜(JIS X 0212) コードシフトJIS 0x8191 0x8192 0x81CA 0x8161 0x817C 0x8160 0x815C − 日本語EUC 0xA1F1 0xA1F2 0xA2
nikunoki 2007/04/18
文字コード
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx

Лучший частный хостинг