lynx   »   [go: up one dir, main page]

タグ

文字コードに関するnikunokiのブックマーク (3)

  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • マルチバイト文字列関数 (mbstring)

    導入 全ての文字をシングルバイトで一対一表現可能な言語は数多くありますが、 文字表現に単一バイトによる表現範囲を越えるほど多くの文字を必要とする言語も多くあります (1 バイトは 8 ビットから構成されます。各ビットには、1 あるいは 0 の 2 種類の値しか保持できません。そのため、単一のバイトで表すことのできる値は 256 (2 の 8 乗) 種類までとなります)。 マルチバイト文字のエンコーディング法は、 256 を越える文字を通常のビット単位の符号化システムで表現するために開発されました。 マルチバイトエンコーディングで符号化された文字列を (trim, split, splice などで) 処理する際、こうしたエンコーディングでは二つ以上の連続するバイトが 一つの文字を表す可能性があるため、特別な関数を使用する必要があります。 マルチバイトに対応しない文字列関数を文字列に適用した

  • 文字エンコーディング毎のUnicodeマッピングの違いについて。 - Enjoy*Study

    Javaにおいて、文字コードの変換は、文字エンコーディング対Unicodeの変換表を使用して行われます。 同じ字形でも、文字エンコーディングによってUnicodeとのマッピングが異なるので注意が必要です。 文字エンコーディングによって、Unicodeとのマッピングが異なる字形について、下記の表にまとめます。 なお、下記表で「JIS X 0212」と書いてある項目以外は、「JIS X 0208」の字形となります。 参考:Enjoy×Study - 文字エンコーディング毎の収録文字の違いについて。 確認したバージョンは、Sun J2SE 1.4.2になります。 字形 ¢ £ ¬ ‖ − 〜 ― 〜(JIS X 0212) コード シフトJIS 0x8191 0x8192 0x81CA 0x8161 0x817C 0x8160 0x815C − 日語EUC 0xA1F1 0xA1F2 0xA2

    文字エンコーディング毎のUnicodeマッピングの違いについて。 - Enjoy*Study
  • 1
Лучший частный хостинг