[B! 文字コード] katowのブックマーク

katow id:katow

文字コードに関するkatowのブックマーク (16)

絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama
UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
katow 2017/11/13
勉強になる

unicode

文字コード
リンク
UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由　
katow 2015/03/07
unicode

文字コード

ソフトウェア
リンク
波ダッシュ・全角チルダ問題 - Wikipedia
Unicode（ユニコード）は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日本語化（J-Star）などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ
katow 2011/01/06
Unicodeの分類範囲の表があった。

unicode

文字コード

文字
リンク
Index
Automatic redirect: http://home.unicode.org/
katow 2011/01/06
unicode

文字コード
リンク
Unicode Terminology: English - Japanese
Unicode Terminology English - Japanese This terminology page, which includes both Unicode terms and ISO/IEC 10646 terms, is sorted by English, giving the corresponding Japanese translation of each term. There is also a Japanese - English page.
katow 2011/01/06
Unicodeの字形グループの英語名称の日本語訳

unicode

文字コード
リンク
文字コードと字形 - osdev-j (MMA)
文字情報処理文字コードフォント .mjtの個人的メモ＆某チャンネルのメモ。テンポラリ。要点文字コードXに対して、どういう画像を表示するのかという問題。主に正字と略字が対立する。 JIS2004ではそうだが、基本的には異体字かなぁ。 ↑ 前提このページでは単語の定義はJISに従う。字体:「図形文字の図形表現としての形状についての抽象的概念」包摂:「複数の字体を区別せずに、それらに同一の面区点位置を与えることをいう」字形:「字体を、手書き、印字、画面表示などによって実際に図形として表現したもの」一般的には、JISの「字形」が「字体」に対応し、「字体」に対応する言葉は「文字コード(面区点位置)」？一般には字形と字体が混同されている感はある「字体」はabstract character、文字概念だろう。面句点位置 = code point = 符号化文字は包摂された一
katow 2011/01/06
文字コード

font

Unicode

グリフアクセスプロト

TIPS

まとめ
リンク
IPAフォントのダウンロード || OSS iPedia
IPAでは2003年末よりIPAが全権利を所有する「IPA フォント*」を公開して参りました。2010年2月には、ドキュメント用日本語フォントの標準的な実装を行った「IPAexフォント（IPAex明朝、IPAexゴシックの2フォント）」をラインナップに加えました。「IPAexフォント」は、和文文字（仮名や漢字など）は固定幅、欧文文字は文字幅に合わせた変動幅を基本とした実装を行い、日本語文書作成の利便性の向上を目指したフォントです。なお、過去のシステムとの互換性を求める場合には、欧文文字、和文文字ともに固定幅の「IPA明朝」と「IPAゴシック」、欧文文字、和文文字ともに変動幅の「IPA P明朝」と「IPA Pゴシック」の4種類のフォントをご利用になることもできます。「IPAexフォント(Ver.001以降)」および「IPA フォント(Ver.003以降)」には、オープンソースライセンスとし
katow 2011/01/06
文字コード

異体字

Font

フォント
リンク
Unicode 16.0 Character Code Charts
European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin
katow 2010/09/08
PDFで出てくる

unicode

文字コード

資料
リンク
備忘録: Unicode, UCS, and UTF : 404 Blog Not Found
2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。電脳社会の日本語加藤弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。これをどう実際のデータにするのかがEncoding (
katow 2010/09/08
ううむ

文字コード

unicode

文字

小飼弾
リンク
UnicodeとUTF-8の違いは？ - 自分的まとめ - Humanity
UnicodeとUTF-8の違いは？ - Humanityはあんなに反響があるとは思わなかった。ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact
katow 2010/09/08
そうなのか。

Windows

UTF-8

unicode

文字コード

まとめ
リンク
【インフォシーク】Infoseek ：楽天が運営するポータルサイト
日頃より楽天のサービスをご利用いただきましてありがとうございます。サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。メンテナンスが終了次第、サービスを復旧いたしますので、今しばらくお待ちいただけますよう、お願い申し上げます。
katow 2010/08/05
使えるサービスを発見した。うれしい。

Microsoft

漢字

文字コード

日本語

検索

辞書
リンク
wmicの出力は、リダイレクションとパイプで文字コードが異なる。 - Windows Script Programming
katow 2010/06/23
この情報はおそらく間違い。wmicはWinPCで初回実行時のみインストール処理が行われ、そのメッセージがUnicodeらしく、以降のデータ部はShift-JIS。混在テキストになる。

Windows

unicode

文字コード
リンク
サロゲートペア入門
はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日本語漢字の数が増えました。従来、12238字（Windows XP）だったのが13145字（Windows Vista）になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです（Windows XPまでは一部サポート）。またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。対象読者 Unicodeでデータ処理
katow 2010/03/19
サロゲートペア、食わず嫌いで避けていたが実装は案外簡単だった。

Windows

unicode

Vista

プログラミング

文字コード

サロゲートペア
リンク
Vistaで化ける字，化けない字（続報）
前報で述べた通り，マイクロソフトのWindows Vistaでは，文字コードにUnicodeを使いながら，Unicodeとは異なる文字コード規格のJIS X 0213をサポートする，という方式を取っている。というのも，Windows 98日本語版以降ずっとサポートしてきたCP932（本名はWindows Codepage 932，いわゆるMS 漢字コード）やJIS X 0212を捨てるわけにはいかないので，CP932もJIS X 0212もJIS X 0213もみんなまとめてUnicodeで扱う，というやり方を取らざるをえないのである。前報では，JIS X 0213の第一水準～第三水準漢字7614字について，Vistaで新たに採用された日本語フォントセットであるメイリオとXP以前のMSゴシックを見比べ，7614字のうち325字*が，VistaとXP以前との間で文字化けする（ここでは本来表
katow 2010/03/19
今回WinXP環境で出ない文字が出て、はまった。JIS2004フォント適用が必要だったとは。WinがUTF-16LE BOMありだというのは初めて理解しました。

Vista

unicode

Windows

文字コード

フォント
リンク
UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
katow 2010/03/19
やはりこれで実装すべきか。

unicode

文字コード

UTF-8

Windows

TIPS
リンク
Mac OS Xの文字コード問題に関するメモ
文字情報基盤（Moji_Joho）のIVS登録にともなう公開レビュー（PRI 259）にコメントした。PDFはこちら。日本語。もう、最初から最後まで日本語。安岡孝一さんが挙げていた（yasuokaの日記：文字情報基盤のIVS登録第1弾）ような「Hanyo-DenshiとMoji_JohoでIVSをシェアしようとしてるが、グリフに差異が見られる例」については、いくつか見つけたものの、リストの最初のほうしかチェックできなかったので、言及するのを断念。他にも、CJK互換漢字グリフの扱い、Ken Lundeさんが挙げていた（CJK Type: PRI 259）U+6723とU+81A7の問題など、いろいろ論点はあると思うが、今回はスルーした。 iPhoneや携帯における絵文字の扱いに関して、SoftBankへの要望がいくつかあるので（それから、先日コメント欄でお願いされたので）、メモ。その1・
katow 2009/03/27
Mac

文字コード

TIPS

まとめ
リンク
1