lynx   »   [go: up one dir, main page]

タグ

文字コードに関するatawiのブックマーク (17)

  • 「の」の謎

    MathJaxで和文文字を出力すると,「の」だけ変なフォントになります。これは,MathJaxの数式フォントであるSTIXが「の」を数式用文字として収録しているからです。この問題は,Unicodeの規格書に「『の』が数式用文字として使われることがある」と公式に書かれていることに起因しています。

    「の」の謎
  • 文字化け

    2. 文字化け Powered by Rabbit 2.1.6 自己紹介 とみた まさひろ 長野県北部在住プログラマー 言語: C(1989〜) Ruby(1998〜) 日MySQLユーザ会代表 長野ソフトウェア技術者グループ(NSEG) 3. 文字化け Powered by Rabbit 2.1.6 自己紹介 http://tmtms.hatenablog.com http://twitter.com/tmtms https://github.com/tmtm MySQL 3.21 の日語対応 (1998 ) MySQLRubyバインディング作成 (1998 )

    文字化け
  • この「邉」を作ったのは誰だぁ!! - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)のなかで、目玉がWindows 8のIVS対応を紹介している第2章だとするなら、背骨といえるのが、IVSという枠組み自体について解説している第5章だよね。 たとえがしっくりきませんが、こだわらずに先に進みましょう。 その第5章のなかでも、IVSの基中の基をわずか1行に凝縮して視覚化しているのが、図5-7だ。 はいはい。 で、今日は図5-7に突っ込んでみようと。 もちろん、突っ込みますよー! あのさ、そういうテンションいらないから。この図なんだけど、どう? んー、解説抜きで見せられても、ちょっと難しいですね。 いや、当は難しくないんだよ。「漢字に異体字セレクタを付けるとグリフを指定できます」って言ってるだけの図なんだから。 この真ん中の「E010B」が右では「E0110」に変化してるのは、どういう意味なんですか? 誤植だね。

    この「邉」を作ったのは誰だぁ!! - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • シフトJISが符号化文字集合? - yanok.net

    文字コードに関して、符号化文字集合と文字符号化方式という区別がいわれることがあります。拙著『プログラマのための文字コード技術入門』でもその分類に従っています。 この区分によると、JIS X 0208やJIS X 0213は符号化文字集合で、シフトJISは文字符号化方式だということになります。 ところが、混乱させることをいうようですが、JIS X 0208:1997では、シフトJISは符号化文字集合だと書かれています。ウソだと思うなら、JIS X 0208:1997の附属書1を見てみると良いでしょう。 これはどういうことでしょう。シフトJISが文字符号化方式だというのが間違っているのでしょうか、それとも97JISの記述が間違っているのでしょうか? 結論をいってしまうと、これは単に用語法の問題ということになります。 そもそも、「符号化文字集合と文字符号化方式」という区分はISOやJISといった

  • 符号化文字集合と文字符号化方式の違い

    コンピューターの世界で文字がどのように扱われているかということを理解するには「符号化文字集合」と「文字符号化方式」という2つの異なる概念があり、それぞれがどのようなものであるかを理解することが非常に重要です。これを理解しているかいないかでコンピューターの世界での文字の扱いに関する理解がまったく違ってきますのでぜひ抑えておきましょう。 まず符号化文字集合というのは「どのような文字を扱うか」ということを定義するものです。文字といってもアルファベット、ひらがな、カタカナ、数字、記号はもとより日語には非常に多くの漢字が存在しています。さらに世界に目を向ければいったいどれだけの数の文字が存在しているのでしょうか? ちょっと検索してみると以下のようなサイトが見つかりました。 世界の文字 Written characters of the world ちょっと見てみてほしいのですが、ものすごい数の文字

    符号化文字集合と文字符号化方式の違い
  • JIS漢字コード:JIS第一・第二水準―文字コード入門―

    JIS漢字コードとは? 日の文字コード規格は、財団法人日規格協会が日工業規格(いわゆるJIS規格)の一つとして選定・公布しています。 正式名称は「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」になります(日規格協会の該当規格情報JIS X 0208の規格表・JIS X 0213の規格表)。もともとはJIS C 6226として制定されましたが、JISの情報部門の新設に伴ってJIS X 0208に規格番号が移動しています。 面区点番号 JIS漢字コードは、94×94のマス目を持つ二つの文字表で構成されています。前者を「第一面」、後者を「第二面」と呼びます。各表のマス目は94の区と94の点に分けられ、それぞれのマス目に一つの文字が収録されます。JIS漢字コードに収録される文字は、全て面・区・点の番号で個別に表現されます。 第1面-1区~7区(非漢字区画) ひらがな・カタカナ・記

  • JIS漢字一覧

    JIS漢字部首画一覧 JIS漢字の部首画順の一覧です。適当な一覧が無いために作成しました。 第三・第四水準部首画一覧 [06-12-17] [07-04-01] PDF 1.9MB 26ページ 補助漢字と共通のものが区別できるように配列しました。 JIS全漢字部首画一覧 [07-01-03] [07-04-01] PDF 5.8MB 73ページ 第一水準、第二水準、補助漢字のみ、補助漢字と第三・第四水準共通のもの、第三・第四水準のみ、が区別できるように配列しました。 JIS全漢字部首画一覧(Unicode対応版) [07-04-01] PDF 5.8MB 73ページ 第一水準、第二水準、補助漢字のみ、補助漢字と第三・第四水準共通のもの、第三・第四水準のみ、が区別できるように配列しました。 各文字にUCS(いわゆるユニコードコードポイント)を付けました。 JIS参照文字 JIS X 0213

  • 「Unicode 6.0」が策定、絵文字が国際標準に

  • 文字コードに起因する脆弱性とその対策

    PHPカンファレンス2010テックデイでの講演資料 PDFダウンロードは http://www.hash-c.co.jp/archive/phpconf2010.htmlRead less

    文字コードに起因する脆弱性とその対策
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記

    文字コードの標準化について日記を書いたのだが、内容がいまいちだったのでボツにして気を取り直してUnicodeについて一言いっておくことにする。先日、といっても昨年(2008年)の10月なんだけど、その中でちょと文字コードの標準化について話をしている。*1 もう1つ自分の経験としてあるのが、漢字の文字コードがあるんですけど、番号で言うとJIS X 0208とか0212とか規格の番号で皆言うわけなんですけど、実は1988年にその日語の文字コードの改正の委員会にいたんですね。 その当時、私は 30歳ぐらいなんですけど、「富士通」とか「日立」とか「NEC」の部長さんぐらいの偉い人たちが来てて、私なんか外資系で且つ30前後のぺーぺーだから、全然格下なんですよ。 そういうところで議論の主軸を担ってるのは、「富士通」「日立」「NEC」「日IBM」「東芝」「沖」、外資でいえば「ユニシス」とかの錚々たる

    そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記
  • 文字コードを定めても使われなければ意味がない - プログラマーの脳みそ

    ケータイ絵文字、世界に Googleが標準化へ - ITmedia NEWS 絵文字をUnicodeにって話題が上がっていて、同形の文字とかですら揉めるのに、絵文字の統合なんてできるのか?って疑問を呈したのがhttp://kokogiko.net/m/archives/002213.html * 「怒った顔」ひとつとっても、DoCoMoでは「吊り目への字口の怒り顔」「頬を膨らませた怒り顔」というのがあるのだけれど、EZでは「への字口の怒り顔」「顔を横につんと逸らした怒り顔」「鼻息の荒い怒り顔」だったりする。 さらにはEZの場合、同じような表情で、「人の顔」「の顔」「もやしもんの菌みたいな格好で微妙に全身表現になっている感情表現」があったりする。 これを単純に、「怒り顔」としてフォールバックしていいのか? * 「OK」の表現でも、DoCoMoは親指を立てたエドはるみの「グゥー」の指で「OK

    文字コードを定めても使われなければ意味がない - プログラマーの脳みそ
  • 文字コードをまとめようとして挫折した - Webと文字

    土日でできませんでした。 進捗率:10%ぐらい 目標:符号化方式を追加すること ∧,,∧    僕には無理でした ( ´・ω・) c(,_U_U      ・゚・。・ ゚・。・゚・ 。・゚・ ━ヽニニフ PDF:http://www.geocities.jp/project_the_tower2/web_mozi/code/matome.pdf 右クリックで保存してローカルで開いてください。 OpenOfficeDrawで作ったファイル:http://www.geocities.jp/project_the_tower2/web_mozi/code/matome.zip ダウンロードしたら、拡張子をodgに変えてOpenOfficeで開いてください。 追記1 ブクマがいっぱいでびっくり。ダウンロード先のリンクを修正します。いいか、見て幻滅するんじゃないぞ(´・ω・`)!当は修正したい箇所

    文字コードをまとめようとして挫折した - Webと文字
  • 絵文字の符号化は何が難しいのか? - Cafe Babe

    安岡先生から,さっそく「以前『ケータイの絵文字と文字コード』(情報管理, 2007年5月)を書いたときに、ざっと対応表を作りかけて、結局、挫折した覚えがあるんですけど…。だって、動く絵文字があるんですもの。」という素晴らしい的確な突っ込みが入った.実は,絵文字の符号化にはいくつかの難しい問題がある.それをざっと列挙してみよう. 各キャリアの絵文字はほぼ独立に開発されているので,必ずしも一対一対応していないし,冗長性があるし,round trip conversionが定義できない場合もある.同一キャリアに対してround trip conversionを定義するのは容易だが,キャリア間の変換を定義するのは難しい. 絵文字はUnicodeでは私用領域(Private Use Area)に割り当てられている. 絵文字はアニメーションするものがある(爆) 絵文字には色の区別がある.しかし,今まで

    絵文字の符号化は何が難しいのか? - Cafe Babe
  • ゆとり、キーボードの意味を知る - Webと文字

    1.はじめに 今の子どもって、アスキーコードとかも分かってないのかもね 意外とコンピューターの教育とか基礎が抜けているのではないかな。 Ctrl-GのBELLとかもまるで知らないんじゃないか。 なぜCtrlキーがCtrlなのか、ShiftキーがShiftなのか ∧ ∧ ヽ(・∀ ・)ノ <Ctrl-Gってなーに? (( ノ(  )ヽ ))←Me <  >というわけで、調べてみました。 2.Shiftキー 昔はタイプライター(参考資料1)という機械で文章を紙に印字していました。構造的にはキーを押すと、その先についているハンコが紙に押ささり印字されました。キーと文字が1対1でしたので、文字を増やすにはキーを増やすしかありませんでした。そこで、機械的にハンコの方をずらすことで、一つのキーに対して二つの文字が打てるような仕組みができました。この機械的にハンコをずらす(シフトする)キーのことをShi

    ゆとり、キーボードの意味を知る - Webと文字
  • 矢印には正規の書体ルールがない:Eric OlsonによるKlavika(2004)の試み - 記憶の彼方へ

    Klavika Klavika, Arrows: All weights, roman styles only. (no italic) 先日、「欧文書体の今を知る」シリーズをメモした。 欧文書体の今を知る、ことの意味 Frutiger*1 そのVol.1 : Klavika(2004) by Eric Olsonでは、「Frutiger(フルティガー)」をこよなく愛するエリック・オルソンが設計したKlavika(2004)が取り上げられていた。興味深かったのは、オルソンは書体のセットに矢印のセットも入れていることだった。 オルソンによれば、 私は矢印のような、正規の書体ルールがない、ユビキタスなシンボルに強い親近感を覚えています。それらは標識の書体セットに含まれていないにも関わらず、おのおの方法で一般的に広く使われています。それらがタイポグラフィパレット上でほとんど忘れられているというこ

    矢印には正規の書体ルールがない:Eric OlsonによるKlavika(2004)の試み - 記憶の彼方へ
  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • 1
Лучший частный хостинг