lynx   »   [go: up one dir, main page]

タグ

unicodeに関するindicationのブックマーク (8)

  • ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita
    indication
    indication 2021/11/04
    正規表現に持って行きやすそう。さすがにサロゲートペアはないよね
  • Unicode 版美乳テーブルを探せ

    美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

    indication
    indication 2021/04/04
    先頭から読まないといけない事にはじめて気づいた(テーブルを必死に探した)
  • char8_tによせて - なるせにっき

    C++標準化委員会、ついに文字とは何かを理解する: char8_tという記事が話題だってので、つらつらと書いてみました。 「グリフ」について グリフ(glyph)という言葉の定義をめぐって でも触れられていますが、「グリフ」という言葉が「字体」を指すのか「字形」を指すのかってのは議論がありますね。文字コードの文脈では普通「字形」の意味だとして話を進めることが多いように思います。 CJK統合漢字について Wikipediaの記事にまとまっていますが、実際に推進していたのは中国みたいですね。うまくやればあんまり問題なかったんでしょうが、あんまりうまく行かなかったんですが、それでも国ごとにその国の過去にあった文字コードとの互換性は取れているので、実際の所CJK統合漢字ってあんまり問題にはなってないと思うんですよね。中国フォントと日フォントを切り替えないといけないって問題はありますけど、それ

    char8_tによせて - なるせにっき
    indication
    indication 2018/12/24
    utf8_tがあれば解決(ちがう)
  • Unicode「合字」使う企業は修正が必要に、日本マイクロソフトが新元号対応

    2018年中に新元号が公表される見通しになったことを受けて、ITベンダーが顧客企業のシステムや自社のソフトへの影響調査に動き出した。焦点の1つが元号を一文字にまとめて表示する「合字」の取り扱いだ。Unicodeに新元号の合字を登録することが検討されている。日マイクロソフトは合字の処理方法をはじめ、同社製品の元号に関する影響を調べる。結果に応じて同社製品の改修や顧客企業への情報提供を検討する。合字を使っている企業はシステム改修が必要になる。 「改元は極めて複雑な、非常に多くの検討事項や作業が必要になる」。日マイクロソフトはブログを通じて、改元に対応したシステム関連作業についてこう指摘する。作業の一例として元号を表示する合字への対応を挙げる。合字とは「㍻」「㍼」など、いくつかの文字を一文字で表示したものだ。 経済産業省 国際電気標準課によれば「新元号の合字へコードを割り当てる検討が始まって

    Unicode「合字」使う企業は修正が必要に、日本マイクロソフトが新元号対応
    indication
    indication 2017/12/06
    あれ、サロゲートじゃないのか。
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
    indication
    indication 2017/03/13
    世の中(ユニコード)にはサロゲートペアというものがあってですね、組み合わせることができるそうなんですよ。恐い
  • LINE DEVELOPER DAY 2016 開催のお知らせ « LINE Engineers' Blog

    LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog saegusa2017-04-16Yoshihiro was a network engineer at LINE, responsible for all levels of LINE's infrastructure. Since being named Infra Platform Department manager, he is finding ways to apply LINE's technology and business goals to the platform. こんにちは。LINEでネットワークやデータセンターを担当している三枝です。2017年1月にJANOG39で登壇する機会を頂きましたので、今回

    LINE DEVELOPER DAY 2016 開催のお知らせ « LINE Engineers' Blog
    indication
    indication 2015/04/22
    グローバル展開って、むずかしそう
  • 全角チルダ問題

    9. 参考) 確かめかた (Windows の場合) • 確かめたい文字をコピーします。 • WordPad を起動し、コピーした文字を貼り付けます。 • 確かめたい文字を一文字選択し、ALT + X を押します。 • コード (UCS-4) が表示されます。 • U+301C が波ダッシュ • U+FF5E が全角チルダ 10. 基礎知識1) チルダとは何か? • こういうやつらしい。 ÃÕÑ • 鼻音に関する音をあらわす、ダイアクリティカルマークの一種 • ダイアクリティカルマークってこんなやつら (よくしらない) À Á Â Ä Å Ă Ą Ā http://ja.wikipedia.org/wiki/%E3%83%80%E3%82%A4%E3%82%A2%E3%82%AF%E3%83%AA%E3%83 %86%E3%82%A3%E3%82%AB%E3%83%AB%E3%83%9E%

    全角チルダ問題
    indication
    indication 2014/07/07
    誰かが、文字コードで人生が無駄になると言っていたように思う。しかしながら、よい資料。
  • perlunifaq - Perl Unicode FAQ - perldoc.jp

    This is a list of questions and answers about Unicode in Perl, intended to be read after perlunitut. これは、perlunitut の後で読むことを想定した、Perl での Unicode に関する 質問と答えの一覧です。 perlunitut は実際には Unicode チュートリアルじゃないんじゃないの?¶

    indication
    indication 2010/11/18
    内部処理のまとめ。use utf8;
  • 1
Лучший частный хостинг