lynx   »   [go: up one dir, main page]

タグ

文字コードに関するymm1xのブックマーク (18)

  • Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*

    Slack は、メッセージのどこからどこまでハイライトするかを、 Unicode の私用領域 *1の U+E000 と U+E001 を使って表しているらしく、こういう HTML を glitch とかで書いて、 <html> <head> <meta property="og:title" content="Slackで&#xE000;タイトルをハイライト&#xE001;する" /> <meta property="og:description" content="Slackで&#xE000;説明&#xE001;も&#xE000;好きな部分をハイライト&#xE001;する" /> </head> </html> そのページを Slack で展開させたりすることで、好きな部分を勝手にハイライトできて面白い *2 *3。 ちなみに printf "\ue000寿司\ue001が光ったら成功"

    Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*
  • 繁体字と簡体字と日本語を区別する - Qiita

    前提 繁体字と簡体字と日語、それぞれ用のフォントがある。 元の文章の言語はわからない。 でも適切なフォントを割り当てないといけない。 見た目が変じゃなければオッケー(じゅうよう) という状況のときにうまくやる方法。 繁体字とは むかしっからある中国の文字(雑w) (くわしくは 繁体字 - Wikipedia をどうぞ) 簡体字とは ↑繁体字むずいから簡単にしたやつ(雑w)(簡体字 - Wikipedia) でも全部の繁体字が簡化されてるわけじゃない(←じゅうよう) 日の漢字との関係 中国語の学習には繁体字も簡体字も欠かすことができない - GIGAZINE https://gigazine.net/news/20171022-chinese-traditional-simplified-characters/ | 日語 | 繁体字 | 簡体字 | | |:--:|:--:|:--:|

    繁体字と簡体字と日本語を区別する - Qiita
  • マルチバイト文字を扱う際に気をつけること - Qiita

    基礎知識 コンピュータで扱えるデータの最小単位は1バイト(8ビット:2進数8桁分)であり、これは符号無し10進数表記で**0〜255**(2進数表記で00000000〜11111111)を表すことが出来ます。 半角英数字や半角記号、改行コードなどの世界共通で多用される文字は1バイト文字として**0〜127**の範囲に割り当てられており、これらは「ASCII文字」と呼ばれます。 ASCII以外の文字コードでは余った128〜255の範囲を他の文字を表現するために利用しています。但しこれらを1バイト単位で使うだけでは残り128種類の文字しか表せなくなってしまうので、実際には複数桁組み合わせて用いられます。これらは「マルチバイト文字」と呼ばれます。 以下は参考リンクです。初学者の方は、この記事を読む前にひと通り目を通されることをおすすめします。 ASCII文字コード 文字コードについての俺的まとめ

    マルチバイト文字を扱う際に気をつけること - Qiita
  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • UTF-8

    ASCII範囲内の文字はASCIIコードと完全に一致する 第2バイト〜第4バイトは必ず10…ではじまり,第1バイトのビットパターンとは重ならないようにしてある. この工夫により,もしも伝送誤りが起こったりした場合でも,その誤りの影響が1文字の中に収まるようになっている. ストリームを読み進めると数バイト先には10以外ののパターンがきているはずで,底が次の文字の先頭バイトだとわかる. 1バイトだけ覗いてみてもいろいろわかる 0ではじまっていたら→ASCII範囲内の文字で1バイトで表される文字 10ではじまっていたら→マルチバイト文字の第2バイト〜第4バイトのどれか 110ではじまってたら→2バイトの先頭文字 1110ではじまってたら→3バイトの文字の先頭文字 11110ではじまってたら→サロゲートペアで4バイトの文字 サロゲートペアはUTF-16でエンコードする場合, サロゲートペアの参照す

    ymm1x
    ymm1x 2018/02/20
    “1バイトだけ覗いてみてもいろいろわかる”
  • http://www.eva.hi-ho.ne.jp/cgi-bin/user/zxcv/decodeUTF8.cgi

  • Shift_JIS「もしかして・・・・・・」 UTF-8「私たち……」:キニ速

  • HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血

    さよならレガシーエンコーディング。 文字エンコーディング宣言が存在するかどうかにかかわらず、文書のエンコードに使用される実際の文字エンコーディングはUTF-8でなければならない。 4.2.5.5 文書の文字エンコーディングを指定する - HTML Standard 日語訳 Require utf-8 when specifying character encoding by sideshowbarker · Pull Request #3091 · whatwg/htmlにより、HTMLで使用できるエンコーディングはUTF-8のみとなりました。これにより、古いHTMLでは許容されていた、Shift_JIS、ISO-2022-JP、EUC-JP、UTF16LEといった文字エンコーディングは適合するHTMLではなくなりました。すでにNu Html CheckerでUTF-8以外の文字エンコー

    HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血
  • MySQL 8.0ではデフォルトで濁点半濁点を区別しなくなる - かみぽわーる

    4月にMySQL 8.0のUnicodeと日語対応についてManyi Luさんとディスカッションする会があって、かなりいろいろ話してとてもよい会だった。その後いろいろ考えて感じてる懸念を端的に書き記しておく。 デフォルトのcollationがutf8mb4_0900_ai_ciになった これに関して僕は強い懸念を持っている。MySQL 8.0以前において、ふつうのWebアプリケーションなどで日語を扱う場合、実用上デフォルトのutf8mb4_general_ciかutf8mb4_binの2択であったと思う。デフォルトがutf8mb4_general_ciなので新しく作られるアプリケーションは通常は濁点半濁点が区別される状態で世に出てくることになる。けどMySQL 8.0.1のデフォルトのutf8mb4_0900_ai_ciは濁点半濁点を区別しないので、将来ユーザー名を登録するところでバイ

    MySQL 8.0ではデフォルトで濁点半濁点を区別しなくなる - かみぽわーる
    ymm1x
    ymm1x 2017/06/22
    MySQL はユーザ多い割にたまに謎のアップデートがあるので気をつけたい
  • なんで愛が生まれるのか - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    なんで愛が生まれるのか - Qiita
  • JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

    Intro textarea などに入力された文字数を、JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID の

    JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
    ymm1x
    ymm1x 2017/03/03
    あかん、実験で👨‍👩‍👧‍👦を引用スターしてみたらスター削除できなくなった
  • MySQLの文字コード事情 2017版

    JJUG ナイトセミナー 「メッセージングミドルウェア特集」のRabbitMQの発表資料です。 https://jjug.doorkeeper.jp/events/65028

    MySQLの文字コード事情 2017版
  • 波ダッシュ、全角チルダ問題まとめ - Qiita

    そもそも、波ダッシュと、全角チルダって? 波ダッシュ 〜 0x8160(Shift_JIS) 0x301C(UTF-8) WAVE DASH(ユニコードポイント : U+301C) 日語の文字 範囲を表す : 大阪 〜 東京 など 省略記号 : 〜 からの 全角チルダ ~ Shift_JIS には無い 0xFF5E(UTF-8) FULLWIDTH TILDE(ユニコードポイント : U+FF5E) いろんな意味がある文字 アルファベットの上につけて、鼻音を表す : ñ 数学記号 (ほぼ等しいの意味) ホームディレクトリを表す記号 : ~/download Unicode 側での波ダッシュ割り当てミス Shift_JISの波ダッシュ を Unicode に割り当てるときに、 波ダッシュの形を間違えて、"下がって上がる" ように表記してしまった ※ unicode 8.0 で修正されました

    波ダッシュ、全角チルダ問題まとめ - Qiita
  • MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ

    MySQLUTF-8 で使おうと思ってハマりがちなのは charset utf8 を指定してしまうことです。 MySQLUTF-8 には歴史的事情により utf8 と utf8mb4 の二つあります。 UTF-8 は1バイト〜4バイトで1文字が構成される文字コードですが、MySQL の utf8 は4バイト文字を扱うことができません。ハマりたくなければ utf8mb4 を使いましょう。 utf8 を使ってしまった場合に4バイト文字がどのように扱われるか、自分でもうろ覚えだったのでメモしておきます。 登録 接続が utf8mb4 でカラムが utf8mb4 あたりまえですが、そのまま登録されます。 mysql> insert into utf8mb4 (c) values ('美味しい🍣と🍺'); mysql> select * from utf8mb4; +--------

    MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ
    ymm1x
    ymm1x 2016/09/07
    ハマりたくなければ utf8mb4 で統一
  • 知識編Ⅰ【空白文字】 - commentart @ ウィキ

    コメントアートで使う文字で最も多く占める部分は何だと思いますか? 花の文字?星の文字?それとも四角いブロック文字?

    知識編Ⅰ【空白文字】 - commentart @ ウィキ
    ymm1x
    ymm1x 2016/04/27
    “[​]”
  • 2. スペースは" "だけじゃない的な話

    Home -> 雑用 -> 雑用メモ -> [2. スペースは" "だけじゃない的な話] 2014/10/15 作成 2014/10/20 更新 2014/11/01 更新 一切推敲していない糞文章故、大変読み難い代物となっております。 経緯みたいなアレ [1. ハイフンは"-"だけじゃない、中点は"·"だけじゃない]の整理中にふとテキストエディタを見た時に、半角スペースなのに 記号表示がされていないものがあることに気付いた。というのも、エディタの設定で半角スペースの位置に薄く空白記号が描画される ようにしているのだけれども、一部のスペース(一見普通の半角っぽい)ではそれが描画されていなかったので違和感全開だったのである。 で、調べてみたら記号表示されていない方は&nbsp;(=&#xA0;)であることが分かった。 &nbsp;の存在自体はずっと前から知っていたのだけれども、これはHTML

  • Mac OS X の NFD 問題での対策諸々 - Qiita

    おさらい。 ∥ Unicode正規化 - Wikipedia 正規化形式 NFC: Normalization Form Canonical Compression | 文字に何がくっついていようと、組み合わせて作られた文字であろうと、「一文字」は「一文字」じゃ。圧縮形式。Linux のファイルシステムや Windows の NTFS などが普通に使っている。 NFD: Normalization Form Canonical Decompression | 濁点・半濁点を、あるいはウムラウト等のダイアクリティカルマークを、体の文字とは分離してエンコードした形式。OS X の HFS+ が、これを採用してくれちゃっている。 基としては、OS X 上に置かれるファイルは NFD であってくれて、LinuxWindows 上にあるファイルは NFC であってくれると平和で助かる。 追

    Mac OS X の NFD 問題での対策諸々 - Qiita
  • 全角チルダ問題

    9. 参考) 確かめかた (Windows の場合) • 確かめたい文字をコピーします。 • WordPad を起動し、コピーした文字を貼り付けます。 • 確かめたい文字を一文字選択し、ALT + X を押します。 • コード (UCS-4) が表示されます。 • U+301C が波ダッシュ • U+FF5E が全角チルダ 10. 基礎知識1) チルダとは何か? • こういうやつらしい。 ÃÕÑ • 鼻音に関する音をあらわす、ダイアクリティカルマークの一種 • ダイアクリティカルマークってこんなやつら (よくしらない) À Á Â Ä Å Ă Ą Ā http://ja.wikipedia.org/wiki/%E3%83%80%E3%82%A4%E3%82%A2%E3%82%AF%E3%83%AA%E3%83 %86%E3%82%A3%E3%82%AB%E3%83%AB%E3%83%9E%

    全角チルダ問題
    ymm1x
    ymm1x 2014/07/06
  • 1
Лучший частный хостинг