[B! 文字コード] ymm1xのブックマーク

ymm1x id:ymm1x

文字コードに関するymm1xのブックマーク (18)

Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*
Slack は、メッセージのどこからどこまでハイライトするかを、 Unicode の私用領域 *1の U+E000 と U+E001 を使って表しているらしく、こういう HTML を glitch とかで書いて、 <html> <head> <meta property="og:title" content="Slackでタイトルをハイライトする" /> <meta property="og:description" content="Slackで説明も好きな部分をハイライトする" /> </head> </html> そのページを Slack で展開させたりすることで、好きな部分を勝手にハイライトできて面白い *2 *3。ちなみに printf "\ue000寿司\ue001が光ったら成功"
ymm1x 2022/10/07
文字コード
リンク
繁体字と簡体字と日本語を区別する - Qiita
前提繁体字と簡体字と日本語、それぞれ用のフォントがある。元の文章の言語はわからない。でも適切なフォントを割り当てないといけない。見た目が変じゃなければオッケー（じゅうよう）という状況のときにうまくやる方法。繁体字とはむかしっからある中国の文字（雑ｗ）（くわしくは繁体字 - Wikipedia をどうぞ）簡体字とは ↑繁体字むずいから簡単にしたやつ（雑ｗ）（簡体字 - Wikipedia）でも全部の繁体字が簡化されてるわけじゃない（←じゅうよう）日本の漢字との関係中国語の学習には繁体字も簡体字も欠かすことができない - GIGAZINE https://gigazine.net/news/20171022-chinese-traditional-simplified-characters/ | 日本語 | 繁体字 | 簡体字 | | |:--:|:--:|:--:|
ymm1x 2018/06/05
文字コード
リンク
マルチバイト文字を扱う際に気をつけること - Qiita
基礎知識コンピュータで扱えるデータの最小単位は1バイト(8ビット:2進数8桁分)であり、これは符号無し10進数表記で**0〜255**(2進数表記で00000000〜11111111)を表すことが出来ます。半角英数字や半角記号、改行コードなどの世界共通で多用される文字は1バイト文字として**0〜127**の範囲に割り当てられており、これらは「ASCII文字」と呼ばれます。 ASCII以外の文字コードでは余った128〜255の範囲を他の文字を表現するために利用しています。但しこれらを1バイト単位で使うだけでは残り128種類の文字しか表せなくなってしまうので、実際には複数桁組み合わせて用いられます。これらは「マルチバイト文字」と呼ばれます。以下は参考リンクです。初学者の方は、この記事を読む前にひと通り目を通されることをおすすめします。 ASCII文字コード文字コードについての俺的まとめ
ymm1x 2018/02/20
php

文字コード
リンク
文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。
「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。それぞれの文字コードはどう違うのか？日本語の文字コードは大きく以下の２つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。上で挙げた「文字コード」とは正確には「エンコーディング（文字符号化方式）」の事を指す。文字符号化方式文字集合って？読んでそのまんま”文字の種類の集まり”。「キャラ
ymm1x 2018/02/20
unicode

##

文字コード
リンク
UTF-8
ASCII範囲内の文字はASCIIコードと完全に一致する第2バイト〜第4バイトは必ず10…ではじまり，第1バイトのビットパターンとは重ならないようにしてある．この工夫により，もしも伝送誤りが起こったりした場合でも，その誤りの影響が1文字の中に収まるようになっている．ストリームを読み進めると数バイト先には10以外ののパターンがきているはずで，底が次の文字の先頭バイトだとわかる． 1バイトだけ覗いてみてもいろいろわかる 0ではじまっていたら→ASCII範囲内の文字で1バイトで表される文字 10ではじまっていたら→マルチバイト文字の第2バイト〜第4バイトのどれか 110ではじまってたら→2バイトの先頭文字 1110ではじまってたら→3バイトの文字の先頭文字 11110ではじまってたら→サロゲートペアで4バイトの文字サロゲートペアはUTF-16でエンコードする場合，サロゲートペアの参照す
ymm1x 2018/02/20
“1バイトだけ覗いてみてもいろいろわかる”

文字コード

unicode
リンク
http://www.eva.hi-ho.ne.jp/cgi-bin/user/zxcv/decodeUTF8.cgi
ymm1x 2018/02/20
webservice

文字コード

unicode
リンク
Shift_JIS「もしかして・・・・・・」　UTF-8「私たち……」：キニ速
ymm1x 2018/01/04
あとで読む

文字コード
リンク
HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血
さよならレガシーエンコーディング。文字エンコーディング宣言が存在するかどうかにかかわらず、文書のエンコードに使用される実際の文字エンコーディングはUTF-8でなければならない。 4.2.5.5 文書の文字エンコーディングを指定する - HTML Standard 日本語訳 Require utf-8 when specifying character encoding by sideshowbarker · Pull Request #3091 · whatwg/htmlにより、HTMLで使用できるエンコーディングはUTF-8のみとなりました。これにより、古いHTMLでは許容されていた、Shift_JIS、ISO-2022-JP、EUC-JP、UTF16LEといった文字エンコーディングは適合するHTMLではなくなりました。すでにNu Html CheckerでUTF-8以外の文字エンコー
ymm1x 2017/10/09
web

文字コード
リンク
MySQL 8.0ではデフォルトで濁点半濁点を区別しなくなる - かみぽわーる
4月にMySQL 8.0のUnicodeと日本語対応についてManyi Luさんとディスカッションする会があって、かなりいろいろ話してとてもよい会だった。その後いろいろ考えて感じてる懸念を端的に書き記しておく。デフォルトのcollationがutf8mb4_0900_ai_ciになったこれに関して僕は強い懸念を持っている。MySQL 8.0以前において、ふつうのWebアプリケーションなどで日本語を扱う場合、実用上デフォルトのutf8mb4_general_ciかutf8mb4_binの2択であったと思う。デフォルトがutf8mb4_general_ciなので新しく作られるアプリケーションは通常は濁点半濁点が区別される状態で世に出てくることになる。けどMySQL 8.0.1のデフォルトのutf8mb4_0900_ai_ciは濁点半濁点を区別しないので、将来ユーザー名を登録するところでバイ
ymm1x 2017/06/22
MySQL はユーザ多い割にたまに謎のアップデートがあるので気をつけたい

# |ω・)……

mysql

文字コード
リンク
なんで愛が生まれるのか - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
ymm1x 2017/06/02
文字コード
リンク
JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
Intro textarea などに入力された文字数を、JS で数えたい場合がある。ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。なお、文字コードの仕組みを詳解すること自体が目的では無いため、BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID の
ymm1x 2017/03/03
あかん、実験で👨‍👩‍👧‍👦を引用スターしてみたらスター削除できなくなった

文字コード

unicode

javascript
リンク
MySQLの文字コード事情 2017版
JJUG ナイトセミナー「メッセージングミドルウェア特集」のRabbitMQの発表資料です。 https://jjug.doorkeeper.jp/events/65028
ymm1x 2017/02/02
mysql

emoji

文字コード

##
リンク
波ダッシュ、全角チルダ問題まとめ - Qiita
そもそも、波ダッシュと、全角チルダって? 波ダッシュ〜 0x8160(Shift_JIS) 0x301C(UTF-8) WAVE DASH(ユニコードポイント : U+301C) 日本語の文字範囲を表す : 大阪〜東京など省略記号 : 〜からの全角チルダ～ Shift_JIS には無い 0xFF5E(UTF-8) FULLWIDTH TILDE(ユニコードポイント : U+FF5E) いろんな意味がある文字アルファベットの上につけて、鼻音を表す : ñ 数学記号 (ほぼ等しいの意味) ホームディレクトリを表す記号 : ~/download Unicode 側での波ダッシュ割り当てミス Shift_JISの波ダッシュを Unicode に割り当てるときに、波ダッシュの形を間違えて、"下がって上がる" ように表記してしまった ※ unicode 8.0 で修正されました
ymm1x 2017/01/31
文字コード

unicode
リンク
MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ
MySQL を UTF-8 で使おうと思ってハマりがちなのは charset utf8 を指定してしまうことです。 MySQL の UTF-8 には歴史的事情により utf8 と utf8mb4 の二つあります。 UTF-8 は1バイト〜4バイトで1文字が構成される文字コードですが、MySQL の utf8 は4バイト文字を扱うことができません。ハマりたくなければ utf8mb4 を使いましょう。 utf8 を使ってしまった場合に4バイト文字がどのように扱われるか、自分でもうろ覚えだったのでメモしておきます。登録接続が utf8mb4 でカラムが utf8mb4 あたりまえですが、そのまま登録されます。 mysql> insert into utf8mb4 (c) values ('美味しい🍣と🍺'); mysql> select * from utf8mb4; +--------
ymm1x 2016/09/07
ハマりたくなければ utf8mb4 で統一

mysql

あとで読む

文字コード

##
リンク
知識編Ⅰ【空白文字】 - commentart @ ウィキ
コメントアートで使う文字で最も多く占める部分は何だと思いますか？花の文字？星の文字？それとも四角いブロック文字？
ymm1x 2016/04/27
“[]”

文字コード
リンク
2. スペースは" "だけじゃない的な話
Home -> 雑用 -> 雑用メモ -> [2. スペースは" "だけじゃない的な話] 2014/10/15 作成 2014/10/20 更新 2014/11/01 更新一切推敲していない糞文章故、大変読み難い代物となっております。経緯みたいなアレ [1. ハイフンは"-"だけじゃない、中点は"·"だけじゃない]の整理中にふとテキストエディタを見た時に、半角スペースなのに記号表示がされていないものがあることに気付いた。というのも、エディタの設定で半角スペースの位置に薄く空白記号が描画されるようにしているのだけれども、一部のスペース(一見普通の半角っぽい)ではそれが描画されていなかったので違和感全開だったのである。で、調べてみたら記号表示されていない方は (= )であることが分かった。  の存在自体はずっと前から知っていたのだけれども、これはHTML
ymm1x 2016/04/21
unicode

文字コード
リンク
Mac OS X の NFD 問題での対策諸々 - Qiita
おさらい。 ∥ Unicode正規化 - Wikipedia 正規化形式 NFC: Normalization Form Canonical Compression | 文字に何がくっついていようと、組み合わせて作られた文字であろうと、「一文字」は「一文字」じゃ。圧縮形式。Linux のファイルシステムや Windows の NTFS などが普通に使っている。 NFD: Normalization Form Canonical Decompression | 濁点・半濁点を、あるいはウムラウト等のダイアクリティカルマークを、本体の文字とは分離してエンコードした形式。OS X の HFS+ が、これを採用してくれちゃっている。基本としては、OS X 上に置かれるファイルは NFD であってくれて、Linux や Windows 上にあるファイルは NFC であってくれると平和で助かる。追
ymm1x 2016/03/10
mac

文字コード
リンク
全角チルダ問題
9. 参考) 確かめかた (Windows の場合) • 確かめたい文字をコピーします。 • WordPad を起動し、コピーした文字を貼り付けます。 • 確かめたい文字を一文字選択し、ALT + X を押します。 • コード (UCS-4) が表示されます。 • U+301C が波ダッシュ • U+FF5E が全角チルダ 10. 基礎知識1) チルダとは何か？ • こういうやつらしい。 ÃÕÑ • 鼻音に関する音をあらわす、ダイアクリティカルマークの一種 • ダイアクリティカルマークってこんなやつら (よくしらない) À Á Â Ä Å Ă Ą Ā http://ja.wikipedia.org/wiki/%E3%83%80%E3%82%A4%E3%82%A2%E3%82%AF%E3%83%AA%E3%83 %86%E3%82%A3%E3%82%AB%E3%83%AB%E3%83%9E%
ymm1x 2014/07/06
波ダッシュ

windows

チルダ

文字コード
リンク
1