[B! 文字コード] mk16のブックマーク

mk16 id:mk16

文字コードに関するmk16のブックマーク (42)

キャラ名に「ソ」をいれるとバグる！　古参開発者「うっ……頭の中で何かが……」／「ドカポンキングダムコネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って？【やじうまの杜】
mk16 2023/04/15
開発

development

programming

プログラミング

ブログ

ゲーム

game

ネタ

文字コード

bug
リンク
ㇹ゚ン゚'ㇳ̃ヴ゙ニ゙コ゚ヮヰ文̂字̠コ゚−ト゚ノ゙ㇵナ゚ㇱ(現在に至るまでの文字コードの軌跡と簡単な使い方について) - へっぽこびんぼう野郎のnewbie日記
はじめに社内の勉強会で発表した文字コードの話の焼き直しです。ところどころ適当なので話半分に読んでもらえると助かります。これ以上闇の深さを知りたくないと思って、深淵に辿り着く前に文字コードの勉強を打ち切っています。文字コードの専門家でもないので雑です。調査が甘いので間違ってることも多々あるかもしれません。その場合はコメントください。修正します。自信のないところは「らしい」とか「ようです」などのように伝聞調で書いています。あらかじめご了承ください。また、前提知識として2進数と16進数の基礎的な知識を要求しています。 16進数の表現には特に断りがないかぎり 0xFFFF のような表現を使います。 2進数を使う場合には必ず断り書きを入れます。それ以外は10進数です。本筋には関係のない、重要ではない情報は脚注にあります。気になったところだけご覧ください。アジェンダ今回の話に関係ある用
mk16 2018/12/23
ascii

Unicode

programming

文字コード
リンク
ことばマガジン：朝日新聞デジタル
朝日新聞社のニュースサイト、朝日新聞デジタルの「ことばマガジン」：朝日新聞社による、さまざまな角度からことばや漢字について考えるサイトです。新聞紙面のことばの海を「最初の読者」としてチェックする校閲センターが、読者の皆さんに「ことばの世界」をお届けします。最新先頭記事の見出しは「（ことばの広場）「蕎麦」なぜ「そば」？　角張った実　千年の時を刻み」「（ことばの広場）「無職」に居心地の悪さ　状況は様々　時代とのズレ」「（ことばの広場）紙面で現役「内助の功」　「夫婦とは」潜む意識を自問」です。
mk16 2018/06/02
「彊」が劣化コピーされて「彁」に誤認されてしまった話。

ことば

朝日新聞

新聞

文字

文字コード

言語

歴史

漢字

電子テキスト
リンク
JISの幽霊漢字が大正時代の新聞にあったように見えたという記事 - yanok.net
JIS X 0208の幽霊漢字についてTwitterで興味深いツイートを見ました。大正十二年の幽霊文字 - ことばマガジン：朝日新聞デジタルhttps://t.co/djVExrVN3o 朝日新聞の縮刷版検索に「彁」が見えた話 pic.twitter.com/1RhHtyWFyB — ひめ＠女体化したい (@sarasvati635) 2017年11月18日朝日新聞デジタルの記事で、JIS X 0208の出所不明の幽霊漢字「彁」らしく見える文字が大正12年の印刷物に見えたという話です。内容について詳しくは記事(2011/09/05付)そのものを読んでいただければ良いのですが、備忘として概要をかいつまんで紹介しておきたいと思います。 JIS X 0208の幽霊漢字とは JIS漢字コード規格JIS X 0208にはいくつか出所不明の漢字が含まれていて幽霊文字と俗に呼ばれています。拙著『プ
mk16 2018/06/02
新聞

記事

朝日新聞

漢字

文字コード

it

pc
リンク
コンピューターで全漢字使用可に６万字コード化 | NHKニュース
日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進め
mk16 2017/12/24
encoding

文字コード

コンピューター

データ

文字化け

ソフト

データベース

これはすごいbest
リンク
まだ CSV の文字化けで消耗してるの？（Excel で直接開いても文字化けしない CSVファイルを Python3 で作成するスマートな方法） - akiyoko blog
この投稿は「python Advent Calendar 2017 - Qiita」の 9日目の記事です。こんにちは、akiyoko です。「Python Advent Calendar」は 4年連続 4度目の参加になります。　*1,　*2,　*3 はじめに皆さん、CSV は好きですよね？　Excel も大好きですね？じゃあ当然、CSVファイルは Excel で開きますよね。文字化けは？　・・もちろん嫌いですよね。でも CSVファイルを Excel で開こうとしたときに、こんな文字化け地獄を経験したことはありませんでしたか？　*4 ということで今回は、Excel で直接開いたときに文字化けしない CSV ファイルを Python3 で作成する方法を紹介したいと思います。（おまけで Python2 でのやり方も書いておきますが、今時 Python2 で消耗している人なんてい
mk16 2017/12/10
CSV

python

excel

ネタ

文字コード
リンク
「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。意味論的に等価な異なる字形の集合同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
mk16 2017/03/13
unicode

文字コード

フォント

font

技術

文字
リンク
使えない文字
#PCDATA #PCDATA（parsed character data）は解析の対象になるので、「<」, 「>」はそれぞれタグの開始, 終了と解釈されてしまいます。よって、直接記すのではなく文字を参照しなければならなりません。&は文字実体参照の開始記号として使われるので、それ以外の用途なら文字を参照します。HTML 4では1114111までISO 10646の文字コード位置で参照可能ですが、HTML 3.2は255までです。一覧表 ※HTML 4では10進数だけでなく16進数でも良いことになってはいますが、10進数の方が無難です。実体参照では大文字小文字が区別されます。 < → < (<) > → > (>) & → & (&) Å → Å (Å) å → å (å) CDATA CDATA(character data) は、文字データの終りを示す区切り子「</」の他にはマーク
mk16 2015/05/28
「機種依存文字」一覧を見ると、BASE64より効率的なバイナリ変換形式を使えない理由が分かる。

html

javascript

文字コード

charset

uri

web

文字参照

css
リンク
UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由　
mk16 2015/03/08
character

unicode

文字コード

font

フォント

歴史

文字

history

デザイン
リンク
「〜」　←　「下→上→下」まちがい、「上→下→上」せいかい　　四半世紀にわたる問題がついに決着！ : 暇人＼(^o^)／速報
「〜」　←　「下→上→下」まちがい、「上→下→上」せいかい　　四半世紀にわたる問題がついに決着！ Tweet 1：バーニングハンマー(catv?)＠＼(^o^)／：2015/03/07(土) 22:28:22.34 ID:EOI6wsG40.net 2014年9月29日から10月3日にかけて、スリランカのコロンボで国際文字コード規格を審議するWG2会議が開催された。この会議において、WAVE DASH（符号位置U+301C）の例示字形を変更をする提案、文書番号「N4606」[*1]（図1）が審議され、特に反対が出ないまま、無事に勧告として承認された[*2]。この勧告は、今年中ごろに発行を予定されるUnicode 8.0でも反映される予定だ。少しパソコンに詳しい人なら、WAVE DASHと聞くと「ああ、あれ」と顔をしかめるかもしれない。文字コードにはいくつか扱いが厄介な文字が存在
mk16 2015/03/08
文字コード

文字

ネット

microsoft
リンク
「Unicode 8.0」で肌の色の多様性に対応へ、“絵文字”に肌の色を変化させる符号を追加 -INTERNET Watch
mk16 2014/11/06
絵文字

unicode

文字コード

文字

web

画像

国際
リンク
全角チルダ問題
↓↓↓↓訂正あります。↓↓↓↓ 2018/07/02に株式会社エフコード社内で行われた勉強会のスライドです。訂正版(随時更新中): https://docs.google.com/presentation/d/15HOMfAbtdWwO48njcB8IdkN3kVAMu3wsmZo0O3S-f_4/edit?usp=sharing 専門家による資料・専門家向けの資料ではありません。自分自身で学習し、論文・文献等を読解してまとめた内容となります。間違い等あるかもしれませんが、あれば是非コメント頂ければと思います。【訂正事項】スライド16: 誤：たった一つのプロセスが故障しただけでも有限時間で合意できない正：たった一つのプロセスが故障しうるだけでも有限時間で合意できないスライド20: 誤: 重要: あるschedule σ1, σ2 がdisjoint (nodeが被ってない) なら
mk16 2014/07/07
文字コード

unicode

Windows

チルダ

波ダッシュ

encoding

文字

ネタ
リンク
文字化け解読ツール「もじばけらった」
ご利用に関する諸注意本サービスは smkn (From kiki verb) によって、”現状のまま” 提供されるものとします。本サービスについては、明示黙示を問わず、商用品として通常そなえるべき品質をそなえているとの保証も、特定の目的に適合するとの保証を含め、何の保証もなされません。事由のいかんを問わず、損害発生の原因いかんを問わず、且つ、責任の根拠が契約であるか厳格責任であるか (過失その他) 不法行為であるかを問わず、smkn (From kiki verb) も寄与者も、仮にそのような損害が発生する可能性を知らされていたとしても、本サービスの使用から発生した直接損害、間接損害、偶発的な損害、特別損害、懲罰的損害または結果損害のいずれに対しても (代替品またはサービスの提供; 使用機会、データまたは利益の損失の補償; または、業務の中断に対する補償を含め) 責任をいっさい負いません
mk16 2014/03/27
amazonの文字化けしたレビュー等に使える。

Webサービス

文字化け

文字コード

お役立ち

ツール

webservice

便利

tool

サービス
リンク
wが二つ重なった文字「ʬ」がバイラビアル・パーカッシブだと調べる方法
もともと2ちゃんねるで回答されたものみたいですが、「ｗが縦に二つ重なった文字の出し方教えて」という質問に対して、「ʬ」を出したり、その読み方が「バイラビアルパーカッシブ」だと回答した人はどうやって調べたんでしょうね。そ […] もともと2ちゃんねるで回答されたものみたいですが、「ｗが縦に二つ重なった文字の出し方教えて」という質問に対して、「ʬ」を出したり、その読み方が「バイラビアルパーカッシブ」だと回答した人はどうやって調べたんでしょうね。その回答者がこれを使ったかどうかはわかりませんが、ユニコード内の文字だと、ShapeCatcherというサイトで調べられます。左側のボックスに、マウスで探したい文字を書き、”Recognize”(認識せよ)をクリックすると、下にそれに近い文字が列挙されます。wを縦に二つ書いてみましょう。コード 0x2ac のラテン文字 bilabial perc
mk16 2014/01/11
webサービス

unicode

文字

検索

言語

文字コード

webservice

PC
リンク
文字化けで打線組んだwwwwwwwwwwww : 日刊やきう速報
http://hayabusa.2ch.net/test/read.cgi/livejupiter/1379336082/
mk16 2013/09/20
>ttp://hayabusa.2ch.net/test/read.cgi/livejupiter/1375094536/ 丸写しなんだよなぁ・・・

2ch

ネタ

文字コード

文字化け

neta

ワロタ

なんJ

web

野球
リンク
図書館員のコンピュータ基礎講座
サイトを閉鎖しました。トップページに掲載していたとおり、このサイトは、図書館員のためにICTに関する知識・知恵を掲載するという趣旨で提供してきました。私は元々ICTの知識がなかったため、業務上の必要により調べた内容などを自分用のメモとして作成しPC内に蓄積していました。そして、しばらくして、それを新人職員研修にも用いるようになり、さらにWebに掲載するようになったという経緯でこのサイトを開始しました。図書館業務に必要なICTに関する情報は多様かつ膨大です。必要が出てから勉強を開始していては間に合わないことも多くありました。また、ICTを初心者に分かりやすく簡潔に解説している書籍やサイトも多くありませんでした。そのため、必要になった時に取っ掛かりとして利用できる初心者に分かりやすいサイトとなることを目指して更新を重ねてきました。しかし、ICTの刷新や改訂の頻度は高く、その内容を正しく
mk16 2012/10/21
japan

Computer

資料

図書館

コンピュータ

PC

web

tips

文字コード

dtp
リンク
ダッシュ (記号) - Wikipedia
英語版記事を日本語へ機械翻訳したバージョン（Google翻訳）。万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。翻訳後、{{翻訳告知|en|Dash|…}}をノートに追加することもできます。 Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。
mk16 2012/10/03
大昔の漫画だと、クォーテーションダッシュ（ホリゾンタルバー）の連続で間（ま）を表現してた。

ascii

Wikipedia

文字コード

language

文字

フォント

ネタ

novel

char
リンク
SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
下図は、SoftBank iPhoneのMailが用いるShift_JISのIBM拡張文字領域*1。どうだ、驚いたろう。 SoftBank iPhoneのMailは、charset=Shift_JISをよく使う。髙村薫の「髙」や宮﨑あおいの「﨑」などのWindows外字もShift_JISで送るし、絵文字もShift_JISで送る。しかし、WindowsのIBM拡張文字領域とSoftBankの絵文字領域は、もともと衝突しており、共存できない。なので、SoftBank iPhoneのShift_JISでは、IBM拡張文字のうち下図ピンク部分が使えない。だったらその分は、NEC選定IBM拡張文字のほうを使えばいいじゃないですか、どうせダブってるんだから（下図）。というのが、大ざっぱに言えば、SoftBank iPhoneのMailが用いるShift_JISである。その外字領域をまとめると、
mk16 2012/04/25
Mac

文字コード

softbank

これはひどい

iOS

iPhone

mail
リンク
いいから聞け！俺が文字コードについて教えてやるよその１（前提知識編） - 谷本心 in せろ部屋
ちょっと久々のJavaネタですが、前から書き溜めていた、文字コードやエンコードについてのノウハウを書きます。今回は、詳細な説明に入る前に、前提になる知識や用語について説明しておきます。文字コードとエンコードって違うの？新人くん「では、HTMLの文字コードはUTF-8でお願いします」先輩社員「文字コードじゃなくてエンコーディングでしょ？」新人くん「えっ。あぁ、はい、それで」文字コードとエンコード（エンコーディング）を混同して使ったりすると、ちょっと原理主義的な人に怒られたりするんですけど、大まかに言えば、「文字コード」は文字に割り当てられた「数字」のことで、「エンコード」は文字と数字をマッピングする「方式」のことだと捉えていれば、大きくは外れません。ただ、「文字コード」という言葉は、「数字」「方式」の両方で使われるほか、文字一覧を示す「Charset」という意味で使わ
mk16 2011/06/16
charset

文字コード

プログラミング

Java

web制作

開発

HTML

programming
リンク
asahi.com（朝日新聞社）：日本ＩＴ界の鬼っ子「外字問題」解消を　経産省が着手 - 社会
「外字（がいじ）」。コンピューターで使う漢字として日本工業規格（ＪＩＳ）が定めた約１万字に含まれない、規格外の文字たち。文字化けや正常なデータ通信ができない原因になり、ＩＴ業界にとって悩ましい、この「外字問題」を一気に解消しようというプロジェクトが始まった。パソコンで文章を書くときの使い勝手は大きく変わるのか――。　例えば「渡辺」の「辺」。ＪＩＳ規格には「邊」「邉」をあわせた３文字しか含まれないが、１００字近い異体字があるとされる。　約５８万人分の戸籍を扱う東京都足立区。区役所のパソコン画面には４９もの「辺」の異体字が現れた。戸籍などを管理するコンピューターシステムに区が登録したものだ。名前に未登録の漢字がある住民が転入するたびに増え、今では外字全体で約５千もある。　外字を作るのは区職員。パソコンで、１文字に３０分ほどかけて点描する。完成後は庁内や出先機関にある千数百台のパソコンに登
mk16 2011/01/22
asahi.com

asahi

文字コード

IT

行政

外字

文字

日本

日本語

漢字
リンク
1 2 3 次のページ