lynx   »   [go: up one dir, main page]

タグ

文字コードに関するnekonyantaroのブックマーク (4)

  • 「住所は英数字もすべて全角で入力してください」はなぜそうなったのか - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Webサービスのフォームに住所を入力するとき、丁目や番地などを入れる欄について、数字やハイフンを全角で書かなければいけない「全角縛り」をやっているフォームをよく見ます。半角文字を入力してしまってエラーになったり、咄嗟に変換方法を思い出せなかったり、全角と半角の見分けが付きづらかったり、「全角縛り」であることが明示されていなかったり、「ハイフン」としてどの文字を使うべきかわからなかったり……と、陶しさを感じることが多くあります。 「住所は全角のみ」(数字やハイフンも絶対に半角を受け付けない)という仕様がどういう経緯で生まれて、どう広まっ

    「住所は英数字もすべて全角で入力してください」はなぜそうなったのか - Qiita
    nekonyantaro
    nekonyantaro 2024/08/04
    セキュリティ面や既存システムとの互換も含めて内部データを全角に統一したいなら、入力フォームのほとんどがUTF-8である現状では「ユーザーが入力した文字を全角に変換してから保存」が最適解だと思うのですが。
  • 絵文字を支える技術について|nona

    はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleAndroidTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

    絵文字を支える技術について|nona
    nekonyantaro
    nekonyantaro 2023/12/04
    絵文字、いろいろ奥が深い。実装ではいろいろ有って環境によって違う絵文字が出るという問題もある。なお、謎に♂や♀が表示される問題は送信側で使われてる技術が受信側でサポートされていないためらしい。
  • BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)

    かつてWindowsでテキストファイルといえばシフトJIS形式のものが大半だった。しかし最近では、UTF-8形式のテキストファイルも普通に見かけるようになってきた。世の中はUTF-8が主流になりつつあると言っていいだろう。 しかし、WindowsUTF-8を使うと、ちょっと困ったことがある。それは、エクスプローラーの検索欄などで用いるWindows Searchが、UTF-8にはしっかり対応していないのである。正確に言うと、Windows Searchはファイル先頭に「BOM」のあるUTF-8は認識して正確にインデックス化し、ファイルの全文検索が可能になるが、BOMのないUTF-8では正しくインデックス化できず、ファイルの全文検索はASCIIコードのみ可能で、日語などの非ASCII文字では全文検索ができない。 同じ内容のテキストをUTF-8UTF-8 BOM付き、UTF-16ビッグエ

    BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)
    nekonyantaro
    nekonyantaro 2021/06/14
    今までもWindowsの全文検索は思い通りに動かないことが多い、という印象があったがやはりいろいろ有るようだ。
  • Unicode 版美乳テーブルを探せ

    美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

    nekonyantaro
    nekonyantaro 2021/04/04
    ちゃんとソースの冒頭部に<!-- 〠美乳 -->がある。昔、「meta charsetより前に非ASCII文字を書いてはいけない」という「お作法」をどこかで見たが今は気にしなくていいのかな?
  • 1
Лучший частный хостинг