[B! アルゴリズム] katowのブックマーク

PHPとPythonとRubyの連想配列のデータ構造が同時期に同じ方針で性能改善されてた話 - hnwの日記

PHPとPythonとRubyの連想配列のデータ構造がそれぞれ4〜5年ほど前に見直され、ベンチマークテストによっては倍以上速くなったということがありました。具体的には以下のバージョンで実装の大変更がありました。 PHP 7.0.0 HashTable高速化 (2015/11) Python 3.6.0 dictobject高速化 (2016/12) Ruby 2.4.0 st_table高速化 (2016/12) これらのデータ構造はユーザーの利用する連想配列だけでなく言語のコアでも利用されているので、言語全体の性能改善に貢献しています1。スクリプト言語3つが同時期に同じデータ構造の改善に取り組んだだけでも面白い現象ですが、さらに面白いことに各実装の方針は非常に似ています。独立に改善に取り組んだのに同じ結論に至ったとすれば興味深い偶然と言えるでしょう2。本稿では3言語の連想配列の従来実

katow 2021/01/10

リンク

十分大きな乱数をユニークな識別子として使うのがなぜ安全なのか｜Rui Ueyama

いろいろなソフトウェアで、大きいランダムな値をユニークな値とみなすということが行われている。例えばユニークな識別子としてよく使われるUUIDはただの122ビットの乱数だ。gitもSHA-1ハッシュ値が160ビットの乱数のように扱えることを期待して、それをユニークな識別子として使っていた。実際にはランダムな2つの値が同じになる確率はゼロではないのに、なぜこれが安全なやり方だと言えるのだろうか？それについてちょっと説明してみよう。あるシステムが、乱数で生成された識別子の衝突のなさに依存しているとして、仮に衝突が発生した場合、相当悪い結果、例えば復旧不可能な形でデータベースが壊れてしまうとしよう。これはどれくらい危険なのだろうか？数学の問題で、学校のクラスの中で同じ誕生日の人が1組以上いる可能性は思ったより高いという話を聞いたことがあると思う。あるランダムに生成された値が衝突する確率という

katow 2017/12/01

みんな似たようなプラスアルファ解決も考えていて自分と変わらないのだなとほっこり。

リンク

ID生成大全 - Qiita

セッションIDやアクセストークン、はたまた業務上で使う一意の識別子など、いろんなところで一意のIDを生成しなきゃいけないケースが存在します。そこで世間で使われているIDの生成方法について調べてみました。選択基準 ID生成における要求として、以下の観点が上げられるかと思います。生成の速度大量にデータを短期間で処理し、それらにIDを付与する場合、ID生成そのものがボトルネックとなることがあります。推測困難性 IDを機密情報と結びつける場合、IDを改ざんされても、機密データが見れないようにできている必要があります。順序性採番した順にデータをソートする必要がある場合は、IDがソートキーとして使えないといけません。それぞれについて各生成手段を評価します。 ID生成の手段データベースの採番テーブル採番用のテーブルを作り、そこで番号をUPDATEしながら取得していくやりかたです。古い

katow 2017/12/01

リンク

diffの動作原理を知る～どのようにして差分を導き出すのか | gihyo.jp

UNIXの基本的なコマンドの1つであるdiff。これに実装されているアルゴリズムは実に興味深い世界が広がっています。本稿では、筆者が開発した独自ライブラリ「dtl」をもとに「diffのしくみ」を解説します。はじめに diffは2つのファイルやディレクトリの差分を取るのに使用するプログラムです。ソフトウェア開発を行っている方であれば、SubversionやGitなどのバージョン管理システムを通して利用していることが多いかと思います。本稿ではそのdiffの動作原理について解説します。差分の計算の際に重要な3つの要素差分を計算するというのは次の3つを計算することに帰結します。編集距離 2つの要素列の違いを数値化したもの LCS（Longest Common Subsequence） 2つの要素列の最長共通部分列 SES（Shortest Edit Script）ある要素列を別の要

katow 2011/03/12

リンク

静かな注目を集める圧縮アルゴリズム「LZMA」

GNUプロジェクトの配布アーカイブなどを中心に、LZMAを用いた圧縮形式を目にする機会が増えてきた。組み込み用途などへの活用も期待されるこの圧縮形式を紹介しよう。 2001年に開発された可逆圧縮アルゴリズム「LZMA」（Lempel-Ziv-Markov chain-Algorithm）が静かな注目を集めている。LZMAといえば、高い圧縮率を備え、Windowsアーカイバ「7-Zip」に採用されていることでも知られる。 ZIPやLHAなど、ファイルのアーカイブと圧縮が統合されているWindows由来のプログラムとは異なり、UNIXやLinuxでは伝統的にアーカイブと圧縮が個々のコマンドとして用意されており、それらを組み合わせて利用することになる。現在では、アーカイブがtar、圧縮にはGNU zip（.gz）やbzip2（.bz2）が併用されることが多い。 .gzや.bz2をしのぐ圧縮率が特

katow 2009/06/19

初めて知った。まだ実物ファイルにお目にかかったことはない。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

アルゴリズムに関するkatowのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2025年5月第4週）

今週のはてなブックマーク数ランキング（2025年5月第3週）

今週のはてなブックマーク数ランキング（2025年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス