集合知プログラミング 作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見る 4章の検索とランキングを読んだ。pythonを使ってシンプルな検索エンジンを作ってるけどけっこう感動した。この本すごいよ。技術メモと感想。 1. クローリング 検索エンジンの第一歩となるWebページを収集するクローラを作る。昔は、クローラというプログラムがWebサーバを渡り歩いてデータを収集し、本部のサーバへデータを送るというイメージを持っていたのだがこれは全く違う。実際は、本部からURLへアクセスしてデータをダウンロードするだけ。実体がサーバを渡り歩くプログラムはモバイルエージェントと言ってクローラとは目的が異なる。 urllib2を用いるとWeb