[B! Webスクレイピング] fermiのブックマーク

fermi id:fermi

Webスクレイピングに関するfermiのブックマーク (5)

https://www.openvista.jp/archives/note/251/?251/
fermi 2008/02/25
php

ライブラリ

Webスクレイピング
リンク
今日のCPANモジュール（跡地）目次
Redirecting… Click here if you are not redirected.
fermi 2008/01/17
perl

Webスクレイピング
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
fermi 2007/11/20
ライブラリ

ruby

スクレイピング

Webスクレイピング
リンク
mixi 新デザインでグリモン作ったり、スクレイピングしたり、しやすくなった - IT戦記
今回の mixi のデザインのポイントは全ページで prototype.js の 1.5.0_rc0 が読み込まれている新しいデザインのページはテーブルレイアウトじゃない新しいデザインのページは id class 付きまくりいろいろ試してみた prototype.js が読み込まれているか確認する alert(Prototype.Version); // 1.5.0_rc0 ページ内に id が何個あるか alert($$('*[id]').length); // トップページに 52 個！ページ内に class が何個あるか alert($$('*[class]').length) // トップページに 239 個！おおすごい！試しに日記一覧ページから日記の URL を抽出するワンライナー $$('#bodyMainAreaMain dt a').filter(/view_
fermi 2007/10/01
Webスクレイピング

javascript

mixi
リンク
進化する“Webスクレイピング”技術の世界 ― ＠IT
2007/02/20 WebサービスのAPIやRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogle、Yahoo!、楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLやCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング”技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ
fermi 2007/02/21
Webスクレイピング

ruby

ライブラリ

フレームワーク
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx

Лучший частный хостинг