lynx   »   [go: up one dir, main page]

タグ

検索エンジンに関するkamatamadaiのブックマーク (17)

  • 「Elasticsearch での類似文書検索と More Like This Query API 詳解」というタイトルで発表しました - stop-the-world

    Elasticsearch 勉強会 in 大阪・京都で発表しました。 最近、興味をもって調べていた More Like This Query API について、改めてソースコードリーディングしながら整理した内容になっています。 Elasticsearch 勉強会 in 大阪(7/13 Yahoo! JAPAN 大阪) Elasticsearch 勉強会 in 京都(7/14 はてな京都オフィス) 大阪と京都でElasticsearch勉強会を開催しました。 ( @johtani さんのブログ) この発表で使ったスライドを Speaker Deck にアップしました。大阪と京都で同内容の発表でしたが、スライドの体裁をよくして見やすくした、京都での発表スライドをアップしています。 Elasticsearch での類似文書検索と More Like This Query API 詳解 // Sp

    「Elasticsearch での類似文書検索と More Like This Query API 詳解」というタイトルで発表しました - stop-the-world
  • 国産の全文検索エンジンGroonga vs 世界的流行のElasticsearch - CreateField Blog

    2014年4月21日は、第4回Elasticsearch勉強会ですね! http://elasticsearch.doorkeeper.jp/events/8865 第4回Elasticsearch勉強会は、参加希望者が約200名の大反響なようです。 私は勉強会に参加できないので、C言語で書かれた国産の高速な全文検索エンジンGroongaと、Javaで書かれた世界的に勢いのあるElasticsearchについて性能の比較をしたいと思います。 注意事項 今回の検証では1台あたりの馬力を比較するためにサーバ1台での全文検索性能について比較しています。 私は、Groonga(Mroonga)の利用暦が約2年であるのに対し、Elasticsearchの利用暦は2日です。このため、Elasticsearchに対するチューニングの不備や公平な比較になっていない点が含まれている可能性があります。 Ela

    国産の全文検索エンジンGroonga vs 世界的流行のElasticsearch - CreateField Blog
  • Solrの導入資料を公開します - Hatena Developer Blog

    こんにちは、 id:yanbe です。 全文検索エンジンLucene上に構築されたSolrという検索ミドルウェアがあります。拡張性・カスタマイズ性に富み、既存のデータのインポート機能が豊富なのもあって、広く利用されています。 参考: Solr - Wikipedia 国内のウェブサービスでのSolrの採用事例を挙げるとNAVERやCookpad、アメーバなどがありますが、はてなでも以前より一部のサービスでSolrを採用しています。 Solrの公式ドキュメント(英語)はwiki形式で提供されており、網羅的な情報はこちらで手に入ります。また、Solrの基的な使い方を学べるチュートリアルもありますが、「すでにある典型的なLAMP構成のウェブサービスにSolrによる検索機能を組み込む」までには、ここからさらに多くの情報を調べる必要があり、Solrの導入のハードルとなっていると感じました。 そこで

    Solrの導入資料を公開します - Hatena Developer Blog
  • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章) | @johtani の日記

    一定期間更新がないため広告を表示しています

    Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章) | @johtani の日記
    kamatamadai
    kamatamadai 2012/04/15
    「Apache Solr入門」が積読のままだったりする
  • 検索技術を使うなら知ってないと損する6つのこと~クックパッド、グリー、ぐるなび、CROOZは検索技術をどう使っているのか(1/2) - @IT

    クックパッド、グリー、ぐるなび、CROOZは検索技術を どう使っているのか 有限会社オングス 杉山貴章 2012/2/9 2012年1月26日、CROOZ主催の勉強会「モーショノロジー2012 #1」が開催された。今回のテーマは「全文検索」。検索技術の開発や活用に携わる6名の発表者によって、検索エンジンの実装やプロダクトの活用事例などが紹介された。 全文検索の歴史とgroongaの索引構築の実装 ソーシャル連携などに広がるECサイトでの全文検索 KVSの膨大なKeyを見つけるための全文検索 groongaのRuby実装「rroonga」による検索サービス モバイルに欠かせない位置情報検索で使うgroonga レシピ検索のプロトタイピングにApache Solrを使う そもそも、「モーショノロジー」って何? そもそも、「モーショノロジー」とは何だろうか。総合司会を務めたCROOZの小俣泰明氏

  • Apache Lucene を 60 秒で試してみる - bluepapa32’s Java Blog

    今更ながら Java で全文検索です。とりあえず Apache Lucene の デモを試してみようと思ったのですが、最新リリースの 3.5.0 の情報が見当たらなかったので、この際、誰でも 60秒で デモを試せるように Gradle スクリプトを作ってみました。 デモのために わざわざ 自分でファイルをダウンロードして、解凍して、あれしてこれして なんて面倒ですよね。 Gradle を使えば たった 3 ステップで試せます。(もちろん、今時の人たちは 既に Gradle はインストール済みですよね...) build.gradle 作成 インデックスファイル 作成 全文検索 実行 build.gradle 作成 まずは 適当なディレクトリに build.gradle を作成して 次のスクリプトをコピーしましょう。 今回は Lucene がメインなので Gradle スクリプトの細かい説明

    Apache Lucene を 60 秒で試してみる - bluepapa32’s Java Blog
    kamatamadai
    kamatamadai 2012/02/05
    Gradleを使用すれば、Javaで全文検索できるApache Luceneを60秒で試せるお。もちろん、Gradleはインストール済だね
  • Redmineにリポジトリ全文検索を組み込む

    この記事は Redmine Advent Calendar jp: 2011 の16日目です。 前日は changeworldさんの「Redmine の plugin に手を出すならまずこれから」でした。 明日の担当は。。どなたか!! 急遽参戦を決めたので内容は薄っぺらいですが、良かったらお付き合い下さい。 コードが書きたかったので、プラグインを作成してみました。 Redmineに全文検索エンジンを呼び出すプラグインを組み込んで、リポジトリを検索してみようと思います。 全文検索のオープンソースプロダクトで、Javaで作成されたFessという物があります。 http://fess.sourceforge.jp/ja/ 全文検索Apache Solrベースに、Webやファイル(xlsやpdf)、はたまたDB!!をクロールできる素晴らしいプロダクトです。 なにより日人の方(id:shinsuk

    Redmineにリポジトリ全文検索を組み込む
    kamatamadai
    kamatamadai 2011/12/20
    FESSを使用。次の日の『Redmineにリポジトリ全文検索を組み込む(裏)』も必読
  • 検索エンジンの常識をApache Solrで身につける

    表のような転置インデックス完成後は、クエリに対する結果を返す処理は簡単です。例えば、ユーザーが「Vim」というクエリを発行すると、検索エンジンは「Vim」を含む文書IDリストを返します。表では文書IDの「2」を返します。 検索エンジンを取り巻く7つの技術 検索エンジンのコア技術は前節で紹介したインデックスです。しかし実際に、検索インデックスだけで構成する検索エンジンから、検索サービスを構築するには多大なコストが掛かります。以下の節で検索エンジンを利用したシステム、検索サービスを構築する際に便利なコンポーネントを紹介します。 これらの機能のいくつかは、多くの検索エンジンが組み込んでいます。一方で、簡素な検索エンジンは、以下で紹介するコンポーネントをサポートしていないため、ユーザーが独自に開発するか、その機能を持つコンポーネントを組み込む必要があるものもあります。 【1】トークナイザ 検索エン

    検索エンジンの常識をApache Solrで身につける
    kamatamadai
    kamatamadai 2011/11/19
    いいまとめですが、まずはSolrベースのFessから入ってもらうのがいいと思う。Anuenueは今度試したい
  • solr最適化 - 刺身の上にたんぽぽ乗せる日記

    あんまり見てなかったので。 http://wiki.apache.org/solr/SolrPerformanceFactors http://wiki.apache.org/lucene-java/ImproveSearchingSpeed http://wiki.apache.org/solr/SolrCaching バージョン上げる update頻度が高いので、optimizeではなく、mergeFactorを調整 omitNorms 大きいfieldが重い 一度ダメ元でindex作りなおしてみるかね。

    solr最適化 - 刺身の上にたんぽぽ乗せる日記
  • pixiv サイバーエージェント共同勉強会 solr導入記

    https://djangocongress.jp/#talk-10 OpenTelemetryは、複数のプロセス、システムをまたがってアプリケーションの処理を追跡する分散トレースの仕組みを提供するフレームワークで、2021年春に1.0.0がリリースされました。このライブラリを活用し、Djangoアプリおよび周辺システムの処理を追跡する方法について紹介します。 Google Slide(スライド内のリンクをクリックできます) https://docs.google.com/presentation/d/e/2PACX-1vRtqRQ6USDeV32_aTPjSaNXpKdn5cbitkmiX9ZfgwXVE-mh74I4eICFOB8rWGz0LPUIEfXn3APRKcrU/pub コード https://github.com/shimizukawa/try-otel/tree/2022

    pixiv サイバーエージェント共同勉強会 solr導入記
    kamatamadai
    kamatamadai 2011/07/27
    pixivではSolrを導入。NGramTokenizerを使用しているが、バグがある
  • Hyper Estraier で PDF 管理

    電子書籍や專門分野に関わる資料のみならず、最近では学術論文が PDF で配布されることも珍しくないので、HDD の中でどんどん肥大化していく PDF データを持て余しているのは私だけではないだろう。先日の記事「Hyper Estraier で仏典探索」で、試みに全文検索システム Hyper Estraier を用いてローカルに保存されているテキストファイルを検索してみたが、この全文検索システム は PDF 文書の検索にも対応しているので、その検索も任せてみる。なお、以下は 前回 に引き続き Mac OS X 10.6.8 上で、 Macports を用いて Hyper Estraier をインストール (/opt/local/bin/estcmd) した上で作業を行っている。 Hyper Estraier で PDF を扱う場合、PDFHTML 形式に変換するフィルタ estfxpd

    Hyper Estraier で PDF 管理
    kamatamadai
    kamatamadai 2011/07/27
    開発が停止しているHyper Estraierは、まだまだ現役で使えるのかな?
  • Apache Solr を利用した検索パッケージ Anuenue - mixi engineer blog

    研究開発グループの takahi-i です。 先日名前だけご紹介したAnuenue というツールをご紹介させていただきます。Anuenue は Apache Solr のラッパーであり、検索クラスタの構築と運用を容易にする目的で制作されました。 稿では始めに Apache Solr を選択した理由について述べ、その後、このツールを開発した背景とその目的をご紹介させていただきます。後半では実際に Anuenue を用いて検索クラスタを立ち上げます。 なぜ Apache Solr を採用したのか 昨年の秋、弊社の検索エンジンを置き換えるという計画が社内で策定され、ベースとなる検索エンジンの選定のために多くの OSS 検索エンジンを比較検討しました。このとき重視したのは一台の検索パフォーマンスと同時に、保守の容易さと、開発コミュニティの規模です。 検索エンジンの保守性に関して特に重要と考えたの

    Apache Solr を利用した検索パッケージ Anuenue - mixi engineer blog
    kamatamadai
    kamatamadai 2011/07/06
    FESSを試した後、余裕があれば試す
  • 全文検索機能をつけたいWebサービスで必ず考慮したい1冊「Apache Solr入門」

    100万件以上の規模をデータを扱うWebサービスで、低コストで全文検索エンジンをサイトに組み込みたいと思った時に多く使われているのが、 1.MySQL + Senna 2.Apache Solr 3.Hyper Estraier 他にもあるかもしれませんが、この辺の選択肢なのかと思います。 どれも様々なところでの採用実績があるかと思いますが、今回は、日でも大規模なデータ量を活用する情報サイトでも活用されている(ことを僕が知っている)、Apache Solrのをいただいたので紹介してみたいと思います。 Apache SolorはオープンソースでPureJavaで作られている全文検索エンジンです。 サーブレットコンテナ上で動作し、Webサーバなどのクライアントからは、HTTPでリクエスト、レスポンスを処理します。 上記3種類の検索エンジンの違いとしては、Hyper Estraierは使った

    kamatamadai
    kamatamadai 2011/05/04
    モバツイの中の人のApache Solrの紹介記事
  • 言語判定プラグイン for Apache Nutch - 木曜不足

    オープンソース Web 検索エンジン Apache Nutch の概要 Apache Nutch のプラグインと言語判別 Apache Nutch のプラグインの作り方 Apache Nutch についてちらほら調べてきたけど、いよいよ 言語判定ライブラリを使って Nutch 用の言語判定プラグインを作ってみた。 言語判定プラグイン for Apache Nutch - Language Detection Library for Java プラグイン体はとても小さいので、言語判定ライブラリに同梱されている。 上のドキュメントの通りに設置すれば、以下のように様々な言語での判定が出来るようになる。 利用方法は上のドキュメントを読んでもらうとして、ここでは言語判定プラグインはどのように作られているか、という話をしよう。 plugin.xml Apache Nutch のプラグインと言語判別

    言語判定プラグイン for Apache Nutch - 木曜不足
    kamatamadai
    kamatamadai 2011/05/04
    オープンソース Web 検索エンジン Apache Nutch の概要など
  • 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    関口宏司のLuceneブログ
    kamatamadai
    kamatamadai 2011/05/03
    LuceneとSolrは、2011/4にマージされていたのか
  • 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

    これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。 その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう

    kamatamadai
    kamatamadai 2011/04/20
    素晴らしい翻訳
  • An open-source fulltext search engine and column store

    About Groonga Groonga is an open-source fulltext search engine and column store. It lets you write high-performance applications that requires fulltext search. Characteristic The latest release 15.0.4 is the latest release. It had been released at 2025-03-28. Install Source The latest posts Groonga 15.0.4 has been released! (2025-03-28) Groonga 15.0.3 has been released! (2025-03-10) Groonga 15.0.2

    An open-source fulltext search engine and column store
    kamatamadai
    kamatamadai 2011/04/05
    全文検索ライブラリSenna後継ぐるんが
  • 1
Лучший частный хостинг