akatakunのブックマーク - はてなブックマーク

Cursorを1年触っているエンジニアの最近の使い方｜ニケちゃん

以下は古い記事です。こんにちは、ニケです。皆さん、Cursor 使っていますでしょうか。私は去年の10月末から使い続けているので1年が経過しました。時間が経つのは早いですね。前回書いた記事（↓）から半年経ち、開発の仕方が少しアップデートされたので改めて記事にしようと思います。ちなみに上記の記事ではブラウザ版のClaudeも紹介していましたが、Claude-3.5-SonnetがCursorで利用できるようになってからはあまり使っていません。設計の壁打ちとかでたまに使ったりするくらい。そのため、この記事ではCursorにフォーカスを当てて紹介していきます（最後に少しだけ他に使用しているAIツールを共有します）。 ⚠ 以降で紹介する方法は個人的にハマっている方法なので、これがベストではないです。１つの参考として見てもらい、後はご自身で使ってみて調整していくのが良いと思います。 Cu

akatakun 2025/05/18

リンク

GitHub - modelcontextprotocol/servers: Model Context Protocol Servers

These servers aim to demonstrate MCP features and the TypeScript and Python SDKs. AWS KB Retrieval - Retrieval from AWS Knowledge Base using Bedrock Agent Runtime Brave Search - Web and local search using Brave's Search API EverArt - AI image generation using various models Everything - Reference / test server with prompts, resources, and tools Fetch - Web content fetching and conversion for effic

akatakun 2025/05/18

MCP

リンク

GitHub Copilot Agentを試してみた

はじめに GitHubの公式ブログで「GitHub Copilot:エージェントの覚醒」が発表されました。 Copilot EditsがGA（一般提供）され、新たにAgentモードがプレビュー公開されたとのことで、実際に試してみました。 Copilot EditsがGAされた Copilot Editsとは Copilot Editsは、チャットとインラインチャットの長所を組み合わせたもので、会話型のフローと、管理するファイル群に対してインラインで変更を加える機能を備えています。（中略） Copilot Editsでは、編集対象のファイルを指定し、自然言語で変更をリクエストできます。GitHub Copilotは指定した範囲内でコードをインラインで変更し、開発者は提案された変更を確認しながら、適用・修正を繰り返すことができます。 GitHub Blog より引用従来はCopilot C

akatakun 2025/05/17

リンク

Gemini が YouTube 動画をどう扱うかの調査 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

akatakun 2025/05/17

Gemini は動画を 1 秒に 1 枚の静止画（フレーム）に分解し、画像として処理している, Gemini は動画に登場する複数の話者を区別できます。これは、通常の字幕データには含まれていない情報です

AI
Gemini

リンク

Gemini が YouTube 動画をどう扱うかの調査 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

akatakun 2025/05/17

Gemini は動画を 1 秒に 1 枚の静止画（フレーム）に分解し、画像として処理している

AI
Gemini

リンク

Elasticsearch 日本語でフレーズ検索が必要なわけ

Elasticsearch クエリーのデフォルトのオペレーターは OR です。これ自体は問題ないのですが、このORが適用されるタイミングがとても違和感 … 。どうやら、リクエストする単語が１単語でもアナライザーで解析され、分割された最小単語単位でORで検索されるみたい！どういう事かと言うと、キーワード：「東京都」で検索した場合、アナライズ後、「東京」と「都」の２単語にトークナイズされ、検索は「東京 OR 都」で検索される動きをしているようです。もちろんこの場合、「東京都」を含んでいるドキュメントもマッチしますが、「東京」だけ、「都」だけ、または、「東京 … 都」「都 … 東京」などの単語が離れているドキュメントにもマッチする可能性があります。ネットを調べてもあまり見当たらず、みんなどうしているんだろう？当たり前の仕様なのか？この動き違和感ありありです。デフォルトの仕様を

akatakun 2025/05/17

Elasticsearch

リンク

Elasticsearchの日本語対応 (with Rails) と学んだこと 💡 [ 日本語版 ] - Linkers Tech Blog

導入情報システム部サービス開発チームのNathanです。この記事ではElasticsearchについて学んだことをご紹介します。横山さん、翻訳をしていただきありがとうこざいました。 The English version can be found here. 目的 Elasticsearchを設定して使用するためのガイドは数多くありますが、大部分は英語のデータを対象にしたものです。この記事は、そのほとんどが日本語で占められたデータをElasticsearchで扱う上で、もし最初にこれを知れていたら嬉しかったという知識を詰め込んでいます。 elasticsearch Elasticsearchのセットアップ手順は載っていますか？載っていません。この記事は、日本語でElasticsearchを扱う時の手順を包括的に載せたものではありません。もしそういった内容を求める方は、以下のようなリンク

akatakun 2025/05/17

Elasticsearch

リンク

Kuromojiユーザ辞書に定義済みの単語で構成された複合語の形態素解析について

akatakun 2025/05/17

kuromojiデフォルトで1tokenになる文字列（一般的な表現）をユーザ辞書登録すると、kuromojiデフォルトの単語コストが変わることでデメリットも出る可能性があります。

Elasticsearch

リンク

How to implement Japanese full-text search in Elasticsearch

全文検索は一般的に知られていますが、検索エクスペリエンスで非常に重要な役割を果たしています。ただし、日本語など、一部の言語では、全文検索を実装するのが難しい場合があります。このブログでは、日本語で全文検索を実装する際の課題を探り、Elasticsearchでこれらの課題を解決する方法をいくつか示します。全文検索とは？ Wikipediaより、下記が定義となります。全文検索とは、コンピュータにおいて、複数の文書（ファイル）から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文を対象とした検索」という意味で使用される。全文検索は、現在多くのデジタル体験を強化するものです。全文検索は、データセット内に隠れている可能性のある単語やフレーズを見つけようとしてくれます。例えば、ネットショッピングして「phone」を検

akatakun 2025/05/17

インデックスのサイズ大きくならないことや、同義語のメンテナンス時にドキュメントのreindexが必要ない，n-gram解析のフィールドに対し、boolクエリでmustを利用し、結果がヒットすることを保証

Elasticsearch

リンク

Elasticsearch/LuceneのAnalyzerにおけるトークングラフを理解して適合率と再現率をコントロール - Qiita

はじめにこの記事ではElasticsearch、というかLuceneのAnalyzerの挙動のうち、特にトークングラフという概念について紹介したいと思います。これについてきちんと理解すると、例えば検索時に表記揺れを許容するのか、あるいは厳密に一致したもののみにマッチさせるのかといったチューニングができるようになります。 Elasticsearchでトークングラフを利用するにはSynonym graph token filterを使います。ElasticsearchではトークングラフはクエリーAnalyzerのみ対応していることに注意してください。トークン Elasticsearchに限らず、検索エンジンは通常内部のデータ構造として転置インデックス(Inverted index)というものを作成します。これは基本的に書籍の最後にある索引と全く同じで、どの単語がドキュメントのどこに記載され

akatakun 2025/05/16

「関西国際空港」で検索にヒットした時に個別の「関西」「国際」「空港」にヒットした時よりもTF-IDF（実際はBM25）のスコアが高くなると思われるので、適合率の観点で良い検索結果になることが期待できます。

リンク

Elasticsearchで日本語を同義語展開する

全文検索における同義語展開の必要性全文検索では、基本的に文字列のマッチにより検索を行います。しかし我々が言葉を扱うときには、同じものを違う表現で指し示すことが多々あります。例えば「独占禁止法」と呼ばれる法律があります。これは経済憲法とも言われる大変重要な法律なのですが、日本では「昭和二十二年法律第五十四号（私的独占の禁止及び公正取引の確保に関する法律）」という法律がそれに該当し、独占禁止法という名前にはなっていません。これを皆、「独占禁止法」や「独禁法」といった代替可能な別表現（同義語）で呼んでいるわけです。同法律には法令用語で言うところの「題名」は付されておらず、頭書の名称は制定時の公布文から引用したいわゆる「件名」である。独占禁止法ないし独禁法と略称されることも多い。もし「独禁法」で検索して当該法律がヒットしなければ、ユーザーとしては不満足でしょう。検索システムのクオリティを向

akatakun 2025/05/16

リンク

【Elasticsearch】kuromoji analyzerで出来ることと設定の解説 - Qiita

kuromoji analyzerを使ってどんなことができるのかを把握していなかったので、ドキュメント見ながら「どんなことができるのか」を理解したことを書いていきます。参考にしているのは、こちらのドキュメントです。 https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-kuromoji.html kuromoji analyzer とは日本語の形態素解析機(分かち書きする機能)です漢字とかひらながとかを品詞ごとにわかち書きしてくれます。たとえば「東京都の目黒区に行く」を、kuromoji analyzerを使って分かち書きした場合とkuromoji analyzerを使わないで分かち書きした場合について見てみます。以下使い方と出力はKibanaのConsoleで行った表示です。使い方 { "

akatakun 2025/05/16

分割単位はmodeでコントロールできる。デフォルトでは複合語は分割されない

リンク

Elasticsearchのための新しい形態素解析器「Sudachi」 - Qiita

tl;dr （要約） Kuromojiに代わる新しい形態素解析器「Sudachi」なにが良いの？最新の辞書企業（ワークスアプリケーションズ）による継続的な更新複数の分割単位 → 検索用途での再現率と適合率の向上プラグインによる拡張省メモリ Elasticsearchで使いたいプラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください注: この記事の執筆者はSudachiの開発に関わっていますさまざまな形態素解析器形態素解析は、伝統的な自然言語処理（Natural Language Processing, NLP）において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利

akatakun 2025/05/16

複数の分割単位での出力が可能。これにより例えば検索用途においては、短単位と長単位を併用することで、再現率と適合率を向上することができます

リンク

形態素解析で使用する辞書の使い分けについて

MeCabのインストールについては前回の記事参照 MeCab用の辞書について MeCabは形態素解析エンジンですが、形態素解析エンジンは辞書を利用して日本語を解析します。そのため形態素解析の精度は形態素解析エンジンのアルゴリズムの精度と形態素解析辞書の精度の2つに左右されます。仮に形態素解析エンジンにMeCabを使用する場合、形態素解析の目的にあった辞書を指定する必要があります。 MeCabのドキュメントに記載されている辞書は以下の3つです。 IPA辞書(推奨) Juman辞書 Unidic辞書 MeCabのドキュメントが古くリンク切れなどがあるので1つずつ調べてみます。 ※ドキュメントには記載されていませんが、mecab-ipadic-NEologd についても記述。 ※CRFについては省略 IPA辞書 IPA 辞書, IPAコーパスに基づき CRF でパラメータ推定した辞

akatakun 2025/05/16

リンク

形態素解析で使用する辞書の使い分けについて

MeCabのインストールについては前回の記事参照 MeCab用の辞書について MeCabは形態素解析エンジンですが、形態素解析エンジンは辞書を利用して日本語を解析します。そのため形態素解析の精度は形態素解析エンジンのアルゴリズムの精度と形態素解析辞書の精度の2つに左右されます。仮に形態素解析エンジンにMeCabを使用する場合、形態素解析の目的にあった辞書を指定する必要があります。 MeCabのドキュメントに記載されている辞書は以下の3つです。 IPA辞書(推奨) Juman辞書 Unidic辞書 MeCabのドキュメントが古くリンク切れなどがあるので1つずつ調べてみます。 ※ドキュメントには記載されていませんが、mecab-ipadic-NEologd についても記述。 ※CRFについては省略 IPA辞書 IPA 辞書, IPAコーパスに基づき CRF でパラメータ推定した辞

akatakun 2025/05/16

リンク

gemfile・bundler関連の仕様について調査

Gemfile.lockのPLATFORMS表記について bundler2.2以降だと、mac以外のプラットフォームで実行するには実行元のプラットフォームを指定する必要がある下記のようにbundle lock --add-platform コマンドで追加し、Gemfile.lockに追記されていればOK

akatakun 2025/05/15

Bundler

リンク

ゼロから検索エンジニアになるまで

はじめにこんにちは @togatogaです。検索とRustが好きです。仕事として検索を始めて約1年半が経ちました。僕が情報検索を学び始めた当初は、どのように勉強すればいいのか分からず、手探りでさまざまな本や記事を読み漁りました。最近は周りから「どうやって検索を学んできたのか？」と聞かれることが増えたので、僕が特に役立った本や記事を紹介します。本記事はただのソフトウェアエンジニアが検索エンジニアになるまでのリスペクト記事です。事前準備 ChatGPTやPerplexityを活用して質問・要約・翻訳を行いましょう。安くはありませんが、24時間いつでも相談でき、英語の記事を日本語に翻訳・要約できるので非常に助かっています。本はPDF形式で購入し、ChatGPT/Perplexityに取り込んで質問や解説をさせていました。基礎検索技術を学びたいものの、どこから始めればいいか分からない方

akatakun 2025/05/14

Elasticsearch

リンク

一歩踏み込む Redash

Redash Meetup #2 の発表資料です #redashmeetup

akatakun 2025/05/13

リンク

「Redash遅くね？」と言われた時に確認すること - Qiita

本記事は、 Redash Advent Calendar 2018 の22日目の記事です！去年も書いたので、今年も書けて嬉しいです。はじめに本記事では、Redash遅くね？と言われた時に確認することをまとめます。後述しますが、小規模チームでの運用を想定して書いています。不足点や、こうすると良いよ、というご提案あれば、@katsuhisa__ まで教えていただけると嬉しいです。追記します。環境 AWS AMI 版のRedash Redash バージョン 5.0.2 Ubuntu 16.04 状況的な意味での環境小規模チームでの運用（queries <100, users <20）最大同時利用者数 <5 大規模チームで運用していると、本記事で扱う内容と別問題が起こるかと思いますので、あまり参考にならないかもしれません。確認する流れ前提として意識しておくこと Redash We

akatakun 2025/05/13

リンク

Elasticsearchの言語特定機能を多言語検索に活用する

Elasticsearch 7.6のリリースで新たに、機械学習推論インジェストプロセッサーと、言語特定機能が加わりました。この機会に、多言語コーパスを検索するいくつかのユースケースや戦略について、またそこで言語特定の機能が果たす役割について、ご紹介したいと思います。以前にもこの領域のトピックについて、いくつかのブログ記事を投稿しました。今回取り上げる事例には、その内容を発展させているものもあります。背景グローバルな交流が活発になった現在、私たちが扱うドキュメントやその他の情報ソースもさまざまな種類の言語で書かれています。多くの検索アプリにとってこの現象は、問題を提起するものです。適切な分析を行って可能な限り最高の検索エクスペリエンスを提供するには、ドキュメントがどの言語で書かれているか、極力把握しなくてはなりません。そこで“言語特定”の出番です。言語特定は、そのような多言語コーパスの全

akatakun 2025/05/02

フィールド別言語戦略(フィールドレベルで分ける)か、インデックス別言語戦略(インデックスレベルで分ける)か、2つの戦略が考えられる

リンク

はてなブックマーク

タグ

akatakunのブックマーク (4,731)

お知らせ

今週のはてなブックマーク数ランキング（2025年5月第4週）

今週のはてなブックマーク数ランキング（2025年5月第3週）

今週のはてなブックマーク数ランキング（2025年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス