[B! LLM] gungleのブックマーク

ローカルで Ollama 動かして VS Code の GitHub Copilot でつかう

タイトルを読んで字の如し、Ollama というLLMを動かせるツールをつかってローカルでLLMを動かして、VS Code の GitHub Copilot 拡張機能のチャットやコード補完をやってもらおうというハナシ。 2025年5月から GitHub Copilot が有料版でもある程度の上限が設けられるみたいなので、いざというときの逃げ道のため (という口実で技術的興味を満たすため) にやってみる。参考: Premium リクエストについて LLMのこととか全然詳しくないので素人のお遊び程度にどうぞ。環境OS: Windows 11 HomeCPU: Ryzen 7 3800XRAM: 56GBGPU: RTX 3060 12GBOllama のインストールOllama公式サイトからインストーラーを落としてインストールするだけ。 Ollama はGUIソフトではない (たぶん) なの

gungle 2025/05/28

リンク

LLMガードレールの活用法と役割を正しく理解する - GMO Flatt Security Blog

TL;DR LLMガードレールはLLMの入出力を監視・制御する技術であり、LLMアプリケーションにおける様々な脅威への対抗策になります。しかし、あくまで役割は脅威の緩和・低減であるため、それぞれの脅威に対する根本的な対策をした上で、万が一の事故に備え文字通りガードレールとして導入する必要があります。本文中では、RAGアプリケーションの利用する外部データベースにプロンプトインジェクションを引き起こすデータが存在し、LLMに対する入力として利用された場合、LLMガードレールで検知する例を紹介しています。しかし、根本的には外部データベースに悪意あるデータが登録されないよう対策すべきです。このブログではLLMガードレールで対応できる脅威を実際に検証しながら整理し、適切なユースケースを議論します。はじめにこんにちは、GMO Flatt Security株式会社所属のセキュリティエンジニア滝上

gungle 2025/05/27

リンク

TS特化Clineプログラミング

Previous slideNext slideToggle fullscreenOpen presenter view TS特化Clineプログラミング mizchi / tskaigi 2025 mizchi: パフォーマンスチューニングの傭兵一ヶ月で御社のプロダクトをコスパよく高速化しますフロントエンド視点のE2Eチューニング(Lighthouse) CI/CD 高速化 (Linux, GitHub Actions) New プロンプトエンジニアリングでワークフロー自動化主な環境 VSCode + RooCode (ほぼ常に Orchestrator モード) Claude 3.7 + Gemini 2.5 (約2~3万円/月) TypeScript / Node / Deno / Cloudflare あらすじ 2014: なぜ仮想DOMという概念が俺達の魂を震えさせるのか

gungle 2025/05/24

リンク

Qwen3はローカルLLMの世界を変えたかも - きしだのHatena

Qwen3が出ていて、14Bを中心にいろいろ試したのだけど、かなり使い物になって、日常的な用途ではこれでいいのでは、という感じもします。 4BでもGPT-4oを越えているという話もありますが、確かに単純な用途ではGPT-4oの代わりにしてもいいなと場面も割とありそうな出力です。さすがにちょっと込み入ったものだと4oだけど。 1.7Bなど小さいモデルも既存のモデルより使えるものになっていて、ローカルLLMの世界を変えそう。解説動画も撮りました。週間ニュースのまとめはじめました。サイズとしては0.6B, 1.7B, 4B, 8B, 14B, 32Bと、MoEモデルの30B-A3B, 235B-A22Bです。 30B-A3Bが賢いというベンチマークだけど、コーディング用途だと14Bや32Bのほうがいいかも。MacならMLXで30B-A3Bはめちゃ速くていいけど。という感じでどのサイズにも

gungle 2025/04/30

LLM

リンク

第2のDeepSeekショック？　オープンな中国LLM「Qwen3」シリーズが破格の性能で話題　最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに

第2のDeepSeekショック？　オープンな中国LLM「Qwen3」シリーズが破格の性能で話題　最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに中国Alibabaが4月29日（現地時間）に発表した、大規模言語モデル「Qwen」の最新版となる「Qwen3」シリーズが話題だ。フラッグシップモデルの「Qwen3-235B-A22B」は「DeepSeek-R1」の半分未満のパラメータ数ながら、OpenAIのo1やo3-mini、GoogleのGemini 2.5 Proなど他のトップモデルと並ぶ性能を達成したという。「Qwen3-4B」は小さなモデルでありながらも「GPT-4o」を多くの項目で上回るとしている。公開した全てのモデルがオープンウェイトであるため、フラグシップの235B-A22B以外はデスクトップ向けハイエンドGPUなどで動作さ

gungle 2025/04/30

LLM

リンク

MCP入門

本記事は、最近話題のMCPの入門記事です。 MCP（Model Context Protocol）について、以下の4ステップで紹介します。ざっくり理解する使ってみる深く理解する作ってみる初心者でも順番に読み進めれば、MCPについてざっと理解、かんたんな実装ができるようになることを目指します💪 ざっくり理解する MCPとは、ざっくり言うと、LLMアプリと外部サービスを連携するための統一されたインターフェース(プロトコル)です。 LLMアプリとは、ChatGPTやClaude、Cursorなど、LLMを使用するためアプリケーションを指します。(⚠️ GPT-4oやclaude-3-5-sonnetなどのLLM自体とは区別してください。) 初期のLLMアプリは、どこまでいってもすごく賢いチャットツールでしかなく、結局はテキストを返答することしかできませんでした。そのため、LLMアプ

gungle 2025/04/16

リンク

プログラミング用途の生成AI関連ツールの評価 2025/04/14

現時点で個人の感想です。流動的なので、明日にでも意見は変わってると思います。モデル Claude-3.7-sonnet コーディング性能が圧倒的に良い。迷ったらとりあえずこれを使っておけばよいだいたい1ファイル1000行ぐらいが管理できる限界 Gemini 2.5 今なら無料で使える。今のうちに使い込んでクセを把握するといい。巨大コンテキスト理解ができるので、「大量にコードを読んでちょっとだけコードを書く」つまり一般的な業務プログラミングに向いてる。リリースから一週間は負荷が高くて不安定だったが、最近安定してきたさすがに単純なコーディング性能は Claude-3.7-sonnet に劣る deepseek-chat Cline で使うには遅すぎて役に立たない AIツール作るときの壁打ちに使っている。雑に巨大データ送りつけても安くて安心コーディングエージェント/拡張 Cline

gungle 2025/04/15

リンク

LLMの使い分けは大体Geminiでいい（2025年4月時点）｜erukiti

3ヶ月経って、いくつか新しいモデルが登場したことでごっそり事情が変わりました。 ChatGPT Pro使ってましたが解約しました。o3が登場したらまた考えます。一時期解約していたGemini Advanced（Google AI Oneプレミアム？）を契約しなおしました。Claudeの年契約をしたんですがすこーし後悔しています。追記: Gemini 2.5 Pro は今までのGemini シリーズとは明確に違うコメントとかでGeminiアレルギーの人が多そうなので追記します。実際のところ僕もそうでしたよ。過去のGeminiは、特に1.5 Proが論外なくらいハルシネーションも多く馬鹿で、使い物にならないおもちゃでした。それは事実です。2.0 Proで状況が変わり始めたものの実験モデルが続いてて、結局コイツの真価がよくわからんってなってました。 Gemini 2.5 Proを触ったことがな

gungle 2025/04/15

LLM
Gemini

リンク

【RAG】文書をパラメータ化してLLMに直接注入する手法

本記事では、RAGの性能を高めるための「DyPRAG」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。この記事は何この記事は、RAGの新手法である「DyPRAG」の論文[1]について、日本語で簡単にまとめたものです。今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。（すみません、ちょっと今回、玄人向けの記事です...🙏）本題ざっくりサマリー DyPRAGは、中国科学院自動化研究所の研究者らによって2025年3月に提案されました。通常のRAGでは、ユーザーの質問に関連する文書を「会話のコンテキスト」としてLLMに渡します（=「In-context learning」）。ただ、このとき文字数が多すぎると、LLMがハルシネーションを起こした

gungle 2025/04/09

リンク

AI Coding Agent Enablement - エージェントを自走させよう

AI Coding Meetup #1 https://layerx.connpass.com/event/347094/ https://youtu.be/Q783txBWcOM?t=1339

gungle 2025/04/09

リンク

【Gemini】GPU不要！超軽量TTSとLLMを使ったチャットWebサービスの構築～ UTAU収録音声を用いたTTS ～

はじめにエイプリルフールネタとして、「蒼月ハヤテ」という歌声合成音声ツール用の素材キャラクターを作りました。その際に配布サイトも自作したのですが、折角キャラクターと歌声生成用の自分の声データがあったので、それらを組み合わせてLLM=>TTS(text-to-speech)を繋げたら、まるで自分のクローンが喋っているようになると思ったので、隠し機能としてTTSでのお試しと会話機能をWebに展開しました。今回は備忘も込めて、各種技術の紹介をしようと思います。できあがりイメージざっくり使用技術 Typescript arwes (frontend design) Next.js Gemini API (LLM) tone.js (sound) render.com (deploy) upstash (security) 要件の整理と技術選定元々は「UTAU」という合成音声用の素材配布

gungle 2025/04/03

リンク

みんなのためのLLMアプリケーション開発環境の構築事例

はじめにこんにちは。Game Platform DevのDong Hun Ryoo、Takenaka、Zhang Youlu（Michael）、Hyungjung Leeです。私たちの組織は、ゲームパブリッシングに必要なさまざまな機能を開発・運用する役割を担っています。私たちは最近、組織内の業務効率を高めるためにさまざまなLLM（large language model）アプリケーションを開発し、それと連携してLLMOpsシステムの構築プロジェクトを行いました。プロジェクトの主な目標の一つは、参入障壁が高いLLMアプリケーション開発を、職種に関係なく誰でも簡単に作成できる環境を構築することでした。そのため、さまざまなことを考えながら試行錯誤を経た結果、誰でも簡単にアクセスできる開発・デプロイ環境を整えました。今回の記事では、LLMアプリケーションの一般的な開発方法と開発プロセスで直面

gungle 2025/03/28

リンク

Cursor / Clineを使う上でもっとも重要なことの一つ: コンテキストウインドウについて

Cursor/Clineを使う上で重要なこととして、LLMのコンテキストウインドウを意識しないと 1. 逐一指示をして対応するものの「Lost in Middle」現象でうまく指示が通らなくなる 2. 良いパフォーマンスが出せていないのでルールを無秩序に追加する 3. 「Lost in Middle」は解消されるがその結果早い段階でタスクのコンテキストウィンドウをはみ出す 4. Cursor/Clineがループしたり性能が落ちるのを確認する 6. 結果現状のAIの性能、判断に対して幻滅しAIを使うのをやめてしまうというようなことが起こります。そのためにもコンテキストウィンドウを意識することは非常に大事です。以前のバイアスに関する記事を読んでいただいた人向け前回は人間側の問題を提示しました今回は人間側の問題ではなく、LLM側の問題になるのとある程度実際に出ている結果からの判断にな

gungle 2025/03/25

リンク

RAGのウソを検知する新手法（LLM-as-a-Judgeを超えて）

本記事では、RAGの幻覚（ハルシネーション）を検出するための「LettuceDetect」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。この記事は何この記事は、RAGのハルシネーションを高速に検出するための「LettuceDetect」の論文[1]について、日本語で簡単にまとめたものです。今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合はこちらの記事もご参考下さい。本題ざっくりサマリー LettuceDetectは、RAGの幻覚を検知するための新しい手法です。LettuceDetect を使うことで、最近流行している「LLM-as-a-Judge」より圧倒的に速く、でも、ほぼ同じ性能で、幻覚を検知できます。KR Labsとウィーン工科大学の研究者らによって2025

gungle 2025/03/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (20)

LLMに関するgungleのブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2025年5月第4週）

今週のはてなブックマーク数ランキング（2025年5月第3週）

今週のはてなブックマーク数ランキング（2025年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス