lynx   »   [go: up one dir, main page]

タグ

LLMに関するgungleのブックマーク (14)

  • ローカルで Ollama 動かして VS Code の GitHub Copilot でつかう

    タイトルを読んで字の如し、Ollama というLLMを動かせるツールをつかってローカルでLLMを動かして、VS Code の GitHub Copilot 拡張機能のチャットやコード補完をやってもらおうというハナシ。 2025年5月から GitHub Copilot が有料版でもある程度の上限が設けられるみたいなので、いざというときの逃げ道のため (という口実で技術的興味を満たすため) にやってみる。 参考: Premium リクエストについて LLMのこととか全然詳しくないので素人のお遊び程度にどうぞ。 環境OS: Windows 11 HomeCPU: Ryzen 7 3800XRAM: 56GBGPU: RTX 3060 12GBOllama のインストールOllama公式サイトからインストーラーを落としてインストールするだけ。 Ollama はGUIソフトではない (たぶん) なの

  • LLMガードレールの活用法と役割を正しく理解する - GMO Flatt Security Blog

    TL;DR LLMガードレールはLLMの入出力を監視・制御する技術であり、LLMアプリケーションにおける様々な脅威への対抗策になります。しかし、あくまで役割は脅威の緩和・低減であるため、それぞれの脅威に対する根的な対策をした上で、万が一の事故に備え文字通りガードレールとして導入する必要があります。 文中では、RAGアプリケーションの利用する外部データベースにプロンプトインジェクションを引き起こすデータが存在し、LLMに対する入力として利用された場合、LLMガードレールで検知する例を紹介しています。しかし、根的には外部データベースに悪意あるデータが登録されないよう対策すべきです。 このブログではLLMガードレールで対応できる脅威を実際に検証しながら整理し、適切なユースケースを議論します。 はじめに こんにちは、GMO Flatt Security株式会社所属のセキュリティエンジニア滝上

    LLMガードレールの活用法と役割を正しく理解する - GMO Flatt Security Blog
  • TS特化Clineプログラミング

    Previous slideNext slideToggle fullscreenOpen presenter view TS特化Clineプログラミング mizchi / tskaigi 2025 mizchi: パフォーマンスチューニングの傭兵 一ヶ月で御社のプロダクトをコスパよく高速化します フロントエンド視点のE2Eチューニング(Lighthouse) CI/CD 高速化 (Linux, GitHub Actions) New プロンプトエンジニアリングでワークフロー自動化 主な環境 VSCode + RooCode (ほぼ常に Orchestrator モード) Claude 3.7 + Gemini 2.5 (約2~3万円/月) TypeScript / Node / Deno / Cloudflare あらすじ 2014: なぜ仮想DOMという概念が俺達の魂を震えさせるのか

  • Qwen3はローカルLLMの世界を変えたかも - きしだのHatena

    Qwen3が出ていて、14Bを中心にいろいろ試したのだけど、かなり使い物になって、日常的な用途ではこれでいいのでは、という感じもします。 4BでもGPT-4oを越えているという話もありますが、確かに単純な用途ではGPT-4oの代わりにしてもいいなと場面も割とありそうな出力です。さすがにちょっと込み入ったものだと4oだけど。 1.7Bなど小さいモデルも既存のモデルより使えるものになっていて、ローカルLLMの世界を変えそう。 解説動画も撮りました。 週間ニュースのまとめはじめました。 サイズとしては0.6B, 1.7B, 4B, 8B, 14B, 32Bと、MoEモデルの30B-A3B, 235B-A22Bです。 30B-A3Bが賢いというベンチマークだけど、コーディング用途だと14Bや32Bのほうがいいかも。MacならMLXで30B-A3Bは めちゃ速くていいけど。という感じでどのサイズにも

    Qwen3はローカルLLMの世界を変えたかも - きしだのHatena
    gungle
    gungle 2025/04/30
  • 第2のDeepSeekショック? オープンな中国LLM「Qwen3」シリーズが破格の性能で話題 最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに

    第2のDeepSeekショック? オープンな中国LLM「Qwen3」シリーズが破格の性能で話題 最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに 中国Alibabaが4月29日(現地時間)に発表した、大規模言語モデル「Qwen」の最新版となる「Qwen3」シリーズが話題だ。フラッグシップモデルの「Qwen3-235B-A22B」は「DeepSeek-R1」の半分未満のパラメータ数ながら、OpenAIのo1やo3-mini、GoogleのGemini 2.5 Proなど他のトップモデルと並ぶ性能を達成したという。「Qwen3-4B」は小さなモデルでありながらも「GPT-4o」を多くの項目で上回るとしている。 公開した全てのモデルがオープンウェイトであるため、フラグシップの235B-A22B以外はデスクトップ向けハイエンドGPUなどで動作さ

    第2のDeepSeekショック? オープンな中国LLM「Qwen3」シリーズが破格の性能で話題 最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに
    gungle
    gungle 2025/04/30
  • MCP入門

    記事は、最近話題のMCPの入門記事です。 MCP(Model Context Protocol)について、以下の4ステップで紹介します。 ざっくり理解する 使ってみる 深く理解する 作ってみる 初心者でも順番に読み進めれば、MCPについてざっと理解、かんたんな実装ができるようになることを目指します💪 ざっくり理解する MCPとは、ざっくり言うと、LLMアプリと外部サービスを連携するための統一されたインターフェース(プロトコル)です。 LLMアプリとは、ChatGPTやClaude、Cursorなど、LLMを使用するためアプリケーションを指します。(⚠️ GPT-4oやclaude-3-5-sonnetなどのLLM自体とは区別してください。) 初期のLLMアプリは、どこまでいってもすごく賢いチャットツールでしかなく、結局はテキストを返答することしかできませんでした。 そのため、LLMアプ

    MCP入門
    gungle
    gungle 2025/04/16
  • プログラミング用途の生成AI関連ツールの評価 2025/04/14

    現時点で個人の感想です。流動的なので、明日にでも意見は変わってると思います。 モデル Claude-3.7-sonnet コーディング性能が圧倒的に良い。迷ったらとりあえずこれを使っておけばよい だいたい1ファイル1000行ぐらいが管理できる限界 Gemini 2.5 今なら無料で使える。今のうちに使い込んでクセを把握するといい。 巨大コンテキスト理解ができるので、「大量にコードを読んでちょっとだけコードを書く」つまり一般的な業務プログラミングに向いてる。 リリースから一週間は負荷が高くて不安定だったが、最近安定してきた さすがに単純なコーディング性能は Claude-3.7-sonnet に劣る deepseek-chat Cline で使うには遅すぎて役に立たない AIツール作るときの壁打ちに使っている。雑に巨大データ送りつけても安くて安心 コーディングエージェント/拡張 Cline

    プログラミング用途の生成AI関連ツールの評価 2025/04/14
  • LLMの使い分けは大体Geminiでいい(2025年4月時点)|erukiti

    3ヶ月経って、いくつか新しいモデルが登場したことでごっそり事情が変わりました。 ChatGPT Pro使ってましたが解約しました。o3が登場したらまた考えます。一時期解約していたGemini Advanced(Google AI Oneプレミアム?)を契約しなおしました。Claudeの年契約をしたんですがすこーし後悔しています。 追記: Gemini 2.5 Pro は今までのGemini シリーズとは明確に違うコメントとかでGeminiアレルギーの人が多そうなので追記します。実際のところ僕もそうでしたよ。過去のGeminiは、特に1.5 Proが論外なくらいハルシネーションも多く馬鹿で、使い物にならないおもちゃでした。それは事実です。2.0 Proで状況が変わり始めたものの実験モデルが続いてて、結局コイツの真価がよくわからんってなってました。 Gemini 2.5 Proを触ったことがな

    LLMの使い分けは大体Geminiでいい(2025年4月時点)|erukiti
  • 【RAG】文書をパラメータ化してLLMに直接注入する手法

    記事では、RAGの性能を高めるための「DyPRAG」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。 この記事は何 この記事は、RAGの新手法である「DyPRAG」の論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 (すみません、ちょっと今回、玄人向けの記事です...🙏) 題 ざっくりサマリー DyPRAGは、中国科学院自動化研究所の研究者らによって2025年3月に提案されました。 通常のRAGでは、ユーザーの質問に関連する文書を「会話のコンテキスト」としてLLMに渡します(=「In-context learning」)。ただ、このとき文字数が多すぎると、LLMがハルシネーションを起こした

    【RAG】文書をパラメータ化してLLMに直接注入する手法
    gungle
    gungle 2025/04/09
  • AI Coding Agent Enablement - エージェントを自走させよう

    AI Coding Meetup #1 https://layerx.connpass.com/event/347094/ https://youtu.be/Q783txBWcOM?t=1339

    AI Coding Agent Enablement - エージェントを自走させよう
  • 【Gemini】GPU不要!超軽量TTSとLLMを使ったチャットWebサービスの構築 ~ UTAU収録音声を用いたTTS ~

    はじめに エイプリルフールネタとして、「蒼月ハヤテ」という歌声合成音声ツール用の素材キャラクターを作りました。 その際に配布サイトも自作したのですが、折角キャラクターと歌声生成用の自分の声データがあったので、それらを組み合わせてLLM=>TTS(text-to-speech)を繋げたら、まるで自分のクローンが喋っているようになると思ったので、隠し機能としてTTSでのお試しと会話機能をWebに展開しました。 今回は備忘も込めて、各種技術の紹介をしようと思います。 できあがりイメージ ざっくり使用技術 Typescript arwes (frontend design) Next.js Gemini API (LLM) tone.js (sound) render.com (deploy) upstash (security) 要件の整理と技術選定 元々は「UTAU」という合成音声用の素材配布

    【Gemini】GPU不要!超軽量TTSとLLMを使ったチャットWebサービスの構築 ~ UTAU収録音声を用いたTTS ~
  • みんなのためのLLMアプリケーション開発環境の構築事例

    はじめに こんにちは。Game Platform DevのDong Hun Ryoo、Takenaka、Zhang Youlu(Michael)、Hyungjung Leeです。私たちの組織は、ゲームパブリッシングに必要なさまざまな機能を開発・運用する役割を担っています。 私たちは最近、組織内の業務効率を高めるためにさまざまなLLM(large language model)アプリケーションを開発し、それと連携してLLMOpsシステムの構築プロジェクトを行いました。プロジェクトの主な目標の一つは、参入障壁が高いLLMアプリケーション開発を、職種に関係なく誰でも簡単に作成できる環境を構築することでした。そのため、さまざまなことを考えながら試行錯誤を経た結果、誰でも簡単にアクセスできる開発・デプロイ環境を整えました。 今回の記事では、LLMアプリケーションの一般的な開発方法と開発プロセスで直面

    みんなのためのLLMアプリケーション開発環境の構築事例
  • Cursor / Clineを使う上でもっとも重要なことの一つ: コンテキストウインドウについて

    Cursor/Clineを使う上で重要なこととして、LLMのコンテキストウインドウを意識しないと 1. 逐一指示をして対応するものの「Lost in Middle」現象でうまく指示が通らなくなる 2. 良いパフォーマンスが出せていないのでルールを無秩序に追加する 3. 「Lost in Middle」は解消されるがその結果早い段階でタスクのコンテキストウィンドウをはみ出す 4. Cursor/Clineがループしたり性能が落ちるのを確認する 6. 結果現状のAIの性能、判断に対して幻滅しAIを使うのをやめてしまう というようなことが起こります。 そのためにもコンテキストウィンドウを意識することは非常に大事です。 以前のバイアスに関する記事を読んでいただいた人向け 前回は人間側の問題を提示しました 今回は人間側の問題ではなく、LLM側の問題になるのと ある程度実際に出ている結果からの判断にな

    Cursor / Clineを使う上でもっとも重要なことの一つ: コンテキストウインドウについて
  • RAGのウソを検知する新手法(LLM-as-a-Judgeを超えて)

    記事では、RAGの幻覚(ハルシネーション)を検出するための「LettuceDetect」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。 この記事は何 この記事は、RAGのハルシネーションを高速に検出するための「LettuceDetect」の論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合はこちらの記事もご参考下さい。 題 ざっくりサマリー LettuceDetectは、RAGの幻覚を検知するための新しい手法です。LettuceDetect を使うことで、最近流行している「LLM-as-a-Judge」より圧倒的に速く、でも、ほぼ同じ性能で、幻覚を検知できます。KR Labsとウィーン工科大学の研究者らによって2025

    RAGのウソを検知する新手法(LLM-as-a-Judgeを超えて)
    gungle
    gungle 2025/03/12
  • 1
Лучший частный хостинг