lynx   »   [go: up one dir, main page]

タグ

GPUとLLMに関するigrepのブックマーク (4)

  • Qwen3はローカルLLMの世界を変えたかも - きしだのHatena

    Qwen3が出ていて、14Bを中心にいろいろ試したのだけど、かなり使い物になって、日常的な用途ではこれでいいのでは、という感じもします。 4BでもGPT-4oを越えているという話もありますが、確かに単純な用途ではGPT-4oの代わりにしてもいいなと場面も割とありそうな出力です。さすがにちょっと込み入ったものだと4oだけど。 1.7Bなど小さいモデルも既存のモデルより使えるものになっていて、ローカルLLMの世界を変えそう。 解説動画も撮りました。 週間ニュースのまとめはじめました。 サイズとしては0.6B, 1.7B, 4B, 8B, 14B, 32Bと、MoEモデルの30B-A3B, 235B-A22Bです。 30B-A3Bが賢いというベンチマークだけど、コーディング用途だと14Bや32Bのほうがいいかも。MacならMLXで30B-A3Bは めちゃ速くていいけど。という感じでどのサイズにも

    Qwen3はローカルLLMの世界を変えたかも - きしだのHatena
    igrep
    igrep 2025/04/30
  • LLMの重みの量子化でパフォーマンスが改善する仕組みについて

    Abstract 記事では、重みの量子化でパフォーマンスが改善する仕組みについて、Rooflineという図を使って視覚的に説明する。前半ではパフォーマンスのボトルネックを可視化するRooflineという図の作図法と各領域の意味について説明する。後半ではRooflineを使ってなぜ重みの量子化がシステムのパフォーマンスを改善するのかについて、AWQの論文を例にして説明する。 なお、この記事でいうパフォーマンスとはシステムリソースの利用効率のことをさし、精度などのベンチマーク性能ではないことに注意。 Rooflineとは? Rooflineとは、計算機システムのボトルネックを視覚的に判断するための図であり、ボトルネックが以下のどちらにあるのかを判断することができる。 memory-bound / bandwidth-bound: データの転送で詰まってて、GPUは暇を持て余している状態。 c

    LLMの重みの量子化でパフォーマンスが改善する仕組みについて
  • LLMプロダクト開発者がMac Studioを買ってローカルLLMを触るべき理由|erukiti

    もしあなたがLLMを使ったプロダクトを何かしら開発している、もしくは興味があるのなら、メモリを大量に積んだMac Studioの購入を検討すべきです。 対象読者NVIDIAが絶対にいいという人はこの記事の対象読者ではありません。また、用途によって、ローカルマシンによるローカルLLMが向いてる・向いてないは明確にあるので、向いてない用途にしか使わない人も対象読者ではありません。あしからず。 また、この記事は別にNVIDIAをdisる意図はありません。みんな違っていい。NVIDIAもいい選択肢ですが、Mac Studioも悪くないですよ、と言いたい。 結論LLMプロダクト開発において、今年はもはやローカルLLMを無視できない、してはいけない状況です。 LLMプロダクト開発をする会社の視点でいえば、是非とも80GB以上の十分なGPUメモリを積んだマシンを用意できるようなアジリティを持つのが望まし

    LLMプロダクト開発者がMac Studioを買ってローカルLLMを触るべき理由|erukiti
    igrep
    igrep 2024/04/24
  • blueqatでは、量子技術をGPUに応用した独自生成AIのLLM(大規模言語モデル)の開発を行います。 | blueqat

    blueqatでは、量子技術GPUに応用した独自生成AIのLLM(大規模言語モデル)の開発を行います。

    blueqatでは、量子技術をGPUに応用した独自生成AIのLLM(大規模言語モデル)の開発を行います。 | blueqat
  • 1
Лучший частный хостинг