lynx   »   [go: up one dir, main page]

『DeepSeekがR1モデルを構築する際に行なった大きな革新は、人間のフィードバックを排除し、自身の間違いを認識して修正するアルゴリズムを設計したことです。 この手法を「純粋な強化学習」とします。』

TanpoTPTanpoTP のブックマーク 2025/01/31 00:38

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

DeepSeekの成功は必然。ビッグテックがやりたくないことをやった

    DeepSeekの成功は必然。ビッグテックがやりたくないことをやった2025.01.29 22:0064,607 Todd Feathers - Gizmodo US [原文] ( Kenji P. Miyajima ) 驕る平家は久しからず。DeepSeekショックでウォール街は大...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう
    Лучший частный хостинг