新AIモデル「DeepSeek-V3.1」登場　8400億トークンで強化、思考と即答を両搭載、より長い文章に対応

検索＆QA関連のベンチマーク結果（公式発表資料より引用）Browsecomp（英語）やBrowsecomp_zh（中国語）はブラウザでの検索能力、HLEは長文読解と高度な推論力、xbench-DeepSearchは複雑な検索クエリへの対応力、Framesは文脈理解と会話能力、SimpleQAは基礎的な質問応答、Seal0は知識とセキュリティ分野を評価するベンチマークである。いずれも数値は高いほど良く、V3.1がR1-0528を大きく上回った。

記事に戻る