日本語医療特化のLLMを開発、専門医試験で正答率90％超

モデル別の攻撃耐性（抜粋）。下線ありが同事業の成果。判定基準は攻撃成功率0％＝合格、0％超～20％未満＝要改善、20％以上＝不合格。（think）はreasoningを有効化していることを示す［クリックで拡大］出所：新エネルギー・産業技術総合開発機構

記事に戻る