from AINEWS
アリババのQwenチームは、より大規模なDeepSeek-R1の性能に匹敵する320億パラメータのAIモデル、QwQ-32Bを発表した。このブレークスルーは、堅牢な基盤モデル上で強化学習(RL)をスケーリングする可能性を示している。
推論モデルにエージェント機能を統合することで、QwQ-32Bは批判的に考え、ツールを利用し、フィードバックに基づいて推論を適応させることができます。このモデルは様々なベンチマークで評価され、数学的推論、コーディング能力、問題解決能力を示しています。
QwQ-32BがDeepSeek-R1に匹敵する性能を達成したことから、研究チームは、RLのスケーリングによってモデルの性能を向上させ、モデルのサイズと性能のギャップを埋めることができると考えています。
*Disclamer:本キュレーションはAINEWSからピックおよび自動生成されました。正確な内容や詳細を知りたい方はリンク先の元コンテンツをご覧ください。
Curated. ニュースレター