from AINEWS
研究者らは、複雑な状況を扱うLLMエージェントの不安定性に対処するために設計されたAIフレームワーク「RAGEN」を発表した。このようなAIエージェントのトレーニングは、特に意思決定が複数のステップにまたがり、環境からの予測不可能なフィードバックを伴う場合、大きなハードルとなる。
強化学習(RL)は、数学の問題を解いたり、コードを生成したりするような静的なタスクでは有望視されているが、動的な複数ターンのエージェント訓練への応用はあまり検討されていない。ノースウェスタン大学、スタンフォード大学、マイクロソフト、ニューヨーク大学などの共同研究チームは、このギャップを解決するためにStarPO(State-Thinking-Actions-Reward Policy Optimisation)を提案した。
StarPOは、軌跡レベルでエージェントを訓練するための一般化されたアプローチを提供し、個々の行動だけでなく、相互作用のシーケンス全体を最適化する。これに付随するRAGENは、StarPOを実装するために構築されたモジュールシステムであり、LLMエージェントの訓練と評価、特にRL下での推論能力に重点を置いている。
RAGENは、マルチターン、確率的環境におけるロールアウト、報酬割り当て、最適化に必要なインフラを提供する。本研究では、マルチターンRLがもたらす特有の安定性の課題を浮き彫りにし、それを軽減するための具体的な戦略を提示し、ロールアウト生成戦略の重要な役割と、AIエージェントの真の推論を育成するためのより洗練された報酬メカニズムの必要性を強調した。
*Disclamer:本キュレーションはAINEWSからピックおよび自動生成されました。正確な内容や詳細を知りたい方はリンク先の元コンテンツをご覧ください。