from NatureAsia
AIが生成したデータセットを使用して機械学習モデルを学習すると、その出力が汚染される可能性があるという論文が、Natureに掲載されました。この研究は、オリジナルのコンテンツがナンセンスなものに置き換えられる可能性を示し、信頼性の高いデータの重要性を強調しています。
大規模言語モデル(LLMs)などの生成AIツールが人気を集めており、これらは主に人間が生成した入力を使って訓練されてきました。しかし、AIモデルが普及するにつれ、コンピュータが生成したコンテンツが他のAIモデルや自身を訓練するために使用される可能性があることが指摘されています。Shumailovらは、AIモデルがモデル崩壊を引き起こす方法についての数学モデルを提示しました。
彼らは、AIが特定の出力を見落とし、データセットの一部のみで自己学習する可能性があることを実証しました。彼らはまた、AIが生成したデータを与えると学習能力が低下し、最終的にモデルが崩壊することを示しました。このような状況では、AIが生成したデータでモデルを訓練することは可能ですが、データのフィルタリングが重要です。
同時に、人間が生成したコンテンツに依存するテック企業は、競合他社よりも効果的なAIモデルを訓練できる可能性があります。
*Disclamer:本キュレーションはNatureAsiaからピックおよび自動生成されました。正確な内容や詳細を知りたい方はリンク先の元コンテンツをご覧ください。
Curated. ニュースレター