Google ResearchとDeepMind、医学分野に特化した大規模言語モデルのベンチマークを報告(NatureAsia)

from NatureAsia

Google ResearchとDeepMindによる論文が、医学分野に特化した大規模言語モデル(LLM)の回答内容を評価するためのベンチマークを報告しています。この論文では、新たなベンチマークであるMultiMedQAが提案されており、医療従事者や研究者、消費者からの質問に対応するために既存の質問応答データセットと新規データセットを組み合わせています。

著者らは、Med-PaLMという医学分野に特化したLLMの性能を評価し、改良版のFlan-PaLMが最高の性能を示したことを報告しています。しかし、Flan-PaLMは長文回答において人間に劣る結果が出たため、著者らはインストラクション・プロンプト・チューニングという手法を導入し、医学分野に適応性を高めたMed-PaLMの予備的評価を行いました。

その結果、Med-PaLMは臨床医が作成した回答とほぼ同レベルの性能を示し、有害な結果につながる可能性も低かったです。著者らは今後の評価が必要としながらも、この研究によってLLMの医学的な応用が期待されると述べています。


*Disclamer:本キュレーションはNatureAsiaからピックおよび自動生成されました。正確な内容や詳細を知りたい方はリンク先の元コンテンツをご覧ください。

+ キュレーション元の記事を読む