AlphaFold:2億種類の蛋白質構造を解析する新たなアプリケーションの開発(AASJ)

from AASJ

ChatGPTの前に、生命科学へのTransformer/attentionと呼ばれる生成AIモデルの導入が進められていました。その中でも、Googleの研究室から発表されたAlphaFoldが最も注目されました。AlphaFoldは、物理化学に基づく構造予測を大きく進化させ、現在では2億種類の蛋白質構造がAlphaFoldデータベースで閲覧できるようになりました。つまり、実際の構造を見たこともない蛋白質の構造が提供されています。

9月13日、AlphaFoldに関する2つの論文がNatureに発表されました。韓国ソウル国立大学とスイスチューリッヒ工科大学からの研究チームは、2億種類の蛋白質構造を解析するアプリケーションを開発し、新たな世界を示しました。この研究では、AlphaFoldデータベースから予測された構造を既知の蛋白質のスケールで分類する手法が紹介されています。

AlphaFoldは既に36万種類の構造と92%の一致率を持っており、信頼性が高く公開データも利用されています。しかし、新たに予測された2億以上の構造の相同性や機能を解析するには、モンスターCPUでも10年以上かかると言われています。そのため、ほとんどの蛋白質は未だにアノテーションが行われていません。

この研究チームは、AlphaFoldデータベースから50%の一致と90%のアラインメントが取れる構造に限定し、5日間で5000万の相同クラスターを特定するFoldseekというアプリケーションを開発しました。Foldseekにより、2億の蛋白質は200万のクラスターに分類され、そのうち31%は構造的アノテーションが行われていません。また、新たな世界がさらに明らかになる可能性もあります。

論文では、これまでアノテーションが行われていなかった蛋白質の機能や進化に関するいくつかの新しい知見が紹介されています。例えば、蛋白質の機能が予測できるようになり、トランスポーターや膜蛋白質などの分子が多く見つかりました。また、進化の調査では、古い構造が多く見つかり、細菌や古細菌、真核生物の共通の構造も確認されました。さらに、自然免疫に関わる分子やDNAセンサーの進化にも興味深い結果が得られました。

これらは一部ですが、論文を読むことで蛋白質の機能や進化について新しい知見を得ることができます。


*Disclamer:本キュレーションはAASJからピックおよび自動生成されました。正確な内容や詳細を知りたい方はリンク先の元コンテンツをご覧ください。

+ キュレーション元の記事を読む