AlphaFoldによる新たな蛋白質構造の解析とアプリケーション開発(AASJ)

from AASJ

ChatGPTが公開される前から、生命科学においてTransformer/attentionと呼ばれる生成AIモデルの導入が進められていました。その中でも最も重要な成果がGoogleの研究室から発表されたAlphaFoldであり、これまでの物理化学に基づく構造予測を大きく上回る成果を収めました。現在、AlphaFoldデータベースでは2億種類の蛋白質構造が閲覧可能となっており、実際の構造を知ることができなかった蛋白質の構造が提供されています。

9月13日には、AlphaFoldから見える新しい世界を解析する2つの論文がNatureに発表されました。今回紹介する論文は、韓国ソウル国立大学とスイスチューリッヒ工科大学の共同研究によって開発されたアプリケーションについてのもので、「Clustering-predicted structures at the scale of the known protein universe」というタイトルです。

この研究では、AlphaFoldデータベースから2億種類の蛋白質構造を解析し、新たな世界を示すことに成功しました。具体的な解析方法については詳しく説明されていませんが、AlphaFoldは既に解析された36万種類の構造と92%の一致率を持っており、信頼性が高いとされています。しかし、新たに予測された2億種類以上の構造を解析するためには、モンスターCPUを使用しても10年以上かかると言われています。

この研究では、まずAlphaFoldデータベースから50%の一致と90%のアラインメントが取れる構造を選び、5日間で5000万の相同クラスターを特定するためのアプリケーション「Foldseek」を開発しました。Foldseekによって、2億種類の蛋白質は200万のクラスターに分類され、そのうち31%は構造的なアノテーションが行われていないことが明らかになりました。

この研究では、新たに見えてきた世界のいくつかの例が紹介されています。具体的には、蛋白質の機能予測や進化研究において新たな知見が得られたことが示されています。しかし、相同性の基準をより緩く設定すれば、さらに新たな世界が見える可能性があるとも言われています。

この研究の結果は非常に興味深く、蛋白質の機能や進化研究において新たな展望が開けることが期待されています。


*Disclamer:本キュレーションはAASJからピックおよび自動生成されました。正確な内容や詳細を知りたい方はリンク先の元コンテンツをご覧ください。

+ キュレーション元の記事を読む