AlphaFoldによる新たな蛋白質構造の解析と分類(AASJ)

from AASJ

ChatGPTが公開される前から、生命科学へのTransformer/attentionと呼ばれる生成AIモデルの導入が進められていました。その中でも最も大きな成果がGoogleの研究室から発表されたAlphaFoldです。AlphaFoldは物理化学に基づく構造予測をほぼ過去のものにし、現在は2億種類の蛋白質構造がAlphaFoldデータベースで閲覧可能です。つまり、実際の構造を見たこともない蛋白質の構造が提供されています。

9月13日、NatureにはAlphaFoldから見える新しい世界を解析する2つの論文が発表されました。今日はそのうちの1つである韓国ソウル国立大学とスイスチューリッヒ工科大学の論文について紹介します。この研究では、2億種類の蛋白質構造を解析するアプリケーションを開発し、新たに見える世界を示しました。このアプリケーションは「Clustering-predicted structures at the scale of the known protein universe」というタイトルで、予測された構造を現在知られる全ての蛋白質スケールで分類します。

AlphaFoldは既に解析された36万種類の構造と92%の一致率を持っており、信頼性の高い構造データベースとして利用されています。しかし、新たに予測された2億を超える構造の相同性やドメイン機能を解析するには、モンスターCPUでも10年以上かかると言われています。その結果、ほとんどの蛋白質はアノテーションが行われずに捨て置かれています。

この研究では、まずAlphaFoldデータベースから50%の一致と90%のアラインメントが取れる構造を特定し、5日間で5000万の相同クラスターを作成するためのFoldseekというアプリケーションを開発しました。Foldseekにより、2億の蛋白質は200万のクラスターに分類され、そのうち31%は構造的アノテーションが行われていません。しかし、全体の4%程度しかアノテーションが行われていないわけではなく、これまでの構造研究で多くのことが明らかにされています。

この研究では、新たに見えてきた世界のいくつかの例が紹介されています。例えば、アノテーションが行われていなかった蛋白質の機能が予測できるようになったことや、古い構造が多く見つかり、細菌や真核生物で共通の構造も見られることが示されました。また、自然免疫に関わる分子やDNAセンサーに関しても新たな発見がありました。

この研究では他にも面白い例が示され


*Disclamer:本キュレーションはAASJからピックおよび自動生成されました。正確な内容や詳細を知りたい方はリンク先の元コンテンツをご覧ください。

+ キュレーション元の記事を読む