from AASJ
ChatGPTが公開される前から、生命科学においてTransformer/attentionと呼ばれる生成AIモデルの導入が進んでいました。その中でも最も注目すべき成果がGoogleの研究室から発表されたAlphaFoldです。これにより、従来の物理化学に基づく構造予測はほぼ過去のものとなりました。現在、AlphaFoldデータベースでは2億種類の蛋白質構造が閲覧可能です。つまり、実際の構造を見たことのない蛋白質の構造が提供されています。
9月13日、NatureにはAlphaFoldによって見える新たな世界を解析する2つの論文が発表されました。私はデータ解析分野が苦手ですが、この論文は非常に興味深いので、今日と明日に順番に紹介することにしました。また、28日に予定されているジャーナルクラブでも少し触れる予定です。
今日紹介する論文は、韓国ソウル国立大学とスイスチューリッヒ工科大学からのもので、2億種類の蛋白質構造を解析するアプリケーションを開発し、見たこともない構造から新たな世界を示しました。この研究のハイライトは、新たに明らかになったいくつかの事例です。
まず、AlphaFoldは既に解析された36万種類の構造と92%の一致率を持っており、信頼できる構造データベースとして利用されています。しかし、これまでのアプリケーションでは約40万種類の構造から蛋白質の相同性や機能を予測することができましたが、新たに予測された2億を超える構造の相同性や機能を解析するには、非常に時間がかかります。このため、ほとんどの蛋白質はアノテーションが行われずに捨てられてしまっています。
この研究では、まずAlphaFoldデータベースから50%の一致と90%のアラインメントが取れる構造に限定し、5日間で5000万の相同クラスターを特定するアプリケーションであるFoldseekを開発しました。Foldseekにより、2億の蛋白質は200万のクラスターに分類され、そのうち31%は構造的なアノテーションが行われていません。ただし、全蛋白質のうちアノテーションが行われていないのは約4%であり、これまでの構造研究で多くのことが明らかになっています。ただし、相同性の基準を緩めると、さらに新しい世界が見える可能性があります。
この研究では他にも興味深い事例が示されていますが、それらは一部です。是非、
*Disclamer:本キュレーションはAASJからピックおよび自動生成されました。正確な内容や詳細を知りたい方はリンク先の元コンテンツをご覧ください。
Curated. ニュースレター