Bo Liu, Kunxiang Liu, Xiaoqing Qi, Weijia Zhang, Bei Li. “Classification of deep-sea cold seep bacteria by transformer combined with Raman spectroscopy.” Scientific Reports, 2023.
背景
深海冷水湧出帯の微生物は、地球表面の70.8%を占める海洋の独自の環境下で繁栄している。冷水湧出帯は、海底堆積物の下から漏れ出す液体であり、水、炭化水素(水溶性ガスおよび油)、硫化水素、細粒堆積物などを含んでいる。これらの液体は、様々な高密度の微生物および動物群の源となっており、深海冷水湧出帯の微生物群集は広く研究されている。冷水湧出帯には大量の燃焼性氷資源が含まれており、大規模な窒素固定を行い、深海生態系に大量の有機物を提供する地球上で第三の生態環境であることが多くの研究で示されている。このため、冷水湧出帯の微生物の研究および特定の機能を持つ微生物の同定とスクリーニングは非常に重要である。
ラマン分光法は、無標識かつ破壊しない迅速な生物試料分析法であり、近年では微生物の迅速な同定と分析に頻繁に使用されている。ラマン分光法は、細胞を破壊せずにその場で微生物の単一細胞種を識別できる非侵襲的かつ迅速な方法である。例えば、カロテノイドのラマン特性ピークは、1004 cm^-1、1157 cm^-1、および1520 cm^-1(C=C伸縮振動)であり、これらは微生物に一般的に見られる。さらに、ラマン分光法と機械学習、深層学習などの分類方法を組み合わせることで、異なる微生物種間の差異を反映し、細菌の同定が可能となる。これにより、ラマン分光法はグラム陽性菌とグラム陰性菌を区別し、いくつかのピーク(540 cm^-1および1380 cm^-1)がグラム陽性菌とグラム陰性菌で有意に異なることが示されている。
従来の問題点
しかし、従来の細菌検出方法は、細菌学的診断と免疫血清学的診断の二つが主流である。細菌学的診断は、細菌の形態(大きさ、形、配列、核質の分布など)、細菌の組成、代謝物、核酸に基づいているが、形態診断の精度は低く、細菌の組成と代謝の研究は費用がかかり、複雑で時間がかかることが多い。一方、免疫血清学的診断は、細菌の標識と高価な科学機器を必要とし、ほとんどの方法では細菌の培養を必要とするため、微生物の同定に時間がかかる。また、深層学習を用いた従来のラマンスペクトル分類モデルは、CNNやRNNが一般的であるが、これらはサンプルソースやスペクトル取得条件が変わると、物質に対するスペクトル応答が完全に線形でないため、モデルの予測能力が低下する可能性がある。CNNはカーネルの選択に大きく依存し、一部の時系列情報を失う。また、RNNはステップを並列化できず効率が低く、過去のメモリと現在の状態のみで動作するため、ラマン信号の連続性をうまく捉えられない。
解決方法と結果
そこで、本研究では、トランスフォーマーとラマン分光法を組み合わせることで、深海冷水湧出帯の微生物を単一細胞レベルで識別する新しい方法を提案した。この研究では、8種類の冷水湧出帯細菌のラマンスペクトルを収集し、それぞれの細菌について少なくとも500のスペクトルをトランスフォーマーモデルのトレーニングに使用した。トランスフォーマー分類モデルと他の深層学習分類モデルを比較した結果、この方法は微生物分類の精度を向上させることが示された。トランスフォーマー分類モデルは、異なる微生物種の識別において平均精度97.3%を達成し、特定の細菌の識別精度は100%に達した。また、ROC曲線を用いて5種の分類の特異性と感度を評価した結果、8種の菌株の平均AUCはすべて0.97以上であり、分類モデルの特異性と感度が高いことが示された。
使用されたCoboltのレーザー

