>

次世代定序

【NGS 16S報告升級】第三章:微生物菌相多樣性-Alpha Diversity & Beta Diversity

先前的文章已經提到,透過次世代定序 16S rDNA 定序法 (16S rDNA Sequencing) 與生物資訊分析,取得高解析度的ASV (Amplicon Sequence Variants) ,搭配各種視覺化的圖表,像是柱狀圖、文氏圖、多層次圓餅圖…等,更加入了全新的圖示,例如:GraPhlAn、HeatTree、Core Microbiome、Ternary Plot、F/B ratio,讓研究者能更一目了然理解樣品中的菌相組成以及每個物種的豐富程度。

那麼下一步就是探討樣品內的物種數和均勻度,將說明Alpha Diversity與Beta Diversity兩大內容:

  • Alpha Diversity 是指一個特定區域或生態系統內的多樣性,是反映豐富度和均勻度的綜合指標,可以將之視為「樣本內」的多樣性。
  • Beta Diversity 則表示「樣本間」的多樣性,透過一系列演算,將「物種組成轉換成距離」,以座標圖或其他可視化方式呈現。

Alpha diversity

Alpha diversity index部分,我們提供了常見的四種數值做表示:Abundance-based Coverage Estimator metric、Chao1 confidence interval、Shannon’s index、Simpson evenness measure E,分別有不同運算方式和意義,這邊就不贅述,簡單來說,數值越大,則代表該菌群的多樣性越高。

接著,我們最常被使用者問的一個問題為:「本次數據量到底是否足夠呢?菌相會不會隨著數據量提升而有所變化呢?」這個問題就要用底下的圖-稀釋曲線 ( Rarefaction Curve ) 來回答。

圖一、Alpha diversity index

圖二、稀釋曲線 (Rarefaction Curve)

稀釋曲線 (Rarefaction Curve) 是藉由隨機抽樣而評估物種豐富度的方式,圖中以Chao 1稀釋曲線在抽樣出相同序列數下,可以比較不同樣品間的物種豐富程度,而剛開始曲線幅度會非常大,而最後趨於平緩,可做為評估樣品定序深度依據。以下圖為例,每條不同顏色的線代表一個樣品,而每個樣品在定序數據 > 5,000 條後,物種豐富程度已達到飽和,因此可以認定在此範例樣品中,5,000條的數據是足夠進行菌相分析的。不過依照目前市場經驗與產品CP值考量下,通常在菌相未知的情況,還是會建議客戶安排至少50,000 條數據量為佳 (MiSeq 300PE平台)。

豐度等級曲線 (Rank Abundance curve) 同時呈現物種豐富度與物種均勻度。橫軸代表物種豐富度低至高的排序,在水平方面,物種豐富度以曲線寬度來呈現,物種豐富度越高,曲線在橫軸的寬度越大;曲線的形狀(斜率)則反映了物種的均勻度,曲線平緩代表物種的均勻程度越高(樣品中各物種比例越平均)。

圖三、豐度等級曲線

圖四、物種累積曲線 (Specaccum Curve)

Specaccum曲線為一種物種累積曲線,是描述當樣品增加時物種多樣性增加的趨勢,可用於評估本次定序提供的樣品數量是否充足。隨著樣品量增加,若曲線急遽上升表示有大量物種發現,若曲線趨於平緩代表物種漸漸不會因為樣品量增加而增多。

Beta diversity

UniFrac是一種距離度量,廣泛用於微生物生態學和宏基因組學(Metagenomics) 研究,可比較生物群落的系統發育或進化訊息。又分為Weighted UniFrac與Unweighted UniFrac。Weighted UniFrac考慮了觀察到的生物的豐度,可用於檢查菌相結構的差異;而Unweighted UniFrac僅考慮物種存在與否,對低豐度特徵的差異更敏感。

以下圖為例,Weighted UniFrac以熱圖呈現,可輕易觀察任兩個樣品的差異程度。以藍色到紅色的漸層表示低至高的差異程度,舉例來說,越深的紅色則代表兩個樣品的菌相結構差異越大。

圖五、Weighted Unifrac Heatmap

圖六、3D PCoA

PCA 與 PcoA則是Beta diversity 中最常見使用的Ordination,可將多維數據投影到低維空間進行呈現,最終能使數據以座標圖呈現。兩者的運算原理不同:Principal Component Analysis (PCA,主成份分析) 將複雜且多維度的數據用一系列的特徵值和特徵向量進行排序後基於樣本的相似矩陣(如歐式距離),選擇主要的前幾位特徵值,藉此觀察樣本間差異。Principal coordinates analysis (PCoA,主座標分析) 則不使用原始數據,而是用 (非) 相似矩陣當輸入來源。

以3D PCoA圖來說明,X軸表第一主成分,Y軸表第二主成分,Z軸表第二主成分,軸上所示的百分比表示主成分對樣品差異的貢獻率,以白話文來說,在降階(樣品點投影至軸上)的過程中,多少會有失真情形,而此百分比則代表保留原始距離的程度,通常會希望軸上百分比相加後越大越好,就代表越能還原樣品原始距離。另外,3D PCA 與3D PCoA 可在基米網頁版報告中進行互動,可旋轉座標軸與視角,觀察樣品座標與距離關係。

若您覺得這些運算過於複雜難懂,那就只需要理解「在本圖中兩個樣品點的距離越近,則代表他們的菌相越相似」就可以囉!

後續將提供以 Weighted Unifrac 繪製而成的 UPGMA 親緣關係樹。

圖七、UPGMA Tree

UPGMA為一個簡易的距離矩陣方法,可以對樣品進行聚類分析並建構親緣關係樹。UPGMA 是將兩個最小距離的樣品聚在一起,這新聚在一起的樣品再與其他其他樣品重新計算得到一個新的矩陣,再從新的矩陣找到最小距離的樣品再次進行聚類,不斷重複進行直到全部樣品聚集到一個完整的親緣關係樹。

另外一提,基米也有提供Environment plots,像是Canonical Correlation Analysis (CCA)、Detrended Correspondence Analysis (DCA) 和 Redundancy Analysis (RDA),這三種圖能夠反映物種與環境因子間的關係,可檢測環境因子、樣品、菌相兩兩間的關係,找出影響樣品分布的重要環境驅動因子。不過依據基米經驗上,目前我們反而會推薦客戶使用「相關係數」的計算方式去了解環境因子和特定菌種間的關係。

當然,我們還是會根據客戶需求不同,而有不同的分析方法推薦,以上僅介紹16S生資分析升級後的部分內容,欲解鎖更多更完整的內容,歡迎洽詢基米!


 

你還在看舊報告嗎?
基米16S生資分析報告大升級
全中文化報告,輕鬆閱讀,完整理解!
若需了解更詳細的報告內容,歡迎洽詢NGS業務或
聯繫我們索取範例報告!