從無(wú)序狀態(tài)到清晰,數(shù)據(jù)預(yù)處理和統(tǒng)計(jì)選擇影響著定量環(huán)境DNA(eDNA)分析
環(huán)境DNA(eDNA)分析具有極大潛力,可以提高物種檢測(cè)靈敏度并估算物種豐度??焖僭鲩L(zhǎng)的用戶(hù)基礎(chǔ)、持續(xù)的方法開(kāi)發(fā)和優(yōu)化催生了多樣的eDNA捕捉和分析方法。盡管在標(biāo)準(zhǔn)化現(xiàn)場(chǎng)和實(shí)驗(yàn)室方案方面已做出重大努力,但在理解數(shù)據(jù)預(yù)處理和統(tǒng)計(jì)選擇對(duì)最終結(jié)果的影響方面,尤其是在定量電子DNA分析方面,仍存在明顯空白。這些見(jiàn)解對(duì)于制定協(xié)調(diào)分析工作流程的最佳實(shí)踐指南至關(guān)重要。
為彌補(bǔ)這一空白,我們進(jìn)行了廣泛的文獻(xiàn)綜述,重點(diǎn)關(guān)注定量物種特異性eDNA研究。我們?cè)u(píng)估了數(shù)據(jù)的多樣性,通過(guò)預(yù)處理和統(tǒng)計(jì)選擇來(lái)評(píng)估eDNA濃度與物種豐度或生物量之間的相關(guān)性,并在可用時(shí)收集了原始數(shù)據(jù)集。隨后,我們應(yīng)用常用的數(shù)據(jù)分析策略,制定了提高定量eDNA分析可靠性和可重復(fù)性的通用建議。
我們的結(jié)果表明,現(xiàn)有文獻(xiàn)中統(tǒng)計(jì)方法并不總是被清晰描述,原始數(shù)據(jù)很少公開(kāi)。此外,用于評(píng)估定量相關(guān)性的數(shù)據(jù)預(yù)處理策略和統(tǒng)計(jì)檢驗(yàn)的選擇,會(huì)顯著影響檢測(cè)到正相關(guān)的可能性和效應(yīng)量。
總體建議如下:(i) 提高方法描述和數(shù)據(jù)可用性的透明度;(ii)使用能夠考慮數(shù)據(jù)特征的混合效應(yīng)模型評(píng)估相關(guān)性;(iii)避免預(yù)處理定量eDNA數(shù)據(jù),尤其是在與次優(yōu)統(tǒng)計(jì)檢驗(yàn)結(jié)合時(shí)。實(shí)施這些指南應(yīng)提升定量eDNA數(shù)據(jù)的可訪(fǎng)問(wèn)性和透明度,最終提升管理者和政策制定者的使用價(jià)值。
1 簡(jiǎn)介
分析環(huán)境樣本中的DNA,通常稱(chēng)為環(huán)境DNA或eDNA,已成為一種強(qiáng)大、經(jīng)濟(jì)且非侵入性的物種檢測(cè)工具(Ficetola等,2008;Pilliod等,2013;Takahara等,2012)和社區(qū)監(jiān)測(cè)(Bista等,2017;Creer等,2016;H?nfling 等,2016)。近年來(lái),用戶(hù)數(shù)量的爆炸性增長(zhǎng)、持續(xù)的方法開(kāi)發(fā)以及eDNA分析的廣泛采用,催生了多樣化的eDNA捕捉和分析方法(Hakimzadeh 等,2023;Tsuji 等,2019)。這種快速擴(kuò)展促使了制定明確指南和標(biāo)準(zhǔn)化協(xié)議的需求(Goldberg 等,2016;Loeza-Quintana 等,2020;Mathon 等,2021)。盡管對(duì)現(xiàn)場(chǎng)和實(shí)驗(yàn)室方法給予了大量關(guān)注,但對(duì)數(shù)據(jù)預(yù)處理及可能的統(tǒng)計(jì)選擇對(duì)最終結(jié)論的影響并未給予同等程度的重視。
準(zhǔn)確建模eDNA數(shù)據(jù)需要仔細(xì)考慮數(shù)據(jù)的固有特征。首先,環(huán)境DNA調(diào)查數(shù)據(jù)通常具有層級(jí)結(jié)構(gòu),通常從多個(gè)地點(diǎn)采集多個(gè)樣本,每個(gè)樣本有多次PCR重復(fù)(Buxton等,2021;Picetola等,2015;Furlan等,2016)。分析需要適應(yīng)這種層級(jí)數(shù)據(jù)結(jié)構(gòu),因?yàn)閬?lái)自同一地點(diǎn)的樣本和相同樣本的PCR復(fù)制不會(huì)彼此獨(dú)立。其次,調(diào)查以計(jì)數(shù)形式生成數(shù)據(jù)(即復(fù)制L)?1(C/L)或讀數(shù))理論上只能取正整數(shù)值(例如,一升采樣水不能含有半份DNA副本)。分析此類(lèi)數(shù)據(jù)的常見(jiàn)方法是假設(shè)計(jì)數(shù)為泊松分布。然而,計(jì)數(shù)數(shù)據(jù)的方差通常顯著大于平均值,導(dǎo)致過(guò)度離散(Bliss & Fisher,1953),分析中需要加以考慮。第三,零值很常見(jiàn),可能代表假(例如與采樣或?qū)嶒?yàn)室協(xié)議錯(cuò)誤相關(guān)的)或真正的零(即某物種因不存在于采樣點(diǎn)而未被檢測(cè)到)。零計(jì)數(shù)頻率高于預(yù)期,會(huì)導(dǎo)致零通脹(Blasco-Moreno 等,2019;Heilbron, 1994),分析中也需要考慮這一點(diǎn)。因此,考慮數(shù)據(jù)結(jié)構(gòu)、超離散和零通脹對(duì)于得出合理統(tǒng)計(jì)結(jié)論至關(guān)重要,但仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)(Arnqvist, 2020;Blasco-Moreno 等,2019;艾夫斯,2015;O'Hara 和 Kotze,2010;St-Pierre 等,2018;Warton 等,2016)。
環(huán)境DNA調(diào)查廣泛用于物種檢測(cè),但也可用于估計(jì)物種豐度或生物量,因?yàn)樵诶硐霔l件下,通過(guò)定量物種特異性eDNA調(diào)查(即使用定量實(shí)時(shí)PCR(qPCR)或數(shù)字PCR(dPCR))獲得的DNA拷貝數(shù)估計(jì),將與物種豐度(A)或生物量(B)呈正相關(guān)。被廣泛采用了多種數(shù)據(jù)預(yù)處理策略和統(tǒng)計(jì)方法來(lái)估計(jì)這些關(guān)系,這也引發(fā)了不同方法是否可能導(dǎo)致不同結(jié)果和結(jié)論的問(wèn)題。在某些情況下,數(shù)據(jù)的層級(jí)結(jié)構(gòu)(例如采樣多個(gè)站點(diǎn)、中宇宙或?qū)嶒?yàn)罐;每個(gè)站點(diǎn)采集多個(gè)樣本;執(zhí)行多次PCR重復(fù))會(huì)被納入統(tǒng)計(jì)模型規(guī)范中(Eichmiller等,2016;Hinlo等,2018;Lacoursière-Roussel 等,2016)。在其他情況下,層級(jí)結(jié)構(gòu)被忽略,或通過(guò)樣本和/或PCR重復(fù)的平均來(lái)簡(jiǎn)化數(shù)據(jù)(Doi 等,2017;Kutti 等,2020;Skinner等,2020年;Thalinger 等,2019)。許多研究通過(guò)對(duì)數(shù)轉(zhuǎn)化eDNA濃度數(shù)據(jù)處理了過(guò)度分散計(jì)數(shù)的問(wèn)題,這通常能穩(wěn)定方差(Doi等,2015;Dougherty等,2016;Thomsen 等,2012)。然而,數(shù)據(jù)轉(zhuǎn)換對(duì)統(tǒng)計(jì)分析的影響仍存在爭(zhēng)議(Ives, 2015;O'Hara 和 Kotze,2010)。為了解決eDNA數(shù)據(jù)中零膨脹的問(wèn)題,一種方法是建立eDNA定量的下限。這可能包括過(guò)濾掉檢測(cè)極限(LOD)或量化極限以下的零值或值(LOQ;Dunn 等,2017;Takahara 等,2012;Takahashi 等,2020),盡管該方法忽略了真正的零點(diǎn)(Blasco-Moreno 等,2019;Klymus 等,2020)。另一種常見(jiàn)的減少零通脹方法是在分析前對(duì)復(fù)制次數(shù)進(jìn)行平均值(即取每個(gè)樣本或站點(diǎn)的平均值)(Dougherty等,2016;Spear 等,2021)。然而,平均法消除了數(shù)據(jù)生成過(guò)程固有的變異性。此外,還應(yīng)用了多種統(tǒng)計(jì)檢驗(yàn)來(lái)評(píng)估電子DNA濃度與豐度或生物量(A/B)之間的相關(guān)性,包括Pearson或Spearman相關(guān)(Jo,2023;Plough 等,2018),線(xiàn)性或廣義線(xiàn)性模型(Eichmiller 等,2016;Pilliod等,2013)和貝葉斯模型(Erickson等,2016)。這些不同的統(tǒng)計(jì)選擇可能強(qiáng)烈影響最終結(jié)論(Arnqvist,2020; Gould 等,2025)。
據(jù)我們所知,有兩項(xiàng)研究評(píng)估了不同數(shù)據(jù)預(yù)處理策略(Jo, 2023)或統(tǒng)計(jì)檢驗(yàn)(Chambert 等, 2018)對(duì)定量物種特異性eDNA數(shù)據(jù)的影響。然而,對(duì)最常見(jiàn)的數(shù)據(jù)預(yù)處理策略與統(tǒng)計(jì)檢測(cè)的綜合影響的全面評(píng)估尚不足。為彌合這一空白,我們系統(tǒng)地檢索了定量物種特異性eDNA研究,這些研究評(píng)估了eDNA濃度與物種A/B之間的相關(guān)性。我們?cè)u(píng)估了現(xiàn)有文獻(xiàn)中多樣化的數(shù)據(jù)預(yù)處理策略和統(tǒng)計(jì)選擇,并檢查了原始數(shù)據(jù)的可用性(即所有復(fù)制層次均可獲得測(cè)量數(shù)據(jù))。隨后,我們確定了常見(jiàn)的預(yù)處理策略和統(tǒng)計(jì)檢驗(yàn),并應(yīng)用它們重新分析現(xiàn)有的實(shí)證數(shù)據(jù)集。具體來(lái)說(shuō),我們?cè)u(píng)估了(i)定量eDNA數(shù)據(jù)分析過(guò)程中常見(jiàn)的分析選擇及其方法的變異程度,(ii)這些分析選擇如何影響檢測(cè)eDNA豐度相關(guān)性及其效應(yīng)量的能力。最后,我們利用結(jié)果確定了關(guān)鍵考慮因素和最佳實(shí)踐指南,以提升定量eDNA分析的可靠性和可重復(fù)性。