RNA-seq中的那些統計學問題(一)爲什麼是負二項分佈?
RNA-Seq(RNA測序)是一種利用深度測序技術來測量樣本中的RNA表達量的方法。在RNA-Seq資料分析中,統計學問題是至關重要的一環,特別是在模型假設和表達量差異的統計推斷上。一個關鍵的統計學問題是:為什麼RNA-Seq計數資料使用負二項分佈來建模?主要原因有以下幾點:
1.離散性和非負性:
RNA-Seq生成的讀數是非負的整數計數,這與負二項分佈的性質相符合。
2.過度離散(Overdispersion):
在生物學樣本中,基因表達水平通常具有變異性,這種變異性往往超過了泊松分佈所假設的均值和方差相等的程度。負二項分佈相比泊松分佈,可以透過一個額外的引數來建模這種過度離散,即允許方差大於均值。
3.生物學變異性:
不同個體之間的生物學差異會導致基因表達水平的變異。負二項分佈能夠透過引入一個與個體相關的隨機效應來考慮這種生物學變異性。
4.技術變異:
測序深度不同、實驗操作差異等技術因素也會引入變異。負二項分佈模型可以透過引入樣本特有的大小因子來校正不同樣本間的技術變異。
百泰派克生物科技--生物製品表徵,多組學生物質譜檢測優質服務商
相關服務:
How to order?