PRODUCT CLASSIFICATION
產品分類短讀取的 RNA-seq 雖然可以計數已表達的轉錄本,但無法提供這些轉錄本的結構信息。
現在,斯坦福大學研究人員在《自然-生物技術》(Nature Biotechnology)雜志上報告稱,他們開發出了一種能保留轉錄本結構信息的新方法,他們通過環狀 cDNA 模板和長讀取測序,實現了對轉錄異構體(transcript isoform)的定量和分析。
在這項研究中,科學家舍棄了傳統的短讀取 RNA 測序法,利用 PacBio 公司提供的長讀取技術來測序完整的轉錄本。他們在 20 個人體組織的混合樣本中,鑒定得到了 476,000 個轉錄本序列,平均長度 1 kb。
絕大多數哺乳動物的基因,不符合一基因一轉錄本的模式。這些基因往往存在多種剪切形式,擁有可變的轉錄起始/終止位點。短讀取的測序技術不能提供上述信息,舉例來說,短讀取可以檢測到發生選擇性剪切的外顯子,但無法判斷外顯子之間的結構關系,是包含在同一個轉錄本中還是各自獨立出現。
理論上,長讀取測序技術可以克服這樣的限制。研究人員構建了由環狀cDNA模板組成的SMRTbell文庫,并將其用于測序。由于測序平臺的讀取長度實際上比這些 cDNA 長,該系統可以對每個堿基讀取多次,沿著圓環不斷進行,生成更為的“環化一致序列”(circular-consensus sequence CCS)。在這項研究中,平均讀取長度達到 7 kb,絕大多數 cDNA 堿基被測序了 5-15 次。
研究人員鑒定得到的絕大多數是全長轉錄本,但也并不*。這是由于 PacBio 測序讀長和 cDNA 合成效率的限制,而這兩個因素都受序列長度的影響。
論文的主要作者 Michael Snyder 表示:““對 1.5 kb 以下的 cDNA 來說沒什么問題,對于大部分2-2.5 kb的cDNA來說,也可以鑒定到全長,”作者寫道。“更長的轉錄本需要參考,質量較低但更長的讀取數據。”總的來說,研究人員獲得了 476,000 個CCS,代表著 476 million 堿基。
研究人員將這些轉錄本,與 GENCODE 項目鑒定的 mRNA 進行比對,確定了約 14,000 個全長的轉錄異構體(包括編碼和非編碼的轉錄本),其中有10%是前所未見的。Snyder 表示:“這類研究就好比是盲人摸象,而我們看到了更完整的圖像。”
這項研究中的方法可以用于 RNA 的結構分析和定量。不過,西班牙科學家 Roderic Guigo (未參與該研究)認為,單純從實用性和經濟性考慮,這一方法主要適用于前者,因為在真實樣本中為各轉錄異構體計數是很昂貴的。
麻省理工學院的 Chris Burge 教授(未參與該研究)評價道:“該方法有望在轉錄異構體水平全面注釋基因組,揭示轉錄本的詳細結構信息。”
這項研究可以幫助人們解決一些轉錄本難題,例如判斷相距較遠的選擇性外顯子剪切是否相互關聯。不過 Burge 也指出,許多人類轉錄本實際上超過 2 kb,這一技術還有待進一步改進,以處理更長序列。