學術堂首頁 | 文獻求助論文范文 | 論文題目 | 參考文獻 | 開題報告 | 論文格式 | 摘要提綱 | 論文致謝 | 論文查重 | 論文答辯 | 論文發表 | 期刊雜志 | 論文寫作 | 論文PPT
學術堂專業論文學習平臺您當前的位置:學術堂 > 醫學論文 > 基礎醫學論文 > 醫學遺傳學論文

基因組結構變異檢測的基本方法與前沿技術

時間:2020-01-14 來源:基因組學與應用生物學 作者:楊金晶,李成,孫嘯 本文字數:19296字

  摘    要: 本研究介紹了基因組結構變異檢測的生物信息學基本方法和前沿技術。對基于第二代測序技術的四種檢測方法 (讀對方法, 讀深方法, 分裂片段方法和序列拼接方法) 的原理和特點進行了詳細解讀, 分析了第二代測序技術應用在檢測結構變異上的特點與發展趨勢。最后介紹了三代測序、Linked-reads和光學物理圖譜等新技術在基因組結構變異檢測中的應用, 論述了融合新技術的結構變異檢測方法的特點與優勢。

  關鍵詞: 結構變異; 測序片段; 第二代測序技術; 長片段測序技術; 光學物理圖譜技術;

  Abstract: The basic methods and frontier technologies of genome structural variations detection were introduced in this paper. The principles and features of the 4 detection methods (Read-pair method, Read-depth method, Spiltread method and Sequence Assembly method) based on next generation sequencing technology were elaborated and the characteristics and development trend of the next generation sequencing technology on detecting structural variations were analyzed. Finally, some new technologies and their applications in detecting genome structural variations were introduced, including the third generation sequencing, linked-reads and optics physical maps. The features and advantages of the detection methods mixed with new technologies were discussed.

  Keyword: Structural variations; Sequencing reads; Next generation sequencing; Long reads sequencing; Optics physical maps;

  從基因的概念被提出伊始, 對人類自身基因信息的探究一直是生命科學的熱門問題之一, 人類基因組計劃 (human genome project, HGP) 于2001年第一次完成了人類24條染色體的序列測定后, 人們發現個體之間基因的相似程度達到99.9%, 存在著大約0.1%的片段上的差異, 我們稱之為基因組的多態性或基因組變異, 正是這些差異導致了人與人之間截然不同的各類性狀差異。

  根據發生變異的堿基數量, 基因組變異又可以分為單核苷酸變異 (single nucleotide variations, SNV) 與結構變異 (structural variation, SV) 。SNV是指發生在基因組水平上的單個核苷酸的變異;SV最初提出是指長度在1 000 bp以上的基因的大片段的變異 (Feuk et al., 2006) , 隨著對SV認識的不斷發展, 現SV一般指長度在50 bp以上DNA片段變異 (Alkan et al., 2011) 。在結構變異中, 根據長度可以分為長度在3 MB以下的亞顯微水平的結構變異和長度在3 MB以上的顯微水平的結構變異;根據類型可以分為十多種不同的結構變異, 幾種常見的類型為缺失 (Deletion) 、重復 (Duplication) 、插入 (Insertion) 、倒位 (Inversion) 、易位 (Translocation) 等 (圖1) , 其中缺失、重復、插入等改變基因組堿基對數量的結構變異以及相互組合衍生出的復雜的結構變異又可以稱為拷貝數變異 (copy number variation, CNV) (Cooper et al., 2007) 。

  結構變異的影響可以歸納為兩大方面 (Hurles et al., 2008) 。首先, 在基因表達方面, 結構變異會通過多種方式影響基因的轉錄與翻譯。當基因發生重復、插入和缺失等變異時, 會導致基因劑量的改變;當編碼區域發生結構變異時, 會改變基因的轉錄翻譯;當非編碼區域發生結構變異時, 會通過位置效應影響基因表達調控元件的調控作用;當發生增強子或抑制子的刪除變異時, 會影響基因的轉錄水平。其次, 在疾病方面, 結構變異會導致性狀的非正常表達, 從而引發各類遺傳性疾病。除了已經為人們熟知的部分顯微水平的結構變異引發的疾病, 例如21號染色體3體引發的唐氏綜合征, 5號染色體短臂上的缺失引發的貓叫綜合征等等;也有越來越多關于亞顯微結構的結構變異引發的疾病的報道, 例如視蛋白基因的基因重組可能會引發紅綠色盲疾病 (Lupski, 2015) ;17q21.31部位的缺失變異會引發學習障礙 (Koolen et al., 2006) ;16p11.2部位的缺失變異會引發孤獨癥 (W-eiss et al., 2008) 。
 

基因組結構變異檢測的基本方法與前沿技術
 

  最初, 基因組中大量存在的SNV被認為是影響遺傳和表型的主要因素, 但后來發現基因組中普遍存在大量的SV片段, 同樣在人類疾病、復雜性狀和進化的研究中具有重要意義 (Check, 2005) , 因此吸引了大量研究。一方面, 研究集中于人類基因組結構變異的檢測。從2008年開始, 中、英、美各國共同發起的“國際千人基因組計劃” (The 1000 Genomes Project) , 對基因組的結構變異作了當時最全面最完善的分析。在2012年和2015年, 國際千人基因組計劃分別發布了1 092個樣本 (Genomes Project et al., 2012) 和2 504個樣本 (Sudmant et al., 2015) 的測序數據以及詳細的結構變異檢測結果。之后陸續有關于結構變異檢測成果的報道, 到2016年10月, 韓國國立首爾大學醫學院針對一名韓國人的基因組 (AK1) 進行了相關分析 (Seo et al., 2016) , 發布了迄今為止最為詳細的人類基因組結構變異檢測結果。另一方面, 人們關注于結構變異與相關疾病的關聯分析, 已經有多種自身免疫性疾病 (Yang et al., 2007;Wang et al., 2013) 、病毒感染 (Gonzalez et al., 2005) 、肥胖 (Falchi et al., 2014) 、骨質疏松 (Yang et al., 2008) 等被證明與結構變異相關, 尤其在癌癥與結構變異的關聯性研究中, 更是發現結構變異是導致食道癌 (Cheng et al., 2016) 、兒童神經母細胞瘤 (Pugh et al., 2013) 、小細胞肺癌 (George et al., 2015) 等最主要的因素。

  圖1 結構變異的幾種常見類型Figure 1 Several common types of structural variations
圖1 結構變異的幾種常見類型Figure 1 Several common types of structural variations

  其實早在上世紀五十年代, 對于結構變異的研究便已經開始, 但受限于技術手段, 過去人們往往只能通過顯微鏡觀察到顯微水平的結構變異。上世紀七十年代, 人們用遺傳學方法對結構變異進行了更深入的研究 (Sperling and Wiesner, 1972) 。21世紀以來, 一方面隨著微陣列 (Microarrays) 、細菌人工染色體 (bacteria artificial chromosome, BAC) 、單分子分析 (Single-molecule analysis) 等實驗技術的發展, 人們開始使用陣列比較基因組雜交 (array comparative genomic hybridization, aCGH) 、SNP微陣列 (SNP microarrays) 以及熒光原位雜交 (fluorescent in situ hybridization, FISH) 等方法來檢測結構變異 (Iafrate et al., 2004) 。另一方面, 隨著聚合酶鏈式反應 (polymerase chain reaction, PCR) 、DNA測序以及基因組序列比較分析等技術的發展, 人們開始通過基于測序數據的計算機處理方法檢測結構變異, 尤其隨著新一代測序技術 (next generation sequencing, NGS) 的發展和普及, 基于測序數據的分析方法開始被大量使用。近幾年來, 為了彌補NGS技術檢測結構變異的各種不足, 人們開始通過單分子實時測序 (single-molecule realtime sequencing, SMRT) 、納米孔 (Nanopore) 等第三代測序技術 (third generation sequencing, TGS) 進行SV檢測。本研究主要就基于測序技術發展起來的一系列檢測結構變異的方法和技術進行介紹和討論。

  1、 基因組結構變異檢測基本方法

  每段DNA的測序序列的原始數據稱之為測序片段 (Reads) , 基于測序技術的結構變異檢測方法大部分通過reads與參考基因組的比對進行檢測。主要檢測方法分為四種 (Medvedev et al., 2009;Alkan et al., 2011;Mills et al., 2011) , 分別是讀對方法 (Read-pair Method) 、讀深方法 (Read-depth method) 、分裂片段方法 (Split-read method) 以及序列拼接方法 (Sequence assembly method) 。

  1.1、 讀對方法

  將同一段DNA分別從兩端測得不同方向的序列信息稱之為雙端測序 (Paired-end reads) 。讀對方法通過雙端測序, 獲得DNA片段兩端成對reads的分布的信息, 再尋找比對到參考基因組上后分布和方向與參考基因組不一致的Reads, 以此為特征判斷結構變異的類型 (Alkan et al., 2011) 。

  讀對方法以PEM算法 (Korbel et al., 2007) 、BreakDancer算法 (Chen et al., 2009) 、HYDRA算法 (Quinlan et al., 2010) 等為代表。以PEM算法為例, 首先對樣本DNA進行雙端測序 (圖2A) , 可以獲得DNA片段兩端成對reads的距離和方向等信息。之后將測得的成對的reads比對到參考基因組上, 分析其在參考基因組上的距離和方向信息, 根據比對前后距離和方向信息的不一致性 (圖2B) , 來判斷是否存在SV。發生缺失變異的片段兩端的reads在比對到參考基因組上時, 其距離會增大, 而發生插入變異的片段則會出現距離減少的情況, 發生倒位變異的片段會出現方向上的變化。

  讀對方法是基于高通量測序數據檢測結構變異的方法中使用最廣泛的, 最早通過乳腺癌細胞系MCF-7產生的BAC序列驗證該方法的可行性 (Volik et al., 2003) 。理論上讀對方法可以檢測各種類型的結構變異, 但是在處理基因組重復區域的比對時會受到很大干擾。同時因為DNA片段長度的限制, 讀對方法無法檢測大片段的結構變異。

  1.2、 讀深方法

  讀深方法首先假設在參考基因組上測序深度 (Read depth) 是隨機分布的 (通常服從泊松分布或者修正泊松分布) 。將通過高通量測序獲得的樣本基因組的reads比對參考基因組上, 分析其測序深度, 通過測序深度在某些區域的差異變化來發現重復變異和缺失變異:重復區域的測序深度會出現明顯增加, 缺失區域的測序深度會出現明顯減少 (Alkan et al., 2011) 。

  讀深方法以EWT算法 (Yoon et al., 2009) 、CNV-nator算法 (Abyzov et al., 2011) 等為代表。以EWT算法為例, 首先在參考基因組上每100 bp取互不重疊的窗, 計算每個窗中比對到參考基因組上的reads的起始位點的個數 (圖3A) , 再乘以與基因組中GC含量相關的比例系數, 作為每個窗的序列深度。依次計算每個窗中的測序深度, DNA片段上所有窗的測序深度總體應當近似服從泊松分布, 但如果出現缺失變異、重復變異等拷貝數變異, 則必然會引起連續的窗中的序列深度發生明顯的增加或降低的情況 (圖3B) 。

  圖2 PEM算法檢測SV的流程與特征Figure 2 The workflow and features of PEM algorithm for SVdetection
圖2 PEM算法檢測SV的流程與特征Figure 2 The workflow and features of PEM algorithm for SVdetection

  注:A:雙端測序過程, 將基因組DNA剪切成長度為3 kb左右的DNA片段, 在片段兩端用生物素標記后環化, 再將環化片段隨機剪切, 篩選出具有生物素標記的片段, 然后對篩選出的片段進行測序, 進而分析獲得DNA片段兩端成對reads的距離和方向信息;B:不同結構變異檢測時的不同特征, 假設原本DNA片段長度為3 kb, 兩端序列在比對到參考基因組上后, 若距離變為了2 kb, 則DNA片段中可能出現了插入變異;若距離變成了5 kb, 則可能出現了缺失變異;若一端的序列出現方向上的變化, 則可能出現倒位變異Note:A:The figure of progress of paired-end sequencing.The genome DNA was sheared to yield DNA fragments of 3 kb, and then the fragments were labeled by biotin at both ends and circularized.And the circularized fragments were randomly sheared and the biotinylated fragments were screened, then the selected fragments were sequenced, and the distance and direction information of the pair-end reads of the DNA fragments were obtained;B:The figure of various features when detecting different kinds of structural variations;Suppose that the length of the original DNA fragments is 3 kb.If the length becomes 2 kb after their paired-end reads are mapped to the reference genome, there might be insertions in the DNA fragment;if the length becomes 5 kb, there might be deletions;if one of the reads'direction changes, there might be inversions

  讀深方法是通過reads比對的統計信息檢測結構變異的方法, 其最早被用來解釋在癌癥細胞中發生的基因重組的現象 (Campbell et al., 2008) 。讀深方法在檢測基因組重復、缺失結構變異時的效果非常顯著, 且可以用來預測基因的拷貝數, 但其無法檢測其他類型的結構變異, 無法區分串聯重復和散在重復, 而且讀深方法無法獲得斷點的相關信息, 只能判斷片段中是否存在結構變異, 而不能判斷出結構變異的準確位置。

  圖3 EWT算法檢測SV的原理Figure 3 The principle of EWT algorithm for SV detection
圖3 EWT算法檢測SV的原理Figure 3 The principle of EWT algorithm for SV detection

  注:A:EWT算法計算測序深度過程;方框的長度為100 bp, 以此作為一個窗, 計算窗內reads的起始位點 (標記區域內) 個數, 作為這個窗的測序深度的計算標準;B:模擬的缺失變異樣本基因組的測序深度分布情況;在樣本157 224~157 238 kb的長度為14 kb的DNA片段上共構建了140個窗, 這些窗的測序深度的分布在正常情況下近似服從期望為70的泊松分布;在157 227~157 229 kb的區域內, 序列深度出現了連續且明顯的降低則可以判斷在這一區域內出現了缺失變異Note:A:The progress of calculating read-depth in EWT algorithm;The length of the box is 100 bp, it is called a window, the number of start points (the marked region) of the reads in this window is the standard of the read-depth;B:The distribution of read-depths of simulated sample genome with deletions;From the point 15 722 kb to the point 157 238 kb, the DNA fragment's length is 14kb;We built 140 windows, the distribution of the windows ought to obey the poisson distribution whose expectation is 70;In the region be tween 157 227 kb and 157 229 kb, the read-depth decreased obvi ously and continuously;It can be judged that here might be deletions in this region

  1.3、 分裂片段方法

  樣本基因組測序獲得的reads通常要比對到參考基因組上, 由于發生結構變異, 在某些reads的某個位置的左右兩側, 堿基對的坐標和方向與參考基因組不一致, 這個位置被稱為斷點 (Break point) 。分裂片段方法通過尋找結構變異樣本中含有斷點的reads上準確的斷點位置信息來檢測結構變異 (Alkan et al., 2011) (圖4A) 。分裂片段方法將樣本基因的各個reads比對到參考基因組上, 尋找無法比對的reads, 分別在無法比對的reads的特定堿基位置設置斷點, 按斷點分裂成兩小段reads, 再通過觀察兩個小段reads比對到參考基因組中的情況, 從而判斷結構變異情況。

  分裂片段方法以Pindel算法 (Ye et al., 2009) 、AGE算法 (Abyzov and Gerstein, 2011) 等為代表。以Pindel算法為例, 首先通過SSAHA2軟件將所的reads比對到參考基因組上, 尋找其中一端能比對到基因組上而另一端無法比對的reads, 再從可以比對的一端開始使用模式增長 (Pattern growth) 算法搜索最大-最小子串, 來尋找斷點的精確位置, 再將reads按斷點分裂成兩段, 將片段分別比對到基因組上, 來判斷結構變異的具體信息 (圖4B) 。

  分裂片段方法基于對reads的分段來檢測結構變異的斷點, 可以檢測單堿基分辨率的缺失變異和插入變異, 對有明確的斷點特征的結構變異具有很好的檢測效果, 當reads的長度大于插入片段的長度時, 分裂片段方法的拓展還可以用來檢測移動元素插入 (mobile-element insertions, MEI) (Mills et al., 2011) 。但仍有大量的結構變異不存在斷點特征, 無法通過分裂片段方法檢測, 且其在具有大量重復片段的區域檢測效果不佳。分裂片段方法最早是基于Sanger測序法開發的 (Mills et al., 2006) , 測序片段越長, 檢測效果越好, 二代測序數據讀長短的特點會嚴重影響分裂片段方法檢測的效果。

  1.4、 序列拼接方法

  序列拼接方法通過對樣本基因組的reads片段進行從頭拼接 (De novo assembly) , 重新組裝后解碼樣本基因組的序列, 再將其與參考基因組序列進行比對, 從而可以清楚地判斷是否存在結構變異以及結構變異類型 (Alkan et al., 2011) 。

  序列拼接的方法以ABy SS算法 (Simpson et al., 2009) 、Velvet算法 (Zerbino and Birney, 2008) 和SOA-Pdenovo算法 (Li et al., 2010) 等為代表。以ABy SS算法為例, 首先根據目標k值, 通過測序片段產生所有可能的長度為k的子串, 移除子串數據集讀取誤差, 再通過de Bruijn圖算法構建初始的重疊群 (Contigs) , 之后使用配對信息來消除Contigs的重疊模糊性, 拓展Contigs的范圍, 從而獲得最后的拼接結果 (圖5A) 。用拼接獲得的完整的樣本基因組片段與參考基因組片段進行比對時, 在未發生結構變異的區域比對完全一致, 在發生結構變異的區域比對則會出現差異 (圖5B) 。

  相對于前三種方法, 序列拼接方法采用了截然不同的非reads比對的思路。從理論上來說, 如果能夠拼接樣本基因組的全部序列, 則可以檢測出所有的SV與SNV, 但以測序長度為100 bp的Illumina測序儀為代表的第二代測序技術普遍讀長偏短, 使得拼接難度大大提升, 同時如果基因組上出現大量重復片段時, 會引發拼接算法的崩潰性錯誤 (Chaisson et al., 2015) 。如何提高測序片段長度并改進序列拼接的算法是序列拼接方法亟待解決的問題。

  圖4 使用分裂片段方法檢測SV原理Figure 4 The principle of Split-read method for SV detection
圖4 使用分裂片段方法檢測SV原理Figure 4 The principle of Split-read method for SV detection

  注:A:結構變異的斷點示意, 樣本基因組標記區域內為缺失變異區域, 在結構變異區域之外的reads可以正確比對到參考基因組上, 結構變異區域的reads無法正確比對到參考基因組上, 在結構變異區域的起始和終止位置的reads, 其標記之外的部分是可以正確比對的, 標記處的位置即為reads的斷點;B:不同結構變異檢測時的不同特征, 發生插入變異的DNA片段, 插入片段前后的reads在斷點處各有一部分可以比對到參考基因組上的相鄰位置;發生缺失變異的DNA片段, 缺失部分的reads按斷點可以分別比對到參考基因組前后不同位置Note:A:The figure of the break point of SV, the region inside the marked area is deletion region, the Reads out of the mark can be mapped to the reference genome correctly, and the Reads in the variation regions cannot be mapped to the reference genome;In the start and end regions, the part out of the mark can be correctly mapped, and the mark positions are the break points of the Reads;B;The figure of various features when detecting different kinds of structural variants.In the DNA fragments with insertions, the Reads before and after the insertion region can be partly mapped to the adjacent positions of the reference genome;in the DNA fragments with deletions, the reads can be partly mapped to dispersed positions in reference genome

  1.5、 當前結構變異檢測方法的特點及發展趨勢

  目前的測序技術以第二代測序技術為主, 第二代測序技術又稱為新一代測序技術, NGS技術的代表是Illumina公司的測序儀, 其每次產生的reads長度在100 bp左右, 重要特點是技術成熟、通量高、測序成本低、測序速度快, 是目前基因組測序的主要手段。借助NGS技術, 可以通過單次測序實驗發現不同類型的結構變異, 而且得益于NGS技術的高準確度, 可以準確檢測出基因組的拷貝數變化, 且具備了發現完整基因組變異的潛力。同時由于NGS技術高通量的特點, 提高了結構變異檢測效率并降低了其成本。但是, NGS技術存在讀長短的缺陷, 會制約讀對和分段方法的檢測效率, 且對序列拼接方法帶來極大困難。使用NGS數據檢測結構變異的靈敏度不高, 且大多局限于短片段的缺失變異和插入變異, 無法檢測大片段的復雜結構變異。

  圖5 序列拼接方法檢測SV原理Figure 5 The principle of Sequence assembly method for SV detection
圖5 序列拼接方法檢測SV原理Figure 5 The principle of Sequence assembly method for SV detection

  注:A:為序列拼接過程, 通過大量相互重疊的reads進行拼接, 可以獲得長度較長的Contigs, 再對Contigs進行拼接, 可以獲得長片段Scaffold;B部分為含有缺失變異的Scaffold與參考基因組比對示意圖, 非缺失部分的序列都可以正常比對到基因組上, 缺失部分則無法正常比對, 由此可以非常直觀地得到變異區域的具體信息Note:A:The figure of the progress of sequence assembly, The long Contigs can be achieved by assembling large number of overlapping reads, and the Scaffold can be achieved by assembling contigs;B:The figure of the result the Scaffold with deletions mapped to the reference genome;The normal part can be mapped to the reference genome correctly, but the deletion part cannot be mapped correctly;According to this, the specific information of the variant parts can be obtained directly

  在國際千人基因組計劃于2012年發布1 092個個體的結構變異檢測結果中, 所有樣本的數據均通過低覆蓋度NGS獲得, 包括6 x覆蓋度的全基因組測序 (whole-genome sequencing, WGS) 和全外顯子組測序 (whole-exome sequencing, WES) , 運用BreakDancer、CNVnator、Delly、Pindel、Genome STRiP (Handsaker et al., 2011) 等結構變異檢測算法, 檢測了14 000多個大片段的缺失變異以及小片段的串聯重復序列;而在2015年發布的結構變異檢測結果中, 除了使用了低覆蓋度的全基因組測序, 還加入了單分子實時測序、SNP微陣列等各種技術相結合的測序手段, 使用同樣的算法, 共檢測了68 000多個結構變異, 包括了缺失、重復、倒置、插入等不同類型的結構變異, 其中有48 000多個結構變異是從未發現的, 而且近一半的結構變異沒有明顯的斷點特征。

  對比來看, 由于測序技術的區別, 雖然采用相同的算法, 但兩次檢測結構變異的結果存在巨大差異。僅僅采用低覆蓋度的二代測序數據只能檢測出相對少量的SV, 且大多只局限于缺失變異。同時, 不同的結構變異被檢測出的程度也不盡相同, 據估計, 68%的倒位變異和35%的重復變異尚未被檢測出;相反, 80%的缺失變異已經被檢測。所以, 僅僅采用低覆蓋度的二代測序產生的數據來檢測結構變異已經逐漸無法滿足檢測的需求。

  對于如何提高結構變異的檢測水平, 可以從3個方面入手 (Huddleston and Eichler, 2016) 。 (1) 提高測序深度, 改進測序形式:NGS的測序深度至少要達到30 x, 而不是簡單的6×覆蓋度, 這樣才可以提高檢測結構變異的靈敏度。同時最好以家庭為單位來進行測序, 以了解表型特征的傳遞以及變異頻率等信息; (2) 提高測序長度, 完善序列拼接算法:使用單分子實時測序 (Single molecule real-time sequencing) 等長片段測序方法提高Reads長度, 隨著讀長增加, 序列拼接算法的效果會出現顯著提高, 序列拼接的難度也會顯著降低, 實現基因組的完全解碼成為可能; (3) 綜合使用檢測算法, 采用讀深方法、讀對方法、分裂片段方法和序列拼接方法相結合的結構變異檢測方法, 例如CNVer算法 (Medvedev et al., 2010) 、Genome STRiP算法等彌補單一方法的不足。

  2、 結構變異檢測前沿技術和新方法

  2.1、 基因組分析新技術

  近幾年來, 在基因組分析上出現了許多新技術, 這些技術都圍繞著獲取長片段的基因組測序序列的進行, 主要分為三類: (1) 直接獲取長片段的新測序技術, 即第三代測序技術; (2) 對NGS獲得的短片段進行處理獲取長片段的技術, 即連Link-reads技術; (3) 構建基因組物理圖譜輔助序列拼接的技術, 即光學圖譜技術。

  第三代測序技術以Pacific BioSciences公司的單分子實時測序 (single molecule real-time, SMRT) 技術 (Rhoads and Au, 2015) 為代表。SMRT技術通過熒光信號獲取序列信息, 其優點是讀長超長, 平均讀取長度可以達到16 kb左右, 在基因組組裝和結構變異檢測方面可以起突破性的作用。然而三代測序技術相較于二代測序技術錯誤率高, 準確率在85%左右, 雖然可以通過多次重復測序使測序準確率達到95%以上, 但成本也會成倍增加;測序通量低, 單次測序的通量是MB級別, 與NGS的通量差距巨大, 因此測序成本高, 無法大規模應用。

  Linked-reads技術 (Kitzman, 2016) 以10X Genomics公司的GemCode平臺為代表。GemCode平臺對基因組上同一區域內的DNA片段標記以相同的特殊堿基序列, 在通過Illumina平臺測序后, 連接相同特殊堿基序列標記的DNA片段, 產生一種新的數據類型:連接片段 (Linked-reads) , 從而可以以相對較低的成本來獲得長度達到10 kb以上的測序片段, 進而能更好地進行基因組組裝并提高結構變異檢測靈敏度。Gemcode的缺點在于其對樣本質量要求高, 需要制備大小不同的文庫, 且其測序基礎是基于Illumina測序的, 所以無法改善高GC或低GC含量時測序覆蓋效果較差的情況 (Ross et al., 2013) 。

  光學圖譜技術又被稱為新一代圖譜 (next-generational mapping, NGM) 技術, 以BioNano公司的Irys平臺為代表。Irys平臺通過酶切技術和熒光標記成像技術構建基因組的物理圖譜, 描繪DNA上可以識別的標記的位置 (包括限制性內切酶的酶切位點, 基因等) 和相互之間的距離, 構建基因組的宏觀框架, 依照框架可以使測序信息準確地回歸到染色體上, 從而提高序列拼接的長度和準確度, 解決在高度重復區域的基因組組裝和結構變異檢測問題。在基因組分析方面, 光學圖譜技術只是一項輔助技術, 但其能夠很好地還原DNA分子的真實信息, 輔助序列重新組裝, 并且能夠與第二、第三代測序技術完美兼容, 具有重要的應用價值。

  2.2、 融合長片段測序和物理圖譜的結構變異檢測方法

  隨著上述新技術的出現, 基因組測序的片段長度大大提高, 彌補了序列拼接方法的缺陷, 其檢測效果獲得了突破性地提高, 可以檢測大片段和復雜的結構變異。從最新的關于結構變異的相關報道來看, 以NGS短片段數據結合長片段測序數據, 輔助以基因組物理圖譜技術, 使用序列拼接方法檢測結構變異的流程大概分為兩個部分 (圖6) : (1) 對長測序片段進行序列拼接, 形成長度在MB級別的Contigs, NGS短片段補充細節, 將Bionano基因組圖譜與Contigs相結合, 構建大片段的Scaffolds, 與參考基因組比對, 檢測結構變異; (2) 以長片段數據為框架, 對NGS短片段數據進行序列拼接, 將拼接獲得的Contigs與參考基因組比對, 檢測結構變異;谝陨戏椒, 在結構變異的檢測上有了新的突破。

  2015年6月, Pacific Biosciences (PacBio) 公司給出了SMRT測序組裝人類基因組的成果 (Pendleton et al., 2015) , 選用的樣本是NA12878。其主要使用SMRT測序數據結合Bionano物理圖譜技術, 構建樣本基因組Scaffolds, 再使用NGS測序數據填補缺口, 使用序列拼接方法等進行結構變異檢測。使用SMRT測序數據拼接獲得的Contigs的N50長度可以達到900 kb以上, Scaffold的N50長度高達30 MB, 相對于NGS測序數據拼接的長度有了顯著提高。在檢測結構變異方面, 除了檢測出了各種小片段的結構變異, 以及類型為插入、缺失以及片段重復的90多個長度在6 kb以上的長片段SV, 更是通過基因組圖譜檢測出了長度在100~400 kb之間的8個大片段缺失變異與11個大片段插入變異。

  2016年12月, 10×Genomics公司給出了Linkedreads測序組裝人類基因組的結果 (Mostovoy et al., 2016) , 選用的樣本同樣是NA12878。其首先對NGS數據使用SOAP de novo算法進行拼接, 再結合10×Genomics的Gemcode平臺產生的連接讀取數據, 形成大片段的scaffold, 最后再與Bionano物理圖譜相結合, 產生最后的序列拼接結果, 與參考基因組進行比對, 檢測結構變異。最終綜合各種方法拼接的scaffold的N50長度同樣可以達到與SMRT技術相同的30 MB以上。在檢測結構變異方面, 該實驗同樣檢測出了各種小片段的插入、刪除變異, 同時還給出了200個大片段的重復變異的具體分布情況。

  2016年韓國國立首爾大學醫學院給出的AK1基因組的相關分析中, 綜合PacBio長讀長測序, Illumina短讀長測序, 10×Genomics連接片段, BioNano Genomics光學圖譜以及細菌人工染色體 (BAC) 等方法, 對AK1基因組進行從頭組裝和基因組分析, 在亞洲人的基因組結構變異檢測方面取得了大量進展。其首先使用Illumina短讀長測序數據, 結合10×G的Gemcode與BAC產生的數據, 進行序列拼接, 檢測結構變異;再使用PacBio長讀長測序數據進行序列拼接, 結合Bionano物理圖譜技術, 構建Scaffold, 檢測長片段結構變異。通過PacBio測序數據拼接獲得的Contigs的N50長度可以達到17.7 MB, 而最終綜合拼接獲得的Scaffold的N50長度達到了44.8 MB。在檢測結構變異方面共鑒定到了18 210個大片段的結構變異, 包含7 358個缺失, 10 077個插入, 71個倒置和704個復雜變異, 其中47%的缺失變異與76%的插入變異等都是未曾報道過的。

  圖6 融合NGS, 長片段測序與物理圖譜的結構變異檢測方法流程Figure 6 The workflow of SV detection combined NGS, long reads sequencing and physical maps
圖6 融合NGS, 長片段測序與物理圖譜的結構變異檢測方法流程Figure 6 The workflow of SV detection combined NGS, long reads sequencing and physical maps

  3、 總結與思考

  隨著測序技術的迅猛發展以及基因組分析技術的不斷進步, 人們對人類基因組的結構變異逐步有了詳細與系統的認識;跍y序技術的讀深、讀對、分裂片段、序列拼接方法為結構變異的檢測提供了高效準確的方法, 開拓了實驗與計算機數據處理相結合檢測結構變異的新模式, 即使各項技術不斷進步, 依然在圍繞著這些方法展開。

  隨著新技術的發展, 測序片段的長度不斷增加, 檢測結構變異的準確度和靈敏度也在不斷提高, 而從最新的一些報道來看, 無一例外的都選擇了序列拼接方法主導的檢測方法。一方面, 雖然四種基本方法在基于短片段的結構變異檢測上都有各自不可替代的優勢, 但序列拼接方法通過解碼基因組序列, 能夠更加直觀、直接地檢測所有類型的結構變異, 并可以精準判斷出不同長度、不同類型的結構變異的具體位置。隨著測序片段長度達到10 kb甚至更長后, 序列拼接方法的準確性大大提高, 準確拼接長片段的技術難度也隨之降低。另一方面, 隨著序列拼接方法逐漸成為結構變異的主流檢測方法, 對序列拼接方法相關算法的研究也在不斷深入, 更多高效高準確率的算法在不斷提出, 序列拼接方法在不斷彰顯其蓬勃的生命力。

  作者貢獻

  楊金晶負責論文的整體框架設計, 文獻資料總結以及文稿寫作, 李成負責文獻資料補充和綜述文稿的修改, 孫嘯是論文的指導者及負責人, 指導論文架構設計, 論文寫作與修改。全體作者都閱讀并同意最終的文本。

  參考文獻

  []Abyzov A., and Gerstein M., 2011, AGE:defining breakpoints of genomic structural variants at single-nucleotide resolution, through optimal alignments with gap excision, Bioinformatics, 27 (5) :595-603
  []Abyzov A., Urban A.E., Snyder M., and Gerstein M., 2011, CN-Vnator:an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing, Genome Research, 21 (6) :974-984
  []Alkan C., Coe B.P., and Eichler E.E., 2011, Genome structural variation discovery and genotyping, Nature Reviews Genetics, 12 (5) :363-376
  []Campbell P.J., Stephens P.J., Pleasance E.D., O'Meara S., Li H., Santarius T., Stebbings L.A., Leroy C., Edkins S., Hardy C., Teague J.W., Menzies A., Goodhead I., Turner D.J., Clee C.M., Quail M.A., Cox A., Brown C., Durbin R., Hurles M.E., Edwards P.A.W., Bignell G.R., Stratton M.R., and Futreal P.A., 2008, Identification of somatically acquired rearrangements in cancer using genome-wide massively parallel pairedend sequencing, Nature Genetics, 40 (6) :722-729
  []Chaisson M.J., Wilson R.K., and Eichler E.E., 2015, Genetic variation and the de novo assembly of human genomes, Nature Reviews Genetics, 16 (11) :627-640
  []Check E., 2005, Human genome:patchwork people, Nature, 437 (7062) :1084-1086
  []Chen K., Wallis J.W., McLellan M.D., Larson D.E., Kalicki J.M., Pohl C.S., McGrath S.D., Wendl M.C., Zhang Q., Locke D.P., Shi X., Fulton R.S., Ley T.J., Wilson R.K., Ding L., and Mardis E.R., 2009, Break dancer:an algorithm for high-resolution mapping of genomic structural variation, Nature Methods, 6 (9) :677-681
  []Cheng C., Zhou Y., Li H., Xiong T., Li S., Bi Y., Kong P., Wang F., Cui H., Li Y., Fang X., Yan T., Li Y., Wang J., Yang B., Zhang L., Jia Z., Song B., Hu X., Yang J., Qiu H., Zhang G., Liu J., Xu E., Shi R., Zhang Y., Liu H., He C., Zhao Z., Qian Y., Rong R., Han Z., Zhang Y., Luo W., Wang, J., Peng S., Yang X., Li X., Li L., Fang H., Liu X., Ma L., Chen Y., Guo S., Chen X., Xi Y., Li G., Liang J., Yang X., Guo J., Jia J., Li Q., Cheng X., Zhan Q., and Cui Y., 2016, Whole-genome sequencing reveals diverse models of structural variations in esophageal squamous cell carcinoma, American Journal of Human Genetics, 98 (2) :256-274
  []Cooper G.M., Nickerson D.A., and Eichler E.E., 2007, Mutational and selective effects on copy-number variants in the human genome, Nature Genetics, 39 (7S) :22-29
  []Falchi M., El-Sayed Moustafa J.S., Takousis P., Pesce F., Bonnefond A., Andersson-Assarsson J.C., Sudmant P.H., Dorajoo R., Al-Shafai M.N., Bottolo L., Ozdemir E., So H.C., Davies R.W., Patrice A., Dent R., Mangino M., Hysi P.G., Dechaume A., Huyvaert M., Skinner J., Pigeyre M., Caiazzo R., Raverdy V., Vaillant E., Field S., Balkau B., Marre M., Visvikis-Siest S., Weill J., Poulain-Godefroy O., Jacobson P., Sjostrom L., Hammond C.J., Deloukas P., Sham P.C., McPherson R., Lee J., Tai E.S., Sladek R., Carlsson L.M., Walley A., Eichler E.E., Pattou F., Spector T.D., and Froguel P., 2014, Low copy number of the salivary amylase gene predisposes to obesity, Nature Genetics, 46 (5) :492-497
  []Feuk L., Carson A.R., and Scherer S.W., 2006, Structural variation in the human genome, Nature Reviews, Genetics, 7 (2) :85-97
  []Genomes Project C., Abecasis G.R., Auton A., Brooks L.D., DePristo M.A., Durbin R.M., Handsaker R.E., Kang H.M., Marth G.T., and McVean G.A., 2012, An integrated map of genetic variation from 1 092 human genomes, Nature, 491 (7422) :56-65
  []George J., Lim J.S., Jang S.J., Cun Y., Ozretic L., Kong G., Leenders F., Lu X., Fernandez-Cuesta L., Bosco G., Muller C., Dahmen I., Jahchan N.S., Park K.S., Yang D., Karnezis A.N., Vaka D., Torres A., Wang M.S., Korbel J.O., Menon R., Chun S.M., Kim D., Wilkerson M., Hayes N., Engelmann D., Putzer B., Bos M., Michels S., Vlasic I., Seidel D., Pinther B., Schaub P., Becker C., Altmuller J., Yokota J., Kohno T., I-wakawa R., Tsuta K., Noguchi M., Muley T., Hoffmann H., Schnabel P.A., Petersen I., Chen Y., Soltermann A., Tischler V., Choi C.M., Kim Y.H., Massion P.P., Zou Y., Jovanovic D., Kontic M., Wright G.M., Russell P.A., Solomon B., Koch I., Lindner M., Muscarella L.A., la Torre A., Field J.K., Jakopovic M., Knezevic J., Castanos-Velez E., Roz L., Pastorino U., Brustugun O.T., Lund-Iversen M., Thunnissen E., Kohler J., Schuler M., Botling J., Sandelin M., Sanchez-Cespedes M., Salvesen H.B., Achter V., Lang U., Bogus M., Schneider P.M., Zander T., Ansen S., Hallek M., Wolf J., Vingron M., Yatabe Y., Travis W.D., Nurnberg P., Reinhardt C., Perner S., Heukamp L., Buttner R., Haas S.A., Brambilla E., Peifer M., Sage J., and Thomas R.K., 2015, Comprehensive genomic profiles of small cell lung cancer, Nature, 524 (7563) :47-53
  []Gonzalez E., Kulkarni H., Bolivar H., Mangano A., Sanchez R., Catano G., Nibbs R.J., Freedma B.I., Quinones M.P., Bam shad M.J., Murthy K.K., Rovin B.H., Bradley W., Clark R.A., Anderson S.A., O'Connell R.J., Agan B.K., Ahuja S.S., Bologna R., Sen L., Dolan M.J., and Ahuja S.K., 2005, The influence of CCL3L1 gene-containing segmental duplications on HIV-1/AIDS susceptibility, Science, 307 (5714) :1434-1440
  []Handsaker R.E., Korn J.M., Nemesh J., and Mc Carroll S.A., 2011, Discovery and genotyping of genome structural polymorphism by sequencing on a population scale, Nature Genetics, 43 (3) :269-276
  []Huddleston J., and Eichler E.E., 2016, An incomplete understanding of human genetic variation, Genetics, 202 (4) :1251-1254
  []Hurles M.E., Dermitzakis E.T., and Tyler-Smith C., 2008, The functional impact of structural variation in humans, Trends in Genetics Tig, 24 (5) :238-245
  []Iafrate A.J., Feuk L., Rivera M.N., Listewnik M.L., Donahoe P.K., Qi Y., Scherer S.W., and Lee C., 2004, Detection of largescale variation in the human genome, Nature Genetics, 36 (9) :949-951
  []Kitzman J.O., 2016, Haplotypes drop by drop, Nature Biotechnology, 34 (3) :296-298
  []Koolen D.A., Vissers L.E., Pfundt R., de Leeuw N., Knight S.J., Regan R., Kooy R.F., Reyniers E., Romano C., Fichera M., Schinzel A., Baumer A., Anderlid B.M., Schoumans J., Knoers N.V., van Kessel A.G., Sistermans E.A., Veltman J.A., Brunner H.G., and de Vries B.B., 2006, A new chromosome 17q21.31 microdeletion syndrome associated with a common inversion polymorphism, Nature Genetics, 38 (9) :999-1001
  []Korbel J.O., Urban A.E., Affourtit J.P., Godwin B., Grubert F., Simons J.F., Kim P.M., Palejev D., Carriero N.J., Du L., Taillon B.E., Chen Z., Tanzer A., Saunders A.C., Chi J., Yang F., Carter N.P., Hurles M.E., Weissman S.M., Harkins T.T., Gerstein M.B., Egholm M., and Snyder M., 2007, Paired-end mapping reveals extensive structural variation in the human genome, Science, 318 (5849) :420-426
  []Li R., Zhu H., Ruan J., Qian W., Fang X., Shi Z., Li Y., Li S., Shan G., Kristiansen K., Li S., Yang H., Wang J., and Wang J., 2010, De novo assembly of human genomes with massively parallel short read sequencing, Genome Research, 20 (2) :265-272
  []Lupski J.R., 2015, Structural variation mutagenesis of the human genome:Impact on disease and evolution, Environmental and Molecular Mutagenesis, 56 (5) :419-436
  []Mostovoy Y., Levy-Sakin M., Lam J., Lam E.T., Hastie A.R., Marks P., Lee J., Chu C., Lin C., Dzakula Z., Cao H., Schlebusch S.A., Giorda K., Schnall-Levin M., Wall J.D., and Kwok P.Y., 2016, A hybrid approach for de novo human genome sequence assembly and phasing, Nature Methods, 13 (7) :587-590
  []Medvedev P., Fiume M., Dzamba M., Smith T., and Brudno M., 2010, Detecting copy number variation with mated short reads, Genome Research, 20 (11) :1613-1622
  []Medvedev P., Stanciu M., and Brudno M., 2009, Computational methods for discovering structural variation with next-generation sequencing, Nature Methods, 6 (11 Suppl) :S13-S20
  []Mills R.E., Luttig C.T., Larkins C.E., Beauchamp A., Tsui C., Pittard W.S., and Devine S.E., 2006, An initial map of insertion and deletion (INDEL) variation in the human genome, Genome Research, 16 (9) :1182-1190
  []Mills R.E., Walter K., Stewart C., Handsaker R.E., Chen K., Alkan C., Abyzov A., Yoon S.C., Ye K., Cheetham R.K., Chinwalla A., Conrad D.F., Fu Y., Grubert F., Hajirasouliha I., Hormozdiari F., Iakoucheva L.M., Iqbal Z., Kang S., Kidd J.M., Konkel M.K., Korn J., Khurana E., Kural D., Lam H.Y., Leng J., Li R., Li Y., Lin C.Y., Luo R., Mu X.J., Nemesh J., Peckham H.E., Rausch T., Scally A., Shi X., Stromberg M.P., Stutz A.M., Urban A.E., Walker J.A., Wu J., Zhang Y., Zhang Z.D., Batzer M.A., Ding L., Marth G.T., McVean G., Sebat J., Snyder M., Wang J., Ye K., Eichler E.E., Gerstein M.B., Hurles M.E., Lee C., McCarroll S.A., Korbel J.O., and Genomes P., 2011, Mapping copy number variation by population-scale genome sequencing, Nature, 470 (7332) :59-65
  []Pendleton M., Sebra R., Pang A.W., Ummat A., Franzen O., Rausch T., Stutz A.M., Stedman W., Anantharaman T., Hastie A., Dai H., Fritz M.H., Cao H., Cohain A., Deikus G., Durrett R.E., Blanchard S.C., Altman R., Chin C.S., Guo Y., Paxinos E.E., Korbel J.O., Darnell R.B., McCombie W.R., Kwok P.Y., Mason C.E., Schadt E.E., and Bashir A., 2015, Assembly and diploid architecture of an individual human genome via single-molecule technologies, Nature Methods, 12 (8) :780-786
  []Pugh T.J., Morozova O., Attiyeh E.F., Asgharzadeh S., Wei J.S., Auclair D., Carter S.L., Cibulskis K., Hanna M., Kiezun A., Kim J., Lawrence M.S., Lichenstein L., McKenna A., Pedamallu C.S., Ramos A.H., Shefler E., Sivachenko A., Sougnez C., Stewart C., Ally A., Birol I., Chiu R., Corbett R.D., Hirst M., Jackman S.D., Kamoh B., Khodabakshi A.H., Krzywinski M., Lo A., Moore R.A., Mungall K.L., Qian J., Tam A., Thiessen N., Zhao Y., Cole K.A., Diamond M., Diskin S.J., Mosse Y.P., Wood A.C., Ji L., Sposto R., Badgett T., London W.B., Moyer Y., Gastier-Foster J.M., Smith M.A., Guidry Auvil J.M., Gerhard D.S., Hogarty M.D., Jones S.J., Lander E.S., Gabriel S.B., Getz G., Seeger R.C., Khan J., Marra M.A., Meyerson M., and Maris J.M., 2013, The genetic landscape of high-risk neuroblastoma, Nature Genetics, 45 (3) :279-284
  []Quinlan A.R., Clark R.A., Sokolova S., Leibowitz M.L., Zhang Y., Hurles M.E., Mell J.C., and Hall I.M., 2010, Genome-wide mapping and assembly of structural variant breakpoints in the mouse genome, Genome Research, 20 (5) :623-635
  []Rhoads A., and Au K.F., 2015, PacBio sequencing and its applications, Genomics, Proteomics and Bioinformatics, 13 (5) :278-289
  []Ross M.G., Russ C., Costello M., Hollinger A., Lennon N.J., Hegarty R., Nusbaum C., and Jaffe D.B., 2013, Characterizing and measuring bias in sequence data, Genome Biology, 14 (5) :R51
  []Seo J.S., Rhie A., Kim J., Lee S., Sohn M.H., Kim C.U., Hastie A., Cao H., Yun J.Y., Kim J., Kuk J., Park G.H., Kim J., Ryu H., Kim J., Roh M., Baek J., Hunkapiller M.W., Korlach J., Shin J.Y., and Kim C., 2016, De novo assembly and phasing of a Korean human genome, Nature, 538 (7624) :243-247
  []Simpson J.T., Wong K., Jackman S.D., Schein J.E., Jones S.J., and Birol I., 2009, ABy SS:a parallel assembler for short read sequence data, Genome Research, 19 (6) :1117-1123
  []Sperling K., and Wiesner R., 1972, Rapid banding technique for routine use in human and comparative cytogenetics, Humangenetik, 15 (4) :349
  []Sudmant P.H., Rausch T., Gardner E.J., Handsaker R.E., Abyzov A., Huddleston J., Zhang Y., Ye K., Jun G., Fritz M.H., Konkel M.K., Malhotra A., Stutz A.M., Shi X., Casale F.P., Chen J., Hormozdiari F., Dayama G., Chen K., Malig M., Chaisson M.J.P., Walter K., Meiers S., Kashin S., Garrison E., Auton A., Lam H.Y.K., Mu X.J., Alkan C., Antaki D., Bae T., Cerveira E., Chines P., Chong Z., Clarke L., Dal E., Ding L., Emery S., Fan X., Gujral M., Kahveci F., Kidd J.M., Kong Y., Lameijer E.W., McCarthy S., Flicek P., Gibbs R.A., Marth G., Mason C.E., Menelaou A., Muzny D.M., Nelson B.J., Noor A., Parrish N.F., Pendleton M., Quitadamo A., Raeder B., Schadt E.E., Romanovitch M., Schlattl A., Sebra R., Shabalin A.A., Untergasser A., Walker J.A., Wang M., Yu F., Zhang C., Zhang J., Zheng-Bradley X., Zhou W., Zichner T., Sebat J., Batzer M.A., McCarroll S.A., Genomes Project C., Mills R.E., Gerstein M.B., Bashir A., Stegle O., Devine S.E., Lee C., Eichler E.E., and Korbel J.O., 2015, An integrated map of structural variation in 2 504 human genomes, Nature, 526 (7571) :75-81
  []Volik S., Zhao S., Chin K., Brebner J.H., Herndon D.R., Tao Q., Kowbel D., Huang G., Lapuk A., Kuo W.L., Magrane G., De Jong P., Gray J.W., and Collins C., 2003, End-sequence profiling:sequence-based analysis of aberrant genomes, Proceedings of the National Academy of Sciences of the U-nited States of America, 100 (13) :7696-7701
  []Wang J., Yang Y., Guo S., Chen Y., Yang C., Ji H., Song X., Zhang F., Jiang Z., Ma Y., Li Y., Du A., Jin L., Reveille J.D., Zou H., and Zhou X., 2013, Association between copy number variations of HLA-DQA1 and ankylosing spondylitis in the Chinese Han population, Genes and Immunity, 14 (8) :500-503
  []Weiss L.A., Shen Y.P., Korn J.M., Arking D.E., Miller D.T., Fossdal R., Saemundsen E., Stefansson H., Ferreira M.A.R., Green T., Platt O.S., Ruderfer D.M., Walsh C.A., Altshuler D., Chakravarti A., Tanzi R.E., Stefansson K., Santangelo S.L., Gusella J.F., Sklar P., Wu B., Daly M.J., and Consortium A., 2008, Association between microdeletion and microduplication at 16p11.2 and autism, New England Journal of Medicine, 358 (7) :667-675
  []Yang T.L., Chen X.D., Guo Y., Lei S.F., Wang J.T., Zhou Q., Pan F., Chen Y., Zhang Z.X., Dong S.S., Xu X.H., Yan H., Liu X., Qiu C., Zhu X.Z., Chen T., Li M., Zhang H., Zhang L., Drees B.M., Hamilton J.J., Papasian C.J., Recker R.R., Song X.P., Cheng J., and Deng H.W., 2008, Genome-wide copy-number-variation study identified a susceptibility gene, UGT2B17, for osteoporosis, American Journal of Human Genetics, 83 (6) :663-674
  []Yang Y., Chung E.K., Wu Y.L., Savelli S.L., Nagaraja H.N., Zhou B., Hebert M., Jones K.N., Shu Y.L., Kitzmiller K., Blanchong C.A., McBride K.L., Higgins G.C., Rennebohm R.M., Rice R.R., Hackshaw K.V., Roubey R.A.S., Grossman J.M., Tsao B.P., Birmingham D.J., Rovin B.H., Hebert L.A., and Yu C.Y., 2007, Gene copy-number variation and associated polymorphisms of complement component C4 in human systemic lupus erythematosus (SLE) :Low copy number is a risk factor for and high copy number is a protective factor against SLE susceptibility in European Americans, American Journal of Human Genetics, 80 (6) :1037-1054
  []Ye K., Schulz M.H., Long Q., Apweiler R., and Ning Z., 2009, Pindel:a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads, Bioinformatics, 25 (21) :2865-2871
  []Yoon S., Xuan Z., Makarov V., Ye K., and Sebat J., 2009, Sensitive and accurate detection of copy number variants using read depth of coverage, Genome Research, 19 (9) :1586-1592
  []Zerbino D.R., and Birney E., 2008, Velvet:algorithms for de novo short read assembly using de Bruijn graphs, Genome Research, 18 (5) :821-829

    楊金晶,李成,孫嘯.人類基因組結構變異檢測方法[J].基因組學與應用生物學,2019,38(03):1048-1057.
      相關內容推薦
    相近分類:
    • 成都網絡警察報警平臺
    • 公共信息安全網絡監察
    • 經營性網站備案信息
    • 不良信息舉報中心
    • 中國文明網傳播文明
    • 學術堂_誠信網站
    顶呱刮中奖彩票