煙草在線據云南煙葉信息網報道 以全基因組測序為目標,解析基因組結構、注釋基因及基因定位的基因組學的一個分支。
煙草結構基因組學研究包括絨毛狀煙草、林煙草、栽培煙草全基因組序列精細圖的繪制,栽培煙草物理圖譜、煙草高密度遺傳圖譜的構建以及煙草單體型圖的繪制。
2013年12月,繼2011年繪制完成絨毛狀煙草和林煙草全基因組序列圖譜之后,煙草行業經過兩年艱苦攻關,成功繪制完成了以紅花大金元為樣本的世界首張栽培煙草全基因組序列圖譜、物理圖譜以及絨毛狀煙草和林煙草的物理圖譜。
同月,作為煙草基因組計劃重大專項數據存儲、管理、分析中心的中國煙草基因組數據庫(2.0版)正式上線運行,在安全存儲重大專項產生的數據、搭建煙草生物信息學分析和高性能計算平臺、開展煙草基因組等數據的生物信息學分析等方面邁出了重要一步,為行業煙草基因研究提供了更為有力的數據和平臺支撐,有效推動了重大專項各個研究方向的成果產出。
一個月內,兩項成就,標志著煙草基因組計劃重大專項結構基因組學全面完成了預定研究目標。
這是全球煙草生命科學領域從未達到的一個高度。圖譜是如何繪制的?數據庫是如何搭建的?經歷了什么樣的過程?解答了什么樣的疑惑?未來之路將如何走?日前,記者帶著這些疑問,來到國家煙草基因研究中心求解這一系列“攀登之舉”。
基因序列的“信息大字典”
基因組圖譜是一種展示生物全基因組結構的圖譜,包括測定核酸序列建立的核苷酸序列圖譜和按距離繪出基因位置分布的物理圖譜。
一個物種基因組序列圖譜的完成,意味著這個物種學科和產業的新開端,這也將帶動這個物種下游一系列研究的開展。國家煙草基因研究中心(以下簡稱“基因中心”)學科帶頭人楊軍告訴記者,基因圖譜好比是一本詮釋基因序列的“信息大字典”,能夠為后續研究人員提供參考。
事實上,這本“字典”的“編纂”過程并不容易。從2007年的起步論證,到2010年成立基因中心,再到2012年、2013年祖先種圖譜、栽培種圖譜分別繪制成功,中國煙草一路“破題”。
難題一:基因組的復雜性
煙草基因組容量大、重復序列含量高、結構復雜,導致基因組圖譜繪制難度巨大。
要繪圖,先測序。一方面,煙草基因組擁有4.5GB的容量,是人類的1.5倍、水稻的10倍。另一方面,栽培煙草是由絨毛狀煙草、林煙草兩種不同的祖先種雜交而成的異源四倍體,即“父親”和“母親”不是同一物種,其基因是由兩套基因組構成的。基因中心煙草生物信息學實驗室學科帶頭人曹培健博士說,由于多倍體基因組的復雜性,在2011年研究啟動之時,國際上沒有任何機構繪制完成過多倍體基因組圖譜。
據了解,國際同行2007年嘗試過煙草基因組的測序,在預測其難度后,放棄了測序完整基因組的思路,只在基因富集區進行測序。曹培健介紹,國外煙草公司測序的容量不足400M,不到煙草全基因序列的10%,可用性不強。僅僅獲得占基因組比例不到10%的基因序列顯然遠遠不夠,關注其他非基因序列同樣重要,例如非編碼的RNA(核糖核酸)同樣會影響到煙葉形態的形狀和大小發育。“一個個基因就像一個個珍珠,而非編碼基因序列則串聯起珍珠,起到穿針引線的作用,形成基因組完整的項鏈。”曹博士形象地打了個比方。
面對如此復雜的基因組,煙草基因組測序的攻關難度是史無前例的。
科研攻關,要講究智慧。
基因測序,最好的方法就是利用全基因組從頭測序技術,它可以獲得動物、植物、細菌、真菌的全基因組序列。“當時的技術條件還達不到對栽培煙草的直接測序。”曹培健說,相對于異源四倍體的復雜,兩個祖先種的測序繪制工作相對比較成熟,國內外對這一領域的研究有大量經驗可以借鑒。
既然異源四倍體存在直接測序的難度,中國煙草在多方論證的基礎上,決定先單獨測序兩個祖先種的基因組,再測栽培種。
2011年12月,絨毛狀煙草和林煙草全基因組序列圖譜就這樣首次進入國際視野,為栽培煙草基因組測序繪制圖譜奠定了基礎。
難題二:測序量的龐大性
龐大的測序量成為整體工作推進的最大難關。“完成這項工作,既要有一流的技術力量,還要有合適的測序方法,以保證測序結構的準確和效率。”楊軍介紹說,基因中心自身有不足之處,需要充分借助外力。
2011年,在行業的統一組織和首席科學家的系統推進下,通過系統整合煙草行業各科研單位的技術力量,并借助于行業的相關科技資源,基因測序工作穩步推進。
中國的基因研究起步較早,很多機構參與過動植物基因組計劃,他們的經驗對煙草基因組計劃具有很強的借鑒意義。據介紹,在行業和鄭州煙草研究院的積極協調下,基因中心先后同具有世界領先測序能力及生物信息分析能力的專業機構合作,借鑒人類基因組計劃、水稻基因組計劃、家蠶基因組計劃等項目經驗,研究解決煙草基因組序列圖譜繪制的具體技術和方法。
在內外的通力協作下,2011年4月,行業科研單位和相關專業機構共同確定使用“WGS(鳥槍法)”和“BAC(細菌人工染色體)”進行煙草基因組測序。
煙草基因組含有45億對堿基,現有的技術,最高只能連續測1000多對堿基,無法一次性測序整個基因組。“WGS直接把基因組全部打散成小片段(比如500bp、800bp)的文庫(分類),然后對其兩端進行100bp(堿基對簡稱bp)長度的測序,測序后通過生物信息學方法尋找互相覆蓋的部分進行連接,從而得到整個序列結果。”曹培健介紹說,WGS的特點是繞過直接測序整個基因組的難關,采用從小到大堆積木的方式。用這種方法,建立的文庫越多,內容越豐富,繪制出的基因圖譜質量越高。
BAC建庫的方法不同于WGS,是在更大尺度上構建測序文庫,可以提高基因組序列裝配的質量,并且構建的文庫可以長期保存,用于后續的基因克隆等研究。
2011年12月,在相關專業機構近百臺HiSeq2000高通量測序儀二十四小時不間斷工作五個月之后,祖先種基因測序工作順利完成,并成功完成排列組合。
2013年10月,在完成對祖先種煙草基因圖譜的質量評估后,以紅花大金元為樣本的栽培煙草測序和圖譜繪制工作也宣告完成。
“如同建一座大廈,地基關系到建筑的穩定性,結構基因組學就是煙草基因組學重大專項的‘地基’。”曹培健告訴記者,如今,共計六套圖譜的繪制為功能基因組學的研究打下了堅實基礎。
基因數據的“網絡圖書館”
煙草基因組計劃重大專項實施過程中產生了大量有價值的數據資料,各參與單位間需要一個平臺,共享、管理和分析這些數據,以支撐應用領域的研究。
2011年,根據煙草基因組計劃重大專項部署,煙草生物信息學平臺被定位為煙草基因組計劃重大專項的數據存儲、管理、分析中心,基因中心通過構建中國煙草基因組數據庫,安全存儲重大專項產生的數據,搭建煙草生物信息學分析和高性能計算平臺,開展煙草基因組等數據的生物信息學分析,為煙草基因研究提供數據和平臺支撐。
如果說煙草全基因組序列圖譜好比是一本“基因信息大辭典”,那么基因數據庫就好像是囊括煙草全基因組序列圖譜等多本“工具書”的“網絡圖書館”。
亮點一:高效高速的數據分析能力
“全基因組序列圖譜繪制是整個基因組學研究的數據基礎,數據庫是工具基礎。”曹培健說,數據分析和利用是中國煙草基因數據庫建設的核心。
2011年6月,基因中心成立后第一次公開招標,就率先采購了一批計算機和服務器,成功搭建了行業內首個用于煙草基因組數據分析的高性能計算平臺。平臺的存儲和備份系統達到128TB,峰值計算能力達到3萬億次/秒,運算能力在行業內的科研計算系統中位居前列。
數據硬件邊建設、邊利用,數據分析產出一批、挖掘一批、利用一批。隨著絨毛狀煙草、林煙草基因組序列圖譜的繪制成功,栽培煙草全基因序列圖譜繪制的開始,各類數據迅速進入數據庫。2012年3月15日,中國煙草基因組數據庫(1.0版)正式面向行業開放運行;2013年12月18日,升級后的2.0版上線運行。數據庫首次覆蓋了煙草全基因組序列圖譜,整合了轉錄組、代謝組、重測序、芯片、遺傳圖譜等其他組學數據,是國際上覆蓋煙草基因組數據最全面的數據庫。
亮點二:全面細致的基礎服務能力
數據庫面向行業開放運行,截至目前,注冊用戶達200余人,累計訪問量6萬余次,基礎服務能力得到有效發揮,很好地支撐了行業其他科研單位的技術人員開展更高層面上的煙草基因功能研究。
鄭州煙草研究院的生物信息學研究團隊,有效發揮數據庫的基礎服務能力,與重大專項其他項目協同攻關,推動了各個研究方向上的成果產出。
在代謝組學領域,他們開發了代謝樣品采集管理系統、構建了煙草基礎代謝網絡;在重測序領域,提供了數據分析所需的計算和存儲資源;在功能基因組學領域,提供了多個煙草重要基因的序列分析、表達分析等服務。
亮點三:基礎研究不斷取得突破
基于已經完成的基因組序列,研究團隊首次在全基因組水平上系統地對絨毛狀煙草、林煙草、栽培煙草中的六類重要基因,包括抗病、抗逆、煙堿合成、香氣物質合成、轉錄因子、轉運蛋白進行了生物信息學分析,完成《煙草基因組》一書初稿。這將是國際范圍內煙草基因組學研究領域的第一本專著。
研究團隊還利用比較基因組學研究手段,全面比較分析了煙草與番茄、土豆等其它茄科植物的重復序列組成和共線性關系,首次在基因
2025中國雪茄(四川)博覽會暨第七屆“中國雪茄之都”全球推介之旅