genomic是什么意思,genomic中文翻譯,genomic發(fā)音、用法及例句
?genomic
genomic發(fā)音
英:[d?i:'???m?k] 美:[d?i:'?o?m?k]
英: 美:
genomic中文意思翻譯
adj. 基因組的;染色體組的
從RefSeq數(shù)據(jù)庫(kù)批量微生物基因組
在微生物基因組研究的探索中,RefSeq數(shù)據(jù)庫(kù)無疑是一把金鑰匙。它儲(chǔ)存了海量高質(zhì)量的基因組,并且NCBI的專有注解工具對(duì)其進(jìn)行了詳盡的標(biāo)注,為科研人員提供了寶貴的資源。但你是否曾有過這樣的念頭:能否一次性下載整個(gè)數(shù)據(jù)庫(kù),來滿足大規(guī)模研究的需求?答案是肯定的,讓我們深入了解如何高效地實(shí)現(xiàn)這一目標(biāo)。
數(shù)據(jù)庫(kù)規(guī)模與數(shù)據(jù)量
截至今日,RefSeq數(shù)據(jù)庫(kù)已收錄超過20萬個(gè)基因組,若全部是微生物樣本,按照每個(gè)基因組平均5MB的容量計(jì)算,這將是一個(gè)驚人的1TB數(shù)據(jù)量。壓縮后,存儲(chǔ)需求將大大降低,足以容納在本地硬盤。當(dāng)然,我們可能更關(guān)注特定物種的基因組或根據(jù)ID下載特定集合,這就是批量下載的靈活性所在。
下載方法揭秘
雖然常規(guī)的搜索下載方式適合單個(gè)基因組,但面對(duì)大批量下載,NCBI的FTP服務(wù)器隱藏著更便捷的通道。我發(fā)現(xiàn)兩種實(shí)用的下載策略:
方法一:自動(dòng)化工具
GitHub上的NCBI-genome-download項(xiàng)目是第一個(gè)選擇。這是一個(gè)Python腳本,通過物種名或taxid等參數(shù),可高效下載指定物種的所有基因組。使用詳情請(qǐng)參考其README文檔,這里不再贅述。
方法二:直接抓取FTP信息
更為靈活的方法來自NCBI FTP FAQ頁(yè)面,那里有兩個(gè)關(guān)鍵文件:一個(gè)包含了所有基因組的詳細(xì)信息,另一個(gè)則包含F(xiàn)TP鏈接。RefSeq的summary文件約58MB,包含20萬條記錄,其中包含accession ID、物種名稱、taxid等信息,最后一列正是FTP下載地址的所在。
借助這份summary文件,Bash高手們可以編寫腳本,按需篩選和下載。例如,要下載所有大腸桿菌(Escherichia coli)的基因組:
# 提取E. coli信息
grep "Escherichia coli" assembly_summary_refseq.txt > E.coli.txt
# FTP鏈接在第20列
for link in $(cut -f 20 E.coli.txt); do
# 文件名基于FTP路徑
id=$(echo ${link#*/})
# 下載genomic.fna.gz
wget ${link}/${id}_genomic.fna.gz
# 選擇下載其他文件類型,如gbff注釋
# 解壓縮文件
gunzip ${id}_genomic.fna.gz
done
但請(qǐng)注意,直接搜索Escherichia coli可能會(huì)包含噬菌體和病毒等非目標(biāo)物種,所以推薦使用taxid進(jìn)行精準(zhǔn)篩選。此外,處理原始文件名時(shí),可能會(huì)遇到重復(fù)的菌株名稱或包含斜線的命名問題,需要額外處理以適應(yīng)文件系統(tǒng)。
總結(jié)與注意事項(xiàng)
批量下載RefSeq數(shù)據(jù)庫(kù)的微生物基因組是完全可行的,只需要巧妙利用提供的資源和腳本工具。但務(wù)必注意篩選和預(yù)處理,確保下載的數(shù)據(jù)準(zhǔn)確無誤。現(xiàn)在,你的微生物基因組研究之旅已經(jīng)準(zhǔn)備就緒,只等你啟動(dòng)了。
基因的定義到底是什么
(本文說給大眾看的,就是想告訴大家,你們都對(duì))
如果真要給基因一個(gè)簡(jiǎn)明定義:那就是有遺傳效應(yīng)的核酸片段。我認(rèn)識(shí)的港大博士也寫過一個(gè)類似的答案。
基因的定義目前已經(jīng)被徹底用爛了,曾經(jīng)有人說,基因的定義就是沒有定義。
——你說基因是DNA?RNA也可以是基因。就比如題主說的RNA病毒——你說基因編碼蛋白質(zhì)?不編碼蛋白質(zhì)的也是基因。比如很多non-coding gene,甚至還有一堆非編碼RNA,甚至人家干脆啥都不編碼,就是簡(jiǎn)單的調(diào)節(jié)一下。
——你說基因多長(zhǎng)?一個(gè)大的染色體叫基因,一個(gè)幾百的外顯子還叫基因(比如有時(shí)候轉(zhuǎn)基因只丟個(gè)外顯子進(jìn)去)。甚至一個(gè)點(diǎn)突變都可以叫基因。(比如,xxx帶有了勇士基因,這種最常見的說法,其實(shí)就是一個(gè)點(diǎn)突變)
——甚至還有假基因(關(guān)鍵是現(xiàn)在發(fā)現(xiàn),假基因也不是白蓮花啊,這家伙能競(jìng)爭(zhēng)抑制(真)基因)現(xiàn)在可以說是上到CNS,下到路邊的大爺,都可以談基因。如果真要給基因一個(gè)定義:那就是有遺傳效應(yīng)的核酸片段。就像 @Xi Yang 提到wiki的概念gene is any discrete locus of heritable, genomic sequence which affect an organism's traits by being expressed as a functional product or by regulation of gene expression 仔細(xì)看一下1,discrete 實(shí)體的,至少基因不是虛幻的東西2,traits特征,啥特征?這就真的是包羅萬象了,耳朵鼻子那是特征,身高體重那是特征,血流快慢那是特征,細(xì)胞大小形狀溫度也是特征,甚至一個(gè)細(xì)胞內(nèi)的某個(gè)離子濃度大小,那還是特征。一切都是特征,基本上就等于啥都沒說。3,affect by expression or regulation這里面還是一個(gè)包羅萬象的概念表達(dá)成為function product,就是有功能的產(chǎn)品,蛋白質(zhì),RNA都行;調(diào)節(jié)的話,DNA自己都可以調(diào)節(jié)。我舉個(gè)例子,啥叫基因:APOE,這是個(gè)載脂蛋白基因BRAFP1 ,這是2015年cell里的一個(gè)基因,它是BRAF的假基因,但是它可以調(diào)節(jié)來發(fā)揮作用,所以也是基因他們一起發(fā)揮作用(就是regulation了)
分享科學(xué),分享世界!
本站其他內(nèi)容推薦
1、let orchard destitute gravely Mendelism invariable Childermas pitch sperate strewn
2、sae international是什么意思中文翻譯、發(fā)音、用法及例句
3、steve什么意思(steve中文翻譯,steve是什么意思,steve發(fā)音、用法及例句)
4、uget中文翻譯,uget是什么意思,uget發(fā)音、用法及例句
5、across the board中文翻譯,across the board是什么意思,across the board發(fā)音、用法及例句
6、child world中文翻譯,child world是什么意思,child world發(fā)音、用法及例句
8、巨大的英文,英語(yǔ),largeness是什么意思,largeness中文翻譯,largeness怎么讀、發(fā)音、用法及例句
9、ascendable是什么意思,ascendable中文翻譯,ascendable怎么讀、發(fā)音、用法及例句
10、semisolid是什么意思,semisolid中文翻譯,semisolid怎么讀、發(fā)音、用法及例句
11、supramaxillary是什么意思,supramaxillary中文翻譯,supramaxillary怎么讀、發(fā)音、用法及例句
版權(quán)聲明: 本站僅提供信息存儲(chǔ)空間服務(wù),旨在傳遞更多信息,不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任,不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。