본문 바로가기

Bioinformatics

원핵생물 rRNA reference setting (NCBI)

[참고]

species: 원핵생물

목표 : NCBI rRNA reference가 존재하는 경우 reference를 다운로드 받아 indexing, alignment까지 진행하기

 

1. Download reference

NCBI 에서 원하는 species를 검색하여 들어간다.

[그림1]

[그림 1] 우측에 표시된 FTP directory for RefSeq assembly로 접속

 

FTP에 들어가게 되면 [그림 2]와 같은 화면을 확인할 수 있으며, 우리는 그 중에서 rna_from_genomic.fna.gz 파일을 다운로드 받는다.

 

NCBI ftp (Burkholderia gladioli BSR3 (b-proteobacteria))

GCF_000194745.1_ASM19474v1_rna_from_genomic.fna.gz 파일을 우클릭 후 링크 주소 복사를 한다.

wget 을 이용하여 복사한 링크를 다운로드 받아보자.

wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/194/745/GCF_000194745.1_ASM19474v1/GCF_000194745.1_ASM19474v1_rna_from_genomic.fna.gz

다운받은 파일 압축 풀기!

gzip -d GCF_000194745.1_ASM19474v1_rna_from_genomic.fna.gz

 

압축을 풀고 난 뒤, 파일을 살펴보자. [그림 3 참고]

[그림3] GCF_000194745.1_ASM19474v1_rna_from_genomic.fna

우리가 만들 reference는 rRNA이기 때문에

gbkey가 rRNA인 것만을 선택하고, 대표이름은 locus_tag로 설정하여 rRNA reference를 다시 만들어 준다.

다시 만든 결과 파일을 살펴보면 [그림 4]와 같다.

[그림4] gbkey = rRNA , 대표이름은 locus tag로 설정하여 재구성한 rRNA.fna

 

2. Indexing reference 

bowtie2 를 이용하여 reference를 indexing 해보자

bowtie2-build rRNA.fna rRNA

인덱싱이 완료되면 아래와 같이 bt2 라는 suffix가 붙은 6개의 파일을 확인할 수 있다.

 

3. Trimming 된 fastq 를 이용하여 rRNA reference에 Alignment를 진행

reference indexing도 완료 하였으니, 이제 trim.fastq를 이용하여 rRNA reference에 직접 alignment를 진행해보자

bowtie2 -p 30
--no-mixed
--no-discordant
--no-dovetail
--no-unal
-k 5
-x ./rRNA
-1 /mnt/garnet/Analysis/BI/RNA-Seq/HN00150555/rawData/18962C1_1.trim.fastq
-2 /mnt/garnet/Analysis/BI/RNA-Seq/HN00150555/rawData/18962C1_2.trim.fastq
2>/mnt/garnet/Analysis/BI/RNA-Seq/HN00150555/rRNAQC/18962C1/18962C1.rRNA.log |
samtools view
-S
-@ 30
-F4
-f64 - > 18962C1.sam start