[참고]
species: 원핵생물
목표 : NCBI rRNA reference가 존재하는 경우 reference를 다운로드 받아 indexing, alignment까지 진행하기
1. Download reference
NCBI 에서 원하는 species를 검색하여 들어간다.
[그림 1] 우측에 표시된 FTP directory for RefSeq assembly로 접속
FTP에 들어가게 되면 [그림 2]와 같은 화면을 확인할 수 있으며, 우리는 그 중에서 rna_from_genomic.fna.gz 파일을 다운로드 받는다.
GCF_000194745.1_ASM19474v1_rna_from_genomic.fna.gz 파일을 우클릭 후 링크 주소 복사를 한다.
wget 을 이용하여 복사한 링크를 다운로드 받아보자.
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/194/745/GCF_000194745.1_ASM19474v1/GCF_000194745.1_ASM19474v1_rna_from_genomic.fna.gz
다운받은 파일 압축 풀기!
gzip -d GCF_000194745.1_ASM19474v1_rna_from_genomic.fna.gz
압축을 풀고 난 뒤, 파일을 살펴보자. [그림 3 참고]
우리가 만들 reference는 rRNA이기 때문에
gbkey가 rRNA인 것만을 선택하고, 대표이름은 locus_tag로 설정하여 rRNA reference를 다시 만들어 준다.
다시 만든 결과 파일을 살펴보면 [그림 4]와 같다.
2. Indexing reference
bowtie2 를 이용하여 reference를 indexing 해보자
bowtie2-build rRNA.fna rRNA
인덱싱이 완료되면 아래와 같이 bt2 라는 suffix가 붙은 6개의 파일을 확인할 수 있다.
3. Trimming 된 fastq 를 이용하여 rRNA reference에 Alignment를 진행
reference indexing도 완료 하였으니, 이제 trim.fastq를 이용하여 rRNA reference에 직접 alignment를 진행해보자
bowtie2 -p 30
--no-mixed
--no-discordant
--no-dovetail
--no-unal
-k 5
-x ./rRNA
-1 /mnt/garnet/Analysis/BI/RNA-Seq/HN00150555/rawData/18962C1_1.trim.fastq
-2 /mnt/garnet/Analysis/BI/RNA-Seq/HN00150555/rawData/18962C1_2.trim.fastq
2>/mnt/garnet/Analysis/BI/RNA-Seq/HN00150555/rRNAQC/18962C1/18962C1.rRNA.log |
samtools view
-S
-@ 30
-F4
-f64 - > 18962C1.sam start