- Today
- Total
목록생물 정보학 (4)
비둘기 둥지
1. 캐글 데이터 셋으로 분석해보기 from Bio.Align.Applications import MuscleCommandline from Bio.SeqUtils import MeltingTemp as mt from Bio.SeqRecord import SeqRecord from Bio.SeqUtils import GC from Bio.Seq import Seq from Bio import SeqIO import re ## Kaggle에서 제공된 데이터 셋이 txt 파일로 되어 있어 ## SeqIO가 아닌 파이썬의 파일 입출력으로 염기서열을 가져옴. def text_parsing(spieces): sequence_txt = open(f'../dataset/txt/{spieces}_data.txt', 'r..
(!) sequence alignment (서열 정렬) (1) 유전자나 단백질의 서열을 다이내믹 프로그래밍 기반의 컴퓨터 스트링 정렬 알고리즘을 이용하여 배열 (2) 쌍서열정렬(pairwise sequence alignment)와 다중서열정렬(multiple sequence alignment)로 나뉜다. 1. Multiple Sequence Alignment (MSA / 다중 서열 정렬) 3개 이상의 DNA, RNA, Protein과 같은 서열들을 sequence alignment를 진행하는 것을 말한다. 단백질 서열간 유사성을 통해 단백질의 기능을 이해, 구조 예측, 진화 관계 규명하는데 사용된다. Multiple Sequence Alignment를 하기 위해서는 3가지 단계가 필요하다. 한 서열과 비..
0. 들어가기 전 ## 없어도 되는 씨잘데기 없는 함수 ## 아래 반복문을 통해 나온 결과들을 예쁘게 나오도록하는 씨잘데기 없는 함수 def string_decoration(string, num = 80, idx=1): decorated_string = f'{"-"*num}\n{string}\n{"-"*num}' if idx == 1 else f'{string} \n{"-"*num}' print(decorated_string) string_decoration('아아 함수 테스트') string_decoration('잘 나옵니까', idx=2) ## 출력 결과 -------------------------------------------------------------------------------- 아..
1. Seq함수로 Sequence 객체 만들기 ## 필요 패키지 import from Bio.Seq import Seq ## Biopython은 DNA 염기 서열을 Seq 자료형으로 사용한다. test_seq = Seq('AGTACATGGT') print(type(test_seq)) ## Sequence의 서열 정보를 추가하도록 해줌. #! Biopython 1.78 이후로 Alphabet이 사라졌다.. 코쓱머쓱 # from Bio import Alphabet import Bio Bio.__version__ ## 출력 결과 ## 작성한 코드는 biopython 1.79 버전을 사용하였다. '1.79' 2. SeqIO 여러 파일 파싱하기 2-1. FASTA 파일 파싱하기 FASTA 파일은 텍스트 파일로 염..