개인유전체 해독과 해석과정

From Koreangenome.kr

Jump to: navigation, search

Genome pipeline.jpg

<최초한국인 지놈 해석 프로젝트의 개인유전체 분석 과정 파이프라인>

 

개인유전체 분석 과정 소개

한국인 유전체 서열을 얻고(서열 해독), 유의한 정보를 추출, 분석(서열 해석)하는 것이 분석과정의 목적이다. 급속히 증가하고 있는 유전체해독 프로젝트에서, 문제 중의 하나는, 해독기를 돌려 서열을 생산하는 것뿐만 아니라, 얼마나 효율적으로 생명정보학을 이용하여, 처리하고 분석하는가이다.
샘플 공여자는 한국인 남성(김성진, 2008년 당시 54세, 강원도)을 선정되었고, 혈액 샘플로부터 DNA을 추출하였다. 다음으로 솔렉사에서 제공하고 있는 서열해독기 (대당 8억정도) 를 사용하여, 2008년 4월 부터 이길여 암당뇨연구원에서 서열해독을 시작하였다. 솔렉사의 해독기는 Single end형을 과거에 시판하다가, 최근에 Paied end로 업그레이드를 했다. 본 프로젝트에서 사용한 방식은 Paired end방식이다.
서열 해독 과정 이후 유의한 정보 추출 작업인 서열 해석 과정이 이어졌으며 한국생명공학연구원의 국가생물자원정보관리센터가 분석작업을 진행하였다. 총 서열해독 시료비용은 2억 5천만원이 투여되었고, 실험인 서열 해독에 투입된 인원은 2명이었다.
서열 해독과 서열 해석의 수행에 소요된 기간은 각각 56일과 5.42일 정도로, 한 명의 유전체 서열을 8X정도로 분석하기 위해서는 약 2달의 시간이 소요되었다.

서열 해독(실험)과 서열 해석(정보분석)의 과정은 다음과 같다.


유전체 서열 해독 단계

1. 혈액의 백혈구에서 DNA 추출
2. 초음파 (sonication) 를 이용해서 DNA 조각화 (fragmentation)
3. 조각난 DNA 양쪽에 adaptor 를 부착
4. 증폭
5. 증폭된 DNA (라이브러리) 를 미세유체 (microfluidics) 칩에 hybridization
6. 그 후 시퀀싱 반응을 통해 초대용량 병렬 서열 생산
7. 현미경을 통해 고화질 이미지 생산 (실험 한 번이 끝나면 약 2TB 의 이미지가 생산됨)
8. 이미지 처리를 통해 이미지를 텍스트로 변환 (염기서열을 얻음).


유전체 서열 해석 단계

9. 얻어진 염기서열 조각들을 컴퓨터와 생명정보학 기법을 이용해 지도화
10. 각종 분석통계 지표 도출 (Coverage, error rate 등)
11. 지도화된 유전체서열을 해석 (SNP 추출, 타 유전체와의 비교, SNP칩 정보와 비교, 표현형과의 연계 등)


유전체 서열 해독 단계

실험실에서 혈액으로 부터 DNA를 추출하고, DNA를 증폭하여 솔렉사(Solexa) 서열 해독기에 전달한다. 다음으로 칩 위에서 약 24시간 동안 반응을 거치면, 무수히 많은 DNA서열이 증폭이 일어나고 이를 서열 클러스터라고 한다. 다음은 솔렉사 서열 해독기 안에서 DNA를 대량으로 읽어 들이게 되는데, 이때 걸리는 시간은 대략 96시간이다. 그런 다음 48시간의 이미지 해독기를 거쳐 최종적으로 수 백만개의 서열을 해독하게 된다. 이러한 실험을 8번 반복하며, 총 실험에 걸린 기간은 56일 정도이다.


유전체 서열의 정확도와 "완전해독"

해독이 끝난 유전체의 정확도를 산정하는 표준화된 방법은 현재 없다. 또, 유전체를 완전히 해독한다는 것도 현재로선 불가능하고, 미국에서도 앞으로 몇 년 혹은 몇 십년이 걸릴 수도 있다. 유전체의 정확도는, 다양한 지표(parameter)와 사용한 기계의 방법, 분석하는 생명정보학 알고리듬등에 따라 다르므로, 서로간의 비교가 단순하지 않다. 이번 Paired end를 사용한 솔렉사 기계는 2007년 Nature지에 발표된 제임스 왓슨 박사의 454기계와 비슷한 성능을 지녔다.
흔히, 게놈의 해독량을 말할때, 7.8x (7.8 배), 13x (13 배)라고, 배수를 말한다. 이것은 한사람의 DNA샘플을 기계를 통해 해독할 때, 그 때 실험에서 나오는 양을 모두 합한 DNA서열의 양을 말한다. Nature지에 실린 제임스 왓슨은 454 해독기로, 약 7.4배의 해독을 했다. 사람의 일배체의 유전체는 약 30억개의 염기를 가지므로, 7.4배이면, 약 210억개의 염기를 해독한 것이 된다. 한가지 알아야 할 것은 아무리 배수가 높더라도, 서열해독시 자르는 DNA 파편의 길이가 짧거나 길면, 그 정확도는 많은 차이를 낸다. 본 한국인 개인유전체의 배수는 약 7.8배이고, 몇가지 지표들을 볼때, 제임스 왓슨의 유전체와 비슷한 수준의 정확도를 가졌다. [관련 정보]



유전체 서열 해석 단계

해독된 서열을 해석하기 위해서는 수백 기가 바이트의 데이터를 대용량으로 처리할 수 있는 장비와 기술이 필요하다. 대용량 처리는 많은 계산시간과 컴퓨터를 요구하므로, 이를 분산시켜 처리할 수 있는 대용량 분산처리 시스템과 단계별로 생성된 방대한 데이터를 저장할 데이터 저장 장치가 필요하다. 국가생물자원정보관리센터(KOBIC)의 대용량 분산처리 시스템을 구성하여, 총 5.42일 정도의 시간으로 이러한 작업을 수행하였다.
시스템을 통한 서열 해석의 수행은 다음으로 요약할 수 있다.

 

1. 인간유전체참조서열(reference genome sequence)을 색인화하여 전산시스템으로 가져옴(색인화는 대용량의 서열 데이터들을 빠르게 처리하기 위한 작업이며, 인간유전체참조서열은 미국 국가생명공학정보센터(NCBI)에서 가져온 인간게놈프로젝트(HGP)의 것을 사용)
2. 서열 해독기를 통해 생산된 수백기가의 단편 서열들을 색인화하여 시스템으로 가져옴(약 2시간 소요)
3. 서열 해독기를 통해 생산된 서열들을 인간유전체참조서열에 대비하여 염색체상의 위치를 확인(가장 많은 계산 시간을 소요함. 예로 22.4기가 정도의 서열을 한대의 최신 컴퓨터만을 이용하여 위치를 확인한다면 204일 정도 걸리는 작업이 됨, 국가생물자원정보관리센터(KOBIC)의 대용량 분산처리 시스템을 활용하여 144대의 컴퓨터에 나눠 분산하여 작업을 진행하였고, 32시간으로 완료)
4. 인터넷 웹브라우져를 위한 서열정렬 및 데이터베이스화 작업 진행(스텝 3 과 4의 작업 완료에 72시간 소요)
5. 위치가 확인된 서열을 인간유전체 참조서열과의 대비를 통해 DNA 변이(SNP, NMP, in/del) 추출(48시간 소요)
6. 현재 문헌으로 공개된 인간과 관련된 표현형 연관성 분석 연구 결과들을 분석하여 한국인 유전체 샘플의 DNA변이의 유전형과 비교(24시간 소요)

  • 24시간이 런 타임이 소요되지만, 이것을 하기 위해, 기초적 생명정보연구, 파이프라인 개발, 시스템개발은 최소한 1년 반 정도의 시간 투자의 결과임.

7. 해석된 유전체정보와 변이의 연관성을 보여주기 위한 인터넷용 유전체 브라우져 개발 (1명의 개발인원으로 3개월)
8. Gbrowse라는 이미 공개된 유전체 브라우져를 이용하여, SNP부분의 변이를 잘 보여주게 세팅함 (1명 ~7일)
9. 홈페이지용 웹서버 구축 (32 기바바이트 메모리, 8 core CPU, 9 테라바이트 레이드 저장장치)



개인유전체 서열해석 이후의 생명정보분석

일단 기초적인 유전체 지도화와 변이에 대한 분석이 끝나면, 그 이후, 수없이 많은 다양한 생명정보 분석이 가능하다. 예를 들면, 단백질에 변이가 있는지, 질병과의 연관도를 다각도로 계산해내던가, 각종 약물에 이 유전체의 소유자가 어떤 체질적 특성을 가지는지, 면역학상 어떤 특이가 있을 수 있는지, Y 염색체상으로 볼때, 어떤 인종적 뿌리를 가지는지등등이다. 그리고, 이러한 수많은 생명정보분석은 앞으로 개인유전체가 대중화 될수록 새로운 요구에 맞춰 무궁무진하게 다양하게 발전할 것이다. 

위와 같은 인간 지놈 분석은 상용화되어, 최초의 한국인 지놈을 분석했던 박종화박사를 비롯한 전문 연구자들이 2010년 현재 약 1억 3천만원에 신청을 원하는 도든 개인의 유전체 정보를 분석해준다 (http://hellogene.co.kr)



 

Personal tools