전통문화대전망 - 전통 미덕 - 차세대 시퀀싱 라이브러리 구축 개요 및 과제(1)
차세대 시퀀싱 라이브러리 구축 개요 및 과제(1)
NGS라고도 알려진 높은 처리량의 시퀀싱은 유전체학 연구를 재정의했습니다. 최근 몇 년 동안 NGS 기술은 비용 감소와 시퀀싱 애플리케이션의 기하급수적인 증가와 함께 꾸준히 발전했습니다. 이 기사에서는 시퀀싱 라이브러리 품질에 영향을 미치는 주요 요소와 DNA 소스 및 RNA 소스 라이브러리를 준비하는 동안 존재하는 문제를 조사합니다. 이러한 요소에는 고품질 시퀀싱 라이브러리를 준비할 때 DNA/RNA 물질의 정량적 및 물리적 특성과 잠재적인 응용(예: 게놈 시퀀싱, 표적 시퀀싱, RNA-seq, ChIP-seq, RIP-seq 및 메틸화)이 포함됩니다. 내용에 언급됩니다. 또한 단일 세포에서 파생된 라이브러리를 준비하는 방법에 대해서도 논의합니다.
지난 5년간 NGS 기술은 생명과학 분야의 연구자들이 널리 활용해 왔습니다. 동시에 시퀀싱 기술의 개발 및 발전으로 일부 핵산 추출 및 라이브러리 준비 방법이 파생되었습니다. 예를 들어, 단일 세포의 RNA와 DNA는 라이브러리 준비에 성공적으로 사용되었습니다. NGS 라이브러리 준비의 기본은 표적 핵산, RNA 또는 DNA를 시퀀서에서 사용할 수 있는 형태로 변환하는 것입니다(그림 1). 여기에서는 Illumina 시퀀싱 기술과 호환되는 라이브러리에 중점을 두고 여러 라이브러리 준비 전략과 NGS 애플리케이션을 비교합니다. 그러나 이 기사에서 논의된 거의 모든 원칙은 약간의 수정을 통해 Life Technologies, Roche 및 Pacific Biosciences와 같은 다른 NGS 플랫폼에 적용될 수 있다는 점을 지적하는 것이 중요합니다.
일반적으로 라이브러리 준비의 핵심 단계는 다음과 같습니다. 1) 특정 길이의 단편을 단편화 및/또는 선택하고, 2) 이를 이중 가닥 형태로 변환하고, 3) 올리고뉴클레오티드 라이게이션을 끝까지 연결합니다. 단편의 정량화 및 4) 라이브러리의 정량화는 NGS 라이브러리 구성의 핵심 요소입니다. 핵산을 단편화하는 방법에는 주로 물리적 방법, 효소 분해 방법, 화학적 방법이 있습니다. 물리적 방법에는 음파 전단(대표: Covaris) 및 초음파(대표: BioRuptor)가 포함되며, 효소 분해 방법에는 비특이적 엔도뉴클레아제 및 트랜스포사제 단편화가 포함됩니다. Covaris g-TUBE는 메이트쌍 라이브러리에 필요한 6-20kb 범위의 DNA 단편에 주로 사용됩니다. 효소 소화 방법에는 두 효소의 혼합물인 DNase I 또는 단편화 효소 소화가 포함됩니다(New England Biolabs, Ipswich MA). 두 가지 방법 모두 잘 작동합니다. 그러나 단편화 효소는 물리적인 방법보다 잘못된 indel을 더 많이 생성합니다. 또 다른 효소 분해 방법은 전이효소를 사용하여 무작위 단편화를 수행하고 어댑터 서열을 이중 가닥 DNA에 삽입하는 Illumina의 Nextera입니다. 이 접근 방식은 샘플 처리 및 준비 시간 단축을 포함하여 여러 가지 장점이 있습니다.
어댑터 시퀀스의 길이가 일정하기 때문에 라이브러리 크기는 삽입 크기(어댑터 시퀀스 사이의 라이브러리 부분 참조)에 따라 결정됩니다. 반대로, 최적의 인서트 길이는 NGS 장비 및 특정 시퀀싱 애플리케이션에 의해 결정됩니다. 예를 들어, Illumina에서 최적의 조각 크기는 라이브러리 준비, 희석 및 증폭을 위한 칩 표면 배포를 포함하는 클러스터 생성 프로세스의 영향을 받습니다. 짧은 조각 증폭이 더 효율적이지만 긴 조각 라이브러리는 더 크고 분산된 클러스터를 생성할 수 있습니다. Illumina를 사용하여 시퀀싱하는 라이브러리의 최대 크기는 1500bp입니다.
최적의 라이브러리 크기도 시퀀싱 애플리케이션에 의해 결정됩니다. 엑솜 시퀀싱의 경우 인간 엑손의 80% 이상이 길이가 200bp 미만입니다. 우리는 약 250bp의 엑손 라이브러리 크기로 PE100bp를 테스트했는데, 이는 결과에서 읽기 쌍이 겹치지 않고 대부분의 엑손의 평균 크기와 일치합니다. RNA-seq 라이브러리 크기도 응용 프로그램에 따라 결정됩니다. 유전자 발현 분석을 위해 SE100 시퀀싱을 사용했습니다. 그러나 대체 접합 또는 전사 시작 및 종료 사이트를 결정하려면 PE100 솔루션을 선택합니다. 대부분의 응용 분야에서 RNA는 단편화되기 전에 cDNA로 역전사됩니다. 일반적으로 2가 금속 이온(마그네슘 또는 아연)은 RNA의 제어된 열 분해에 사용됩니다. 소화 반응 시간을 조정하여 라이브러리 조각의 크기를 조절할 수 있으며 재현성이 매우 좋습니다.
7가지 RNA-seq 라이브러리 준비 방법에 대한 최근 연구에서는 대부분 먼저 RNA를 단편화한 다음 어댑터를 추가했습니다. 고정된 3', 5' 서열로 전체 길이의 cDNA 서열을 합성하는 방법에는 무작위 프라이머를 사용하지 않거나 SMARTer Ultra Low RNA 키트를 사용하는 두 가지 방법이 있습니다. 전체 길이 cDNA 라이브러리(평균 2kb)는 장거리 PCR(LD-PCR)을 통해 증폭될 수 있습니다. 이렇게 증폭된 이중 가닥 cDNA는 초음파 처리를 통해 적절한 길이로 절단되고 표준 Illumina 라이브러리 준비 프로세스(말단 복구 및 충전, A 추가 및 어댑터 결찰 포함)에 사용된 다음 PCR로 증폭됩니다.
)
라이브러리 크기 조작을 위한 또 다른 라이브러리 구축 단계는 칩 선택과 어댑터 이량체 또는 라이브러리 준비의 기타 부산물 제거입니다. 링커 이량체는 링커 자가 결찰의 결과입니다. 이러한 이량체는 매우 효율적으로 클러스터링되며 유용한 데이터를 생성하지 않고 귀중한 칩 공간을 소비합니다. 그래서 보통 자성비드나 젤커팅을 이용하여 회복을 하게 됩니다. 자기 비드 방법은 출발 물질이 충분한 상황에 적합합니다. 샘플 입력이 제한되면 더 많은 어댑터 이합체가 생성됩니다. 우리의 경험에 따르면 자성 비드 기반 방법은 이 경우 적합하지 않으며 자성 비드와 젤 회수 방법의 조합이 필요합니다.
microRNA/small RNA library를 준비하는 과정에서 목적산물은 보통 120bp Adapter 이중체보다 20-30bp 정도 더 긴 정도입니다. 따라서 가능한 한 많은 목적 서열을 얻기 위해서는 겔 절단 및 회수 방법을 사용해야 합니다. 이 분리 정확도는 자기 비드에는 적용되지 않습니다. 또한 박테리아 게놈의 새로운 조립을 위해 PCR 단계 없이 더 긴 판독 PE300과 결합된 대규모 삽입(1kb) 라이브러리를 구축해야 하는 경우가 많습니다. 조립에 대해 최대한 많은 데이터를 얻으려면 일관된 크기의 인서트를 얻기 위해 인서트를 조심스럽게 절단하고 복구하는 것이 필요합니다.
DNA 샘플을 사용하여 라이브러리를 구성할 때는 시작 물질의 양, 라이브러리를 재배열(정렬에 사용할 수 있는 참조 서열 사용) 또는 새로운 시퀀싱(오프라인에서 사용 필요)에 사용할지 여부를 포함하여 여러 가지 고려 사항이 있습니다. 새로운 참조 서열을 조립하기 위한 데이터). 라이브러리 준비는 게놈에 높거나 낮은 GC 영역이 존재하기 때문에 편향되기 쉽습니다. 증폭에 사용되는 중합효소, 주기 번호, 조건 및 버퍼의 신중한 선택을 포함하여 이러한 문제를 해결하기 위한 방법이 개발되었습니다.
WGS, WES, ChIP-seq 또는 PCR 앰플리콘에 사용되는 DNA 샘플의 라이브러리 준비는 일반적으로 동일한 프로세스를 따릅니다. 일반적으로 모든 애플리케이션의 목표는 라이브러리를 최대한 복잡하게 만드는 것입니다.
현재 DNA 라이브러리 구축 키트에는 여러 브랜드가 있습니다. 경쟁은 또한 가격을 빠르게 낮추고 품질을 향상시킵니다. 이 키트는 ug에서 pg까지의 DNA 투입량을 처리할 수 있습니다. 그러나 시작량이 많으면 증폭 주기 수가 줄어들 수 있으므로 라이브러리가 더 복잡해질 수 있다는 점을 명심해야 합니다. Nextera를 제외하고 라이브러리 준비 단계에는 일반적으로 1) 단편화, 2) 말단 복구, 3) 5-말단 인산화, 4) 3-말단에 A 추가, 5) 어댑터 결찰, 6) 농축 및 추가를 위한 여러 주기의 PCR이 포함됩니다. 조인트 제품입니다. Ion Torrent 작업 흐름의 주요 차이점은 다양한 어댑터 시퀀스의 무딘 말단 결찰입니다.
시작 DNA가 단편화된 후 3가지 효소(T4 폴리뉴클레오티드 키나제, T4 DNA 폴리머라제 및 Klenow 대형 단편)의 혼합물을 사용하여 엔드 필링 및 5-엔드 인산화를 수행합니다. Taq 폴리머라제 또는 Klenow 단편(exo-)을 사용하여 3-말단에 A 꼬리를 추가합니다. Taq은 A 테일을 추가하는 데 더 효율적이지만 메이트 쌍 라이브러리와 같이 가열 방법을 사용할 수 없는 경우 Klenow를 사용할 수 있습니다. 어댑터 결찰 중 최적의 어댑터:조각 비율은 몰 단위로 약 10:1입니다. 어댑터가 너무 많으면 분리하기 어렵고 후속 증폭을 지배할 수 있는 이합체를 형성할 수 있습니다. 말단 수리 및 A 첨가 반응 후에는 자기 비드 또는 젤 회수 방법이 모두 적합하지만, 라이게이션 반응 후에는 자기 비드 방법이 링커 이합체를 더 효과적으로 제거할 수 있음을 발견했습니다.
여러 샘플을 쉽게 혼합할 수 있도록 다양한 샘플에 서로 다른 바코드가 있는 커넥터를 사용할 수 있습니다. 또한, PCR 증폭 과정에서 서로 다른 바코드를 가진 프라이머를 통해서도 바코드를 추가할 수 있습니다. 고품질 바코드 어댑터와 PCR 프라이머는 여러 공급업체에서 구입할 수 있습니다. 현재 어댑터부터 효소까지 DNA 라이브러리 구성의 모든 구성 요소에는 자세한 서면 지침이 있으며 직접 만든 라이브러리 준비 키트로 조립할 수 있습니다.
또 다른 방법은 트랜스포사제를 사용하여 DNA를 무작위로 중단하고 단일 튜브에 태그(태깅이라고도 함)를 추가하는 Nextera 방법입니다. 조작된 효소에는 두 가지 기능이 있습니다. 즉, DNA를 단편화하고 단편화된 DNA의 양쪽 끝에 특정 링커를 추가하는 것입니다. 이러한 어댑터 서열은 후속 PCR 프로세스에서 삽입물을 증폭하는 데 사용됩니다. PCR 반응에 바코드가 추가됩니다. 기존 방법에 비해 이 준비 과정의 장점은 조각화, 말단 복구 및 어댑터 결찰이 하나의 단계로 결합된다는 것입니다. 이 방법은 기계적 단편화보다 DNA의 시작 양에 더 민감합니다. 적절한 거리에서 단편화를 달성하려면 트랜스포사제 대 샘플의 비율이 중요합니다. 단편 크기는 반응 효율에 따라 달라지므로 온도, 반응 시간 등 모든 반응 매개변수가 중요하며 엄격하게 제어되어야 합니다.
일부 연구 그룹에서는 단일 세포 게놈의 서열을 분석한 결과를 발표했습니다. 현재 전략은 전체 게놈을 증폭하기 위해 다중 가닥 치환(MDA)을 사용합니다. MDA는 주로 무작위 프라이머와 고도로 처리되는 가닥 치환 중합효소인 phi29를 활용합니다.
이 기술은 시퀀싱 라이브러리 구축에 충분한 양을 생성할 수 있지만 한 가지 문제는 비선형 증폭으로 인해 발생하는 많은 양의 편향입니다. 최근 연구에서는 반선형 사전 증폭 단계를 추가하면 편향을 줄일 수 있다고 제안했습니다. Fluidgm은 단일 세포 라이브러리 준비를 위한 단일 세포 분리 및 미세유체 기술을 기반으로 하며 실행당 최대 96개의 단일 세포를 얻을 수 있습니다.
RNA 라이브러리의 경우 시퀀싱 목적에 따라 라이브러리 구축 계획을 스크리닝해야 합니다. 목표가 복잡하고 포괄적인 전사 이벤트를 발견하는 것이라면 라이브러리는 코딩, 비코딩, 안티센스 및 유전자간 RNA를 포함하여 전체 전사체를 포괄해야 하며 최대한 완벽해야 합니다. 그러나 많은 경우에 목적은 단백질로 번역될 수 있는 mRNA를 코딩하는 전사물을 연구하는 것뿐입니다. 다른 상황에는 작은 RNA(주로 miRNA)만 포함되지만 snoRNA, piRNA, snRNA 및 tRNA도 포함됩니다. RNA 서열 분석 라이브러리의 원리에 대해 자세히 설명하고 싶지만 모두 나열할 수는 없습니다. 관심 있는 독자는 스스로 조사해 볼 수 있습니다.
RNA-seq에 NGS를 적용한 첫 번째 성공적인 사례 중 하나는 miRNA입니다. miRNA 시퀀싱 라이브러리 준비는 매우 간단하며 일반적으로 1단계 반응으로 이루어집니다. 실제로 miRNA는 5-말단에 천연 인산염 변형이 있어 리가제가 선택적으로 miRNA를 표적으로 삼을 수 있습니다.
Illumina 단계의 첫 번째 단계에서는 3-말단 차단, 5-말단 아데닐화 DNA 어댑터가 절단된 T4 RNA 리가제 2에 의해 RNA 샘플에 연결됩니다. 이 효소는 3-말단 링커 기질을 아데닐화하도록 변형되었습니다. 결과적으로 다른 RNA 조각은 이 반응에서 함께 결합되지 않습니다. 아데닐화된 올리고뉴클레오티드만이 유리 RNA의 3' 말단에 결찰될 수 있습니다. 커넥터의 3번째 끝이 막혀 있어 자체 연결이 불가능합니다. 다음으로 ATP와 RNA 리가제 1의 작용에 따라 5말단 RNA 어댑터가 추가됩니다. 5-말단에서 인산화된 RNA 분자만이 결찰 반응에서 효과적인 기질 역할을 할 수 있습니다. 결찰 반응의 두 번째 단계 후에 역전사 프라이머는 3-말단 어댑터에 혼성화되어 RT-PCR 증폭을 시작합니다(보통 12주기). 작고 예측 가능한 조각 크기(120bp 어댑터 시퀀스 + 20-30bp miRNA 삽입)로 인해 젤 추출을 위해 라이브러리 또는 여러 바코드 풀이 함께 처리되는 경우가 많습니다. 어댑터 이합체와 비 miRNA 연결(tRNA 및 snoRNA)이 존재하기 때문에 겔 복구가 매우 중요합니다. 이 라이브러리 준비 방법을 사용하면 항상 원래 RNA의 5번째 끝에서 3번째 끝까지 라이브러리의 방향성 시퀀싱이 이루어집니다. Ion Torrent의 miRNA 시퀀싱 원리는 유사합니다. Ion Torrent는 두 개의 서로 다른 어댑터를 사용하여 miRNA의 3-말단 및 5-말단 끝에 연결한 후 RT-PCR을 수행합니다. 일반적으로 라이브러리 구성 단계에서는 모든 RNA 물질을 방향성 RNA-seq 라이브러리로 구성할 수 있습니다.
miRNA 라이브러리의 주요 한계는 낮은 시작 양의 RNA(<200ng 총 RNA)입니다. 짧은 링커 이합체는 RT-PCR 반응에서 표적 산물, 링커 및 miRNA와 경쟁합니다. 너무 많은 이량체가 존재하면 단편 스크리닝 중에 젤에 넘치게 되어 제품 밴드가 오염될 수 있습니다. 이러한 상황을 최대한 피하기 위해 많은 키트에서는 이합체 형성을 피하기 위한 다양한 방법을 채택합니다.
mRNA 서열분석 라이브러리의 경우 cDNA 합성을 위해 무작위 프라이머나 올리고-dT 프라이머를 사용하거나 mRNA 단편에 어댑터를 추가한 후 어떤 형태로든 증폭하는 방법이 주로 포함됩니다. mRNA는 무작위 프라이머 또는 올리고-dT로 시작되어 cDNA 가닥을 생성할 수 있습니다. 무작위 프라이머를 사용하는 경우 먼저 rRNA를 제거하거나 줄여야 합니다. rRNA는 Ribo-Zero 및 RiboMinus와 같은 올리고뉴클레오티드 프로브 기반 시약을 사용하여 제거할 수 있습니다. 또한, 올리고-dT 자기 비드를 사용하여 폴리A RNA를 전방 스크리닝할 수 있습니다.
일반적으로 라이브러리는 원래 표적 RNA의 가닥 방향성을 유지할 수 있기를 바랍니다. 예를 들어, 역전사에 의해 생성된 안티센스 RNA는 유전자 발현을 조절하는 역할을 합니다. 실제로, lncRNA 분석은 방향성 RNA 시퀀싱에 의존합니다. 방향성 RNA-seq 라이브러리를 준비하는 방법에는 여러 가지가 있습니다. 논리적으로 cDNA 반응은 두 가닥 중 하나를 선택적으로 제거하기 위해 수행되며 두 번째 cDNA 가닥이 합성되는 동안 dUTP가 추가됩니다. 우라실 함유 가닥은 해당 효소에 의해 소화되거나 우라실을 인식하지 못하는 중합효소를 사용하여 증폭될 수 있습니다. 또한, 악티노마이신 D를 첨가하면 한 가닥 cDNA 합성 중에 잘못된 감지 가닥의 합성을 줄일 수 있습니다.
또 다른 혼성화 방법은 첫 번째 가닥 cDNA 합성을 시작하기 위해 무작위 또는 고정된 올리고-dT 프라이머의 링커 서열을 활용합니다. 다음으로, 템플릿 전환 단계에서 3-말단 어댑터 서열이 cDNA 분자에 추가됩니다. 이 방법의 분명한 장점은 두 번째 가닥 합성이 필요 없이 3 말단의 고유한 서열 태그를 사용하여 PCR을 통해 첫 번째 가닥 cDNA 분자를 직접 증폭할 수 있다는 것입니다. 5-말단 고유 서열 태그는 첫 번째 가닥 합성 중에 도입됩니다.
cDNA 합성을 위한 프라이머 디자인은 RNA-seq 라이브러리에 매우 중요합니다. 예를 들어, rRNA를 표적으로 하지만 추가 증폭에는 사용되지 않는 프라이머를 설계하여 rRNA 서열을 제거할 수 있습니다. NuGEN Ovation RNA-seq은 SPIA(Single Primer Isothermal Amplification) 핵산 증폭 기술과 First-Strand cDNA 합성용 프라이머를 결합하여 rRNA 증폭을 억제합니다. 또 다른 접근법은 4096개의 헥사머를 활용하여 rRNA 서열을 억제합니다(완벽한 일치를 식별하고 제거). 749개의 헥사머가 유지되어 첫 번째 가닥 cDNA 합성 반응을 시작하는 데 사용됩니다. 그 결과, rRNA 판독값이 78%에서 13%로 떨어졌습니다. 44개의 7-mer 프라이머를 사용하여 대부분의 마우스 전사물을 증폭시키는 DP-seq라는 방법도 있습니다. 이 프라이머 디자인은 rRNA를 포함하여 고도로 발현된 전사체의 증폭을 선택적으로 억제하고 배아 발달 모델에서 소량의 전사체 추정치를 제공합니다.
최근 단일 세포 RNA 라이브러리를 준비하는 여러 가지 방법이 발표되었습니다. 한 가지 방법은 주형 전환 반응과 함께 첫 번째 가닥 cDNA의 폴리뉴클레오티드 꼬리를 활용합니다. 그 결과 범용 PCR 프라이머로 증폭할 수 있는 첫 번째 가닥 cDNA 산물이 탄생했습니다. 이는 그림 4B에 표시되어 있으며 키트에 통합되어 있습니다. CEL-Seq라고 불리는 또 다른 방법은 cDNA의 5-말단에서 T7 프로모터 서열을 합성한 다음 in vitro 전사 동안 현상학적 증폭을 수행합니다.
단일 세포의 전체 RNA는 일반적으로 10pg이지만, 폴리A RNA는 0.1pg에 불과합니다. 따라서 이러한 방법은 라이브러리 구성을 위한 충분한 입력을 생성하기 위해 어느 정도 전체 전사 증폭이 필요합니다. 이러한 대규모 증폭의 단점은 기술적인 노이즈가 많이 발생한다는 점인데, 이는 아직 해결되지 않았습니다. (?)
마지막으로, 리보솜 각인은 번역의 모든 노드에서 세포 mRNA 전사물의 혼합을 반영할 수 있습니다. 이 방법은 RNase로 세포를 용해시켜 뉴클레오솜에 의해 보호되는 30개 뉴클레오티드 영역만 남기는 것을 포함합니다. 뉴클레오솜은 자당 구배 밀도 원심분리에 의해 정제된 다음 뉴클레오솜에서 mRNA가 추출됩니다. 또 다른 새로운 RNA 시퀀싱 응용 프로그램은 SHAPE-Seq입니다. 이는 아실화 시약을 사용하여 짝이 없는 염기를 편향적으로 수정하여 RNA의 2차 구조를 탐색합니다. 변형된 RNA와 변형되지 않은 대조군을 역전사함으로써 생성된 cDNA 단편의 서열이 분석되고, 비교를 통해 뉴클레오티드 수준에서 염기쌍 정보를 밝힐 수 있습니다.