segunda-feira, 27 de junho de 2022

Abstrato

Desde seu lançamento inicial em 2000, o genoma de referência humano cobriu apenas a fração eucromática do genoma, deixando importantes regiões heterocromáticas inacabadas. Abordando os 8% restantes do genoma, o Consórcio Telomere-to-Telomere (T2T) apresenta uma sequência completa de 3,055 bilhões de pares de bases de um genoma humano, T2T-CHM13, que inclui conjuntos sem lacunas para todos os cromossomos, exceto Y, corrige erros em as referências anteriores, e introduz cerca de 200 milhões de pares de bases de sequência contendo 1956 predições de genes, 99 dos quais são previstos para codificar proteínas. As regiões completas incluem todas as matrizes de satélite centroméricas, duplicações segmentares recentes e os braços curtos de todos os cinco cromossomos acrocêntricos, desbloqueando essas regiões complexas do genoma para estudos variacionais e funcionais.
O atual genoma de referência humano foi lançado pelo Genome Reference Consortium (GRC) em 2013 e mais recentemente corrigido em 2019 (GRCh38.p13) ( 1 ). Essa referência tem sua origem no Projeto Genoma Humano ( 2 ) com financiamento público e tem sido continuamente aprimorado nas últimas duas décadas. Ao contrário do esforço concorrente da Celera ( 3 ) e dos projetos de sequenciamento mais modernos baseados na montagem de sequência “shotgun” ( 4 )), o conjunto GRC foi construído a partir de cromossomos artificiais bacterianos (BACs) sequenciados que foram ordenados e orientados ao longo do genoma humano por meio de híbrido de radiação, ligação genética e mapas de impressão digital. No entanto, as limitações da clonagem de BAC levaram a uma sub-representação de sequências repetitivas, e a montagem oportunista de BACs derivados de vários indivíduos resultou em um mosaico de haplótipos. Como resultado, várias lacunas de montagem de GRC são insolúveis devido a polimorfismos estruturais incompatíveis em seus flancos, e muitas outras regiões repetitivas e polimórficas foram deixadas inacabadas ou montadas incorretamente ( 5 ).
O conjunto de referência GRCh38 contém 151 megapares de bases (Mbp) de sequência desconhecida distribuídos por todo o genoma, incluindo regiões pericentroméricas e subteloméricas, duplicações segmentares recentes, arranjos de genes amplicônicos e arranjos de DNA ribossômico (rDNA), todos necessários para processos celulares ( Fig. 1A ). Algumas das maiores lacunas de referência incluem matrizes de repetição de satélite humano (HSat) e os braços curtos de todos os cinco cromossomos acrocêntricos, que são representados em GRCh38 como trechos multimegabase de bases desconhecidas ( Fig. 1, B e C). Além dessas lacunas aparentes, outras regiões de GRCh38 são artificiais ou incorretas. Por exemplo, as matrizes de satélite alfa centroméricas são representadas como modelos gerados computacionalmente de monômeros de satélite alfa para servir como chamarizes para análises de resequenciamento ( 6 ), e a sequência atribuída ao braço curto do cromossomo 21 aparece falsamente duplicada e mal montada ( 7 ). Quando comparado com outros genomas humanos, GRCh38 também mostra um viés de deleção em todo o genoma que é indicativo de montagem incompleta ( 8 ). Apesar dos esforços de conclusão tanto do Projeto Genoma Humano ( 9 ) quanto do GRC ( 1) que melhorou a qualidade da referência, houve progresso limitado para fechar as lacunas restantes nos anos seguintes ( Fig. 1D ).
Fig. 1 . Resumo da montagem completa do genoma humano T2T-CHM13.
A ) Ideograma de recursos de montagem T2T-CHM13v1.1. Para cada cromossomo (chr), as seguintes informações são fornecidas de baixo para cima: lacunas e problemas em GRCh38 fixados por CHM13 sobrepostos com a densidade de genes exclusivos de CHM13 em vermelho; duplicações segmentares (SDs) ( 42 ) e satélites centroméricos (CenSat) ( 30 ); e previsões de ascendência CHM13 (EUR, europeu; SAS, sul asiático; EAS, leste asiático; AMR, americano misto). A escala inferior é medida em Mbp. B e C ) Bases adicionais (não sintênicas) na montagem CHM13 em relação a GRCh38 por cromossomo, com os acrocêntricos destacados em preto (B) e por tipo de sequência (C). (Observe que as anotações CenSat e SD se sobrepõem.) RepMask, RepeatMasker. D) Total de bases nongap em lançamentos de genoma de referência UCSC que datam de setembro de 2000 (hg4) e terminam com T2T-CHM13 em 2021. Mt/Y/Ns, mitocôndrias, chrY e gaps.
ABRIR NO VISUALIZADOR
O sequenciamento shotgun de leitura longa supera as limitações da montagem baseada em BAC e contorna os desafios do polimorfismo estrutural entre genomas. As leituras de molécula única e multiquilobase do PacBio ( 10 ) provaram ser capazes de resolver variações estruturais complexas e lacunas em GRCh38 ( 8 , 11 ), enquanto as leituras “ultralongas” > 100 kbp de Oxford Nanopore ( 12 ) permitiram montagens completas de um centrômero humano (cromossomo Y) ( 13 ) e, posteriormente, um cromossomo inteiro (cromossomo X) ( 14). No entanto, a alta taxa de erro (> 5%) dessas tecnologias apresentou desafios para a montagem de matrizes de repetição longas e quase idênticas. O mais recente sequenciamento de consenso circular “HiFi” da PacBio oferece um compromisso de comprimentos de leitura de 20 kbp com uma taxa de erro de 0,1% ( 15 ). Enquanto as leituras ultralongas são úteis para repetir repetições, as leituras de alta fidelidade se destacam na diferenciação de cópias repetidas ou haplótipos sutilmente divergentes ( 16 ).
Para finalizar as últimas regiões restantes do genoma, aproveitamos os aspectos complementares do sequenciamento de leitura ultralonga PacBio HiFi e Oxford Nanopore para montar a linhagem de células CHM13hTERT uniformemente homozigótica (doravante, CHM13) ( 17 ). O conjunto de referência T2T-CHM13 resultante remove uma barreira de 20 anos que escondeu 8% do genoma da análise baseada em sequência, incluindo todas as regiões centroméricas e todos os braços curtos de cinco cromossomos humanos. Aqui, descrevemos a construção, validação e análise inicial de um genoma de referência humano verdadeiramente completo e discutimos seu impacto potencial no campo.

Linhagem celular e sequenciamento

Tal como acontece com muitos esforços anteriores de melhoria do genoma de referência ( 1 , 8 , 17 – 20 ), incluindo os conjuntos T2T dos cromossomos humanos X ( 14 ) e 8 ( 21 ), direcionamos uma mola hidatiforme completa (CHM) para sequenciamento. A maioria dos genomas de CHM surge da perda do complemento materno e duplicação do complemento paterno pós-fertilização e são, portanto, homozigotos com cariótipo 46,XX ( 22 ). O sequenciamento de CHM13 confirmou homozigose quase uniforme, com exceção de alguns milhares de variantes heterozigóticas e uma deleção heterozigótica em escala de megabase dentro da matriz de rDNA no cromossomo 15 ( 23) (figs. S1 e S2). A análise de ancestralidade local mostra que a maior parte do genoma CHM13 é de origem europeia, incluindo regiões de introgressão neandertal, com alguma mistura prevista ( 23 ) ( Fig. 1A ). Comparado com diversas amostras do Projeto 1000 Genomas (1KGP) ( 24 ), CHM13 não possui excesso aparente de alelos singleton ou variantes de perda de função ( 25 ).
Sequenciamos extensivamente o CHM13 com várias tecnologias ( 23 ), incluindo sequenciamento de consenso circular PacBio 30 × (HiFi) ( 16 , 20 ), sequenciamento de leitura ultralonga Oxford Nanopore 120 × (ONT) ( 14 , 21 ), 100 × Illumina PCR-Free sequenciamento (ILMN) ( 1 ), 70× Illumina Arima Genomics Hi-C (Hi-C) ( 14 ), mapas ópticos BioNano ( 14 ) e sequenciamento de fita modelo de DNA de célula única (Strand-seq) ( 20) (tabela S1). Para permitir a montagem das matrizes de satélite centroméricas altamente repetitivas e duplicações segmentares intimamente relacionadas, desenvolvemos métodos para montagem, polimento e validação que melhor utilizam esses conjuntos de dados disponíveis.

Montagem do genoma

A base da montagem T2T-CHM13 é um gráfico de string de montagem de alta resolução ( 26 ) construído diretamente de leituras HiFi. Em um grafo de string bidirecional, os nós representam sequências montadas sem ambiguidade e as bordas correspondem às sobreposições entre eles, devido a repetições ou adjacências verdadeiras no genoma subjacente. O gráfico CHM13 foi construído usando um método específico que combina componentes de montadores existentes ( 16 , 27 ) juntamente com processamento especializado de gráficos ( 23 ). A maioria dos erros HiFi são pequenas inserções ou deleções dentro de sequências de homopolímeros e repetições de sequência simples ( 16 ), então as sequências de homopolímeros foram primeiro “comprimidas” em um único nucleotídeo (por exemplo, A 1 ...A ntorna-se A 1 para n > 1). Todas as leituras compactadas foram então alinhadas umas às outras para identificar e corrigir pequenos erros, e as diferenças nas repetições de sequência simples foram mascaradas. Após compressão, correção e mascaramento, apenas as sobreposições exatas de leitura foram consideradas durante a construção do gráfico, seguidas de simplificação iterativa do gráfico ( 23 ).
No gráfico resultante, a maioria dos componentes se origina de um único cromossomo e tem uma estrutura quase linear ( Fig. 2A ), o que sugere que existem poucas repetições perfeitas maiores que aproximadamente 10 kbp entre cromossomos diferentes ou loci distantes. Duas exceções notáveis ​​são os cinco cromossomos acrocêntricos, que formam um único componente conectado no gráfico, e uma recente duplicação multimegabase HSat3 ​​no cromossomo 9, consistente com o cariótipo 9qh+ de CHM13 (fig. S3). A fragmentação menor dos cromossomos em múltiplos componentes resultou da falta de cobertura de sequenciamento HiFi em sequências ricas em GA ( 16 ). Essas lacunas foram posteriormente preenchidas com uma montagem anterior baseada em ONT (CHM13v0.7) ( 14 ).
Fig. 2 . Gráfico de cadeia de montagem de alta resolução do genoma CHM13.
A ) Visualização de bandagem ( 60 ), onde os nós representam sequências montadas de forma inequívoca escalonadas por comprimento e as bordas correspondem às sobreposições entre as sequências de nós. Cada cromossomo é colorido e numerado no braço curto (p). Braços longos (q) são rotulados onde não estiverem claros. Os cinco cromossomos acrocêntricos (canto inferior direito) estão conectados devido à semelhança entre seus braços curtos, e os arranjos de rDNA formam cinco emaranhados densos devido ao seu alto número de cópias. O gráfico é parcialmente fragmentado devido à queda de cobertura HiFi em torno da sequência rica em GA (triângulos pretos). Os satélites centroméricos ( 30 ) são a fonte de maior ambiguidade no gráfico (realces em cinza). MT, mitocôndrias. B) A travessia gráfica assistida por ONT para o locus 2p11 é dada por ordem numérica. Com base na baixa profundidade de cobertura, o nó cinza claro não rotulado representa um artefato ou variante heterozigótica e não foi usado. C ) A duplicação de HSat3 ​​em tandem multimegabase (9qh+) em 9q12 requer duas travessias da estrutura de loop grande. (O tamanho do loop é exagerado porque as arestas do gráfico são de tamanho constante.) Os nós usados ​​pela primeira travessia estão em roxo escuro e os nós usados ​​pela segunda travessia estão em roxo claro. Os nós usados ​​por ambas as travessias normalmente têm o dobro da cobertura de sequenciamento. D ) Ampliação dos braços curtos distais dos acrocêntricos, mostrando as caminhadas e bordas do gráfico colorido entre sequências altamente semelhantes nas junções distais (DJs) adjacentes aos arranjos de rDNA.
ABRIR NO VISUALIZADOR
Idealmente, a sequência completa para cada cromossomo deve existir como um passeio pelo grafo de strings, onde alguns nós podem ser percorridos várias vezes (repetições) e alguns não (erros e variantes heterozigóticas). Para ajudar a identificar os passeios corretos, estimamos a profundidade de cobertura e a multiplicidade dos nós ( 23 ), o que permitiu que a maioria dos emaranhados fossem resolvidos manualmente como passeios únicos visitando cada nó o número apropriado de vezes ( Fig. 2B e fig. S4). Nos casos restantes, o caminho correto era ambíguo e exigia integração de leituras ONT ( Fig. 2, C e D ). Sempre que possível, as leituras ONT foram alinhadas aos percursos candidatos ou diretamente ao gráfico HiFi ( 28) para orientar a caminhada correta (fig. S5), mas estratégias mais elaboradas foram necessárias para duplicações recentes de arranjos de satélites nos cromossomos 6 e 9 ( 23 ). Apenas os cinco arranjos de rDNA, constituindo cerca de 10 Mbp de sequência, não puderam ser resolvidos com o gráfico de string e exigiram uma abordagem especializada (descrita posteriormente). Uma sequência de consenso precisa para as caminhadas gráficas selecionadas foi calculada a partir das leituras HiFi não compactadas ( 23 ), resultando na montagem de rascunho CHM13v0.9.
Para genômica comparativa do centrômero ( 29 , 30 ), repetimos esse processo em um cromossomo X adicional da linhagem de células Coriell GM24385 [National Institute of Standards and Technology (NIST) ID: HG002]. O conjunto T2T-HG002-ChrX resultante mostra uma precisão comparável a T2T-CHM13 ( 23 ) (figs. S6 a S8).

montagem de rDNA

A região mais complexa do gráfico de cadeia CHM13 envolve as matrizes de rDNA humano e sua sequência circundante ( Fig. 2D ). Os rDNAs humanos são repetições quase idênticas de 45 kbp que codificam o rRNA 45S e estão dispostos em grandes conjuntos de repetições em tandem incorporados nos braços curtos dos cromossomos acrocêntricos. O comprimento dessas matrizes varia entre os indivíduos ( 31 ) e até mesmo somaticamente, principalmente com o envelhecimento e certos tipos de câncer ( 32 ). Um genoma humano diplóide típico tem uma média de 315 cópias de rDNA, com um desvio padrão de 104 cópias ( 31 ). Estimamos que o genoma diplóide CHM13 contém cerca de 400 cópias de rDNA com base na profundidade de cobertura do ILMN ( 23) (fig. S9) ou 409 ± 9 (média ± SD) cópias de rDNA por reação em cadeia da polimerase digital em gotículas (ddPCR) (fig. S10).
Para montar essas regiões altamente dinâmicas do genoma e superar as limitações da construção do gráfico de string ( 23 ) (fig. S11), construímos gráficos de Bruijn esparsos para cada um dos cinco arranjos de rDNA ( 33 ) (fig. S12). As leituras ONT foram alinhadas aos gráficos para identificar um conjunto de caminhadas, que foram convertidas em sequência, segmentadas em unidades individuais de rDNA e agrupadas em “morfos” de acordo com sua similaridade de sequência. O número de cópias de cada morph foi estimado a partir do número de leituras ONT de suporte, e as sequências de consenso foram polidas com leituras HiFi mapeadas. As leituras ONT abrangendo duas ou mais unidades de rDNA foram usadas para construir um morph graph representando a estrutura de cada array (fig. S12).
Os arranjos mais curtos nos cromossomos 14 e 22 consistem em um único morfo primário organizado em um arranjo cabeça-cauda, ​​enquanto os arranjos mais longos nos cromossomos 13, 15 e 21 exibem uma estrutura mais em mosaico envolvendo múltiplos morfos intercalados. Nesses casos, as leituras do ONT não eram longas o suficiente para resolver completamente a ordenação, e os morfos primários foram organizados artificialmente em blocos consecutivos refletindo seu número de cópias estimado. Esses três arranjos capturam os morfos específicos do cromossomo, mas devem ser tratados como sequências modelo. A montagem final de T2T-CHM13 contém 219 cópias completas de rDNA, totalizando 9,9 Mbp de sequência.

Validação e polimento de montagem

Para avaliar a concordância entre as leituras e a montagem, mapeamos todos os dados primários disponíveis - incluindo HiFi, ONT, ILMN, Strand-seq e Hi-C - para a montagem de rascunho CHM13v0.9 para identificar variantes pequenas e estruturais [consulte ( 34 ) para uma descrição completa]. A curadoria manual corrigiu 4 erros grandes e 993 pequenos, resultando na montagem CHM13v1.0, e identificou 44 variantes heterozigóticas grandes e 3901 pequenas ( 34 ). O polimento adicional dos telômeros e a adição das matrizes de rDNA ( 23 ) resultaram em uma montagem completa de telômero a telômero de um genoma humano, T2T-CHM13v1.1.
A montagem T2T-CHM13 é consistente com montagens previamente validadas de cromossomos X ( 14 ) e 8 ( 21 ), e os tamanhos das matrizes de satélite montadas correspondem às estimativas de número de cópias ddPCR para aqueles testados (fig. S10 e tabelas S2 e S3). Os dados de Strand-seq mapeados (figs. S13 e S14) e Hi-C (fig. S15) não mostram sinais de desorientações ou outros erros estruturais de grande escala. A montagem resolve corretamente 644 de 647 BACs CHM13 sequenciados anteriormente em > 99,99% de identidade, com os outros três refletindo erros nos próprios BACs (figs. S16 a S19).
A profundidade de leitura do sequenciamento mapeado mostra uma cobertura uniforme em todos os cromossomos ( Fig. 3A ), com 99,86% da montagem dentro de três desvios padrão da cobertura média para HiFi ou ONT (cobertura HiFi 34,70 ± 7,03 e cobertura ONT 116,16 ± 16,96, excluindo o genoma mitocondrial). Ignorando a sequência de 10 Mbp de rDNA, onde reside a maior parte do desvio de cobertura, 99,99% da montagem está dentro de três desvios padrão ( 23 ). A análise sem alinhamento dos dados de número de cópias ILMN e HiFi também mostra concordância com a montagem (figs. S20 e S21). Isso é consistente com a cobertura uniforme do genoma e confirma tanto a precisão da montagem quanto a ausência de aneuploidia nas células CHM13 sequenciadas.
Fig. 3 . Cobertura de sequenciamento e validação de montagem.
A ) A cobertura uniforme de todo o genoma de leituras HiFi e ONT mapeadas é mostrada com alinhamentos primários em tons claros e alinhamentos assistidos por marcadores sobrepostos em tons escuros. Grandes matrizes HSat ( 30 ) são indicadas por triângulos, com regiões inseridas marcadas por setas e a localização das matrizes de rDNA marcada com asteriscos. Regiões com baixa frequência de marcador único (verde claro) correspondem a quedas na densidade de marcador único, mas são recuperadas pelos alinhamentos primários de menor confiança. Problemas de montagem anotados são comparados para T2T-CHM13 e GRCh38. Hets, variantes heterozigóticas; k , tamanho do marcador. B a D ) Ampliações correspondentes às regiões do genoma apresentadas na Fig. 2, B a D, respectivamente. Mudanças de cobertura uniforme em certos satélites são reproduzíveis e provavelmente causadas por viés de sequenciamento. Variantes heterozigóticas identificadas e problemas de montagem estão marcados abaixo e normalmente correspondem a baixa cobertura do alelo primário (preto) e maior cobertura do alelo secundário (vermelho). A porcentagem de repetições de microssatélites para cada janela de 128 bp é mostrada na parte inferior. dHOR, HOR divergente; mon, monomérico.
ABRIR NO VISUALIZADOR
Aumentos ou diminuições de cobertura foram observados em várias matrizes de satélites ( Fig. 3, B a D ). No entanto, dada a uniformidade de cobertura entre esses arrays, a associação com classes de satélites específicas e o efeito oposto observado para HiFi e ONT, hipotetizamos que essas anomalias estão relacionadas a vieses introduzidos durante a preparação da amostra, sequenciamento ou chamada de base, em vez de erro de montagem ( 23 ) (figs. S22 a S26 e tabela S4). Embora os mecanismos específicos requeiram mais investigação, estudos anteriores notaram vieses semelhantes em certas matrizes de satélites e contextos de sequência para ONT e HiFi ( 35 , 36 ).
Por serem as regiões mais difíceis do genoma de montar, realizamos validação direcionada de repetições em tandem longas para identificar quaisquer erros perdidos pela abordagem de todo o genoma. Os morfos de rDNA montados, sendo apenas 45 kbp cada, foram validados manualmente por inspeção dos alinhamentos lidos usados ​​para polimento. Repetições de ordem superior de satélite alfa (HORs) foram validadas usando um método específico ( 37 ) (fig. S27 e tabela S5) e comparadas com estimativas de número de cópias HOR baseadas em ILMN independentes (fig. S28). Todas as matrizes de satélite centroméricas, incluindo satélite beta (BSat) e repetições HSat, foram ainda validadas medindo a proporção de variantes primárias e secundárias identificadas por leituras HiFi ( 38 ) (fig. S29).
A precisão de consenso da montagem T2T-CHM13 é estimada em cerca de um erro por 10 Mbp ( 23 , 34 ), o que excede o padrão histórico de sequência "acabada" por ordens de magnitude. No entanto, regiões de baixa cobertura de alta fidelidade foram associadas a um enriquecimento de erros potenciais, conforme estimado a partir de dados de alta fidelidade e ILMN ( 34 ). Para orientar o uso futuro do conjunto, catalogamos todos os locais de baixa cobertura, baixa confiança e heterozigotos conhecidos identificados pelos procedimentos de validação acima ( 34 ). O número total de bases cobertas por possíveis problemas no conjunto T2T-CHM13 é apenas 0,3% do comprimento total do conjunto em comparação com 8% para GRCh38 ( Fig. 3A ).

Um genoma verdadeiramente completo

T2T-CHM13 inclui conjuntos de telômero a telômero sem lacunas para todos os 22 autossomos humanos e cromossomo X, compreendendo 3.054.815.472 pb de DNA nuclear, além de um genoma mitocondrial de 16.569 pb. Esta montagem completa adiciona ou corrige 238 Mbp de sequência que não se alinha colinearmente a GRCh38 em um intervalo de 1 Mbp (ou seja, é não-sintênico), compreendendo principalmente satélites centroméricos (76%), duplicações segmentais não satélites (19%) e rDNAs ( 4%) ( Fig. 1C ). Destes, 182 Mbp de sequência não possuem alinhamentos primários para GRCh38 e são exclusivos para T2T-CHM13. Como resultado, T2T-CHM13 aumenta o número de genes conhecidos e repetições no genoma humano ( Tabela 1 ).

ESTATISTICASGRCH38T2T-CHM13DIFERENÇA (± %)
Resumo
Bases montadas (Gbp)2,923,05+4,5
Bases não colocadas (Mbp)11,420-100,0
Bases de intervalo (Mbp)120,310-100,0
Número de contigs94924−97,5
Contig NG50 (Mbp)56,41154,26+173,5
Número de problemas23046-80,0
Problemas (Mbp)230,438.18−96,5
Anotação do gene
Número de genes60.09063.494+5,7
  Codificação de proteínas19.89019.969+0,4
Número de genes exclusivos2633.604 
  Codificação de proteínas63140 
Número de transcrições228.597233.615+2,2
  Codificação de proteínas84.27786.245+2,3
Número de transcrições exclusivas1.7086.693 
  Codificação de proteínas8292.780 
Duplicações segmentais
Porcentagem de duplicações segmentais (%)5,006,61 
Bases de duplicação segmentar (Mbp)151,71201,93+33,1
Número de duplicações segmentais2409741528+72,3
RepeatMasker
Porcentagem de repetições (%)51,8953,94 
Bases de repetição (Mbp)1.516,371.647,81+8,7
Elementos nucleares longos intercalados626,33631,64+0,8
Elementos nucleares intercalados curtos386,48390,27+1,0
Repetições terminais longas267,52269,91+0,9
Satélite76,51150,42+96,6
ADN108,53109,35+0,8
Repetição simples36,577,69



Tabela 1 . Comparação de conjuntos de genoma humano GRCh38 e T2T-CHM13v1.1.
As estatísticas resumidas do GRCh38 excluem “alts” (110 Mbp), patches (63 Mbp) e cromossomo Y (58 Mbp). As bases montadas incluem todas as bases não N. Bases não colocadas são aquelas não atribuídas ou posicionadas dentro de um cromossomo. Os andaimes GRCh38 foram divididos em três Ns consecutivos para obter o número de contigs. Contig NG50 é o maior valor, de modo que contigs de pelo menos esse tamanho totalizam mais da metade do tamanho do genoma de 3,05 Gbp. O número de genes ou transcritos exclusivos é o seguinte: para GRCh38, genes GENCODE e transcritos não encontrados em CHM13; e para CHM13, parálogos putativos extras que não estão em GENCODE. A análise de duplicação segmentar é de ( 42 ). A análise RepeatMasker é de ( 49 ). Os espaços em branco indicam não aplicável.
ABRIR NO VISUALIZADOR
Para fornecer uma anotação inicial, usamos tanto o Comparative Annotation Toolkit (CAT) ( 39 ) quanto o Liftoff ( 40 ) para projetar a anotação de referência GENCODE v35 ( 41 ) na montagem T2T-CHM13. Além disso, as leituras do transcriptoma de sequenciamento de isoformas de comprimento total CHM13 (Iso-seq) foram montadas em transcrições e fornecidas como entrada complementar para CAT. Uma anotação abrangente foi construída combinando a anotação CAT com genes identificados apenas por Liftoff ( 23 ).
A anotação preliminar T2T-CHM13 totaliza 63.494 genes e 233.615 transcritos, dos quais 19.969 genes (86.245 transcritos) são previstos para serem codificadores de proteínas, com 683 frameshifts previstos em 385 genes (469 transcritos) ( Tabela 1 , fig. S30 e tabelas S6 para S8). Apenas 263 genes GENCODE (448 transcritos) são exclusivos de GRCh38 e não têm ortólogo atribuído na anotação CHM13 (tabelas S9 e S10). Destes, 194 são devidos a um menor número de cópias na anotação CHM13 (fig. S31), 46 não se alinham bem com CHM13 e 23 correspondem a falsas duplicações conhecidas em GRCh38 ( 25 ) (fig. S32). A maioria desses genes não é codificante e está associada a elementos repetitivos. Apenas quatro são anotados como sendo medicamente relevantes ( CFHR1 , CFHR3 ,OR51A2 , UGT2B28 ), todos os quais estão ausentes devido a uma diferença no número de cópias, e os únicos genes codificadores de proteínas que se alinham mal são os genes de imunoglobulina e receptor de células T, que são conhecidos por serem altamente diversos.
Em comparação, um total de 3604 genes (6693 transcritos) são exclusivos de CHM13 (tabelas S11 e S12). A maioria desses genes representam parálogos putativos e localizam-se em regiões pericentroméricas e nos braços curtos dos acrocêntricos, incluindo 876 transcritos de rRNA. Apenas 48 dos genes exclusivos de CHM13 (56 transcritos) foram previstos apenas a partir de transcritos montados de novo. De todos os genes exclusivos de CHM13, prevê-se que 140 sejam codificadores de proteínas com base em seus parálogos GENCODE e tenham uma média de 99,5% de nucleotídeos e 98,7% de identidade de aminoácidos com sua cópia GRCh38 mais semelhante (tabela S13). Embora alguns desses parálogos adicionais possam estar presentes (mas não anotados) em GRCh38 ( 23), 1956 dos genes exclusivos de CHM13 (99 codificadores de proteínas) estão em regiões sem alinhamento primário com GRCh38 (tabela S11). Um conjunto mais amplo de 182 genes codificadores de proteínas multi-exons se enquadra em regiões não sintênicas, 36% dos quais foram confirmados para serem expressos em CHM13 ( 42 ).
Comparado com GRCh38, T2T-CHM13 é uma referência mais completa, precisa e representativa para chamadas variantes de leitura curta e longa em amostras humanas de todas as ascendências ( 25 ). A reanálise de 3202 conjuntos de dados de leitura curta do 1KGP mostrou que o T2T-CHM13 reduz simultaneamente as chamadas variantes falso-negativas e falso-positivas devido à adição de 182 Mbp de sequência ausente e à exclusão de 1,2 Mbp de sequência falsamente duplicada em GRCh38. Essas melhorias, combinadas com uma frequência menor de variantes raras e erros no T2T-CHM13, eliminam dezenas de milhares de variantes espúrias por amostra de 1 KGP ( 25). Além disso, a referência T2T-CHM13 foi considerada mais representativa da variação do número de cópias humanas do que GRCh38 quando comparada com 268 genomas humanos do Simons Genome Diversity Project (SGDP) 42,43 ) . Especificamente, dentro de regiões duplicadas segmentalmente não sintênicas do genoma, T2T-CHM13 é nove vezes mais preditivo do número de cópias SGDP do que GRCh38 ( 42 ). Esses resultados ressaltam tanto a qualidade da montagem quanto a estabilidade genômica da linhagem celular da qual foi derivada.

Cromossomos acrocêntricos

T2T-CHM13 revela a estrutura genômica dos braços curtos dos cinco cromossomos acrocêntricos, que, apesar de sua importância para a função celular ( 44 ), permaneceram em grande parte não sequenciados até hoje. Essa omissão deve-se ao seu enriquecimento por repetições satélites e duplicações segmentares, o que proibiu a montagem de sequências e limitou sua caracterização à citogenética, mapeamento de restrição e sequenciamento BAC ( 45 – 47 ). Todos os cinco braços curtos de CHM13 seguem uma estrutura semelhante que consiste em um arranjo de rDNA embutido em arranjos de repetição distal e proximal ( Fig. 4 ). Do telômero ao centrômero, os braços curtos variam em tamanho de 10,1 Mbp (cromossomo 14) a 16,7 Mbp (cromossomo 15), com um comprimento combinado de 66,1 Mbp.
Fig. 4 . Braços curtos dos cromossomos acrocêntricos.
Cada braço curto é mostrado junto com genes anotados, porcentagem de CpGs metilados ( 29 ) e uma anotação de repetição de satélite codificada por cores ( 30). As matrizes de rDNA são representadas por uma seta direcional e número de cópias devido à sua alta auto-semelhança, o que proíbe o mapeamento ONT. Os mapas de calor de identidade de porcentagem versus os outros quatro braços foram calculados em janelas de 10 kbp e suavizados em intervalos de 100 kbp. Cada posição mostra a identidade máxima dessa janela para qualquer janela do outro cromossomo. Os braços curtos distais incluem estrutura satélite conservada e repetições invertidas (setas finas), enquanto os braços curtos proximais mostram uma diversidade de estruturas. Os braços curtos proximais dos cromossomos 13, 14 e 21 compartilham um núcleo duplicado segmentalmente, incluindo pequenos arranjos HOR satélite alfa e um arranjo central SST1 altamente metilado (setas finas com bloco azul-petróleo). Triângulos amarelos indicam regiões de mergulho centroméricas hipometiladas (CDRs), marcando os locais de montagem do cinetócoro (29 ). Os números entre parênteses indicam o número da cópia do rDNA. ACRO, repetição acrocêntrica; CER, repetição centromérica; DJ, junção distal; PJ, junção proximal; SD, duplicação segmentar.
ABRIR NO VISUALIZADOR
Comparados com outros cromossomos humanos, os braços curtos dos acrocêntricos são extraordinariamente semelhantes entre si. Especificamente, descobrimos que as janelas de 5 kbp se alinham com uma identidade mediana de 98,7% entre os braços curtos, criando muitas oportunidades para troca intercromossômica ( Fig. 4 ). Este alto grau de similaridade é presumivelmente devido à recente recombinação não alélica ou ectópica decorrente de sua co-localização no nucléolo ( 46 ). Além disso, considerando um limite de identidade de 80%, nenhuma janela de 5 kbp nos braços curtos é única e 96% da sequência não-rDNA pode ser encontrada em outras partes do genoma, sugerindo que os acrocêntricos são fontes dinâmicas de duplicação segmentar.
Os arranjos de rDNA de CHM13 variam em tamanho de 0,7 Mbp (cromossomo 14) a 3,6 Mbp (cromossomo 13) e estão no arranjo esperado, organizados como arranjos em tandem cabeça-cauda com todas as 45 unidades de transcrição S apontando para o centrômero. Não foram observadas inversões dentro das matrizes e quase todas as unidades de rDNA são de tamanho completo, em contraste com alguns estudos anteriores que relataram inversões incorporadas e outras estruturas não canônicas ( 47 , 48 ). Cada arranjo parece altamente homogeneizado, e há mais variação entre unidades de rDNA em cromossomos diferentes do que dentro de cromossomos (fig. S33), sugerindo que a troca intracromossômica de unidades de rDNA por meio de recombinação homóloga não alélica é mais comum do que a troca intercromossômica.
Muitas cópias do gene 45S no mesmo cromossomo são idênticas umas às outras, enquanto a identidade dos morfos 45S mais frequentes entre os cromossomos varia de 99,4 a 99,7%. Um morfo de rDNA do cromossomo 15 mostra a maior identidade (98,9%) com a atual sequência de referência de rDNA KY962518.1, originalmente derivada de um clone BAC do cromossomo 21 humano ( 47 ). Como esperado, o 45S de 13 kbp é mais conservado do que o espaçador intergênico, com todos os principais morfos de 45S alinhando entre 99,4 e 99,6% de identidade com KY962518.1 Certas variantes de rDNA parecem ser cromossômicas específicas, incluindo variantes de um único nucleotídeo dentro do 45Se sua região promotora a montante (fig. S34). As variantes mais evidentes são expansões e contrações repetidas dentro da repetição tandem “R” que segue imediatamente o 45 S e a repetição “longa” rica em CT localizada no meio do espaçador intergênico. O morph mais frequente em cada array pode ser especificamente distinguido por essas duas características (fig. S35).
Do telômero ao arranjo de rDNA, a estrutura de todos os cinco braços curtos distais segue um padrão semelhante que envolve um arranjo simétrico de duplicações segmentares invertidas e repetições acrocêntricas, HSat3, BSat e HSat1 ( Fig. 4 ); no entanto, os tamanhos dessas matrizes de repetição variam entre os cromossomos. O cromossomo 13 não possui a metade distal da duplicação invertida e possui uma matriz HSat1 expandida em relação aos outros. Apesar de sua variabilidade em tamanho, todas as matrizes de satélites compartilham um alto grau de similaridade (tipicamente > 90% de identidade) tanto dentro quanto entre cromossomos acrocêntricos. Os cromossomos 14 e 22 também apresentam a expansão de uma repetição satélite de 64 pb associada a Alu (“Walu”) dentro da duplicação invertida distal ( 49), cuja localização foi confirmada por hibridização in situ de fluorescência (FISH) (fig. S36). A junção distal imediatamente antes do arranjo de rDNA inclui repetições centroméricas e uma repetição palindrômica de 200 kbp altamente conservada e ativamente transcrita, o que concorda com caracterizações anteriores das sequências flanqueadoras de rDNA ( 46 , 50 ).
Estendendo-se da matriz de rDNA ao centrômero, os braços curtos proximais são maiores em tamanho e mostram uma maior diversidade de estruturas, incluindo duplicações segmentares embaralhadas ( 42 ), matrizes de elementos transponíveis compostos ( 49 ), matrizes de satélites (incluindo HSat3, BSat, HSat1 , e HSat5) e matrizes de satélite alfa (monoméricas e HORs) ( 30 ). Algumas matrizes BSat proximais mostram uma estrutura de inversão em mosaico que também foi observada em matrizes HSat em outras partes do genoma ( 30 ) (fig. S37). Os braços curtos proximais dos cromossomos 13, 14 e 21 parecem compartilhar o mais alto grau de semelhança com uma grande região de duplicação segmentar, incluindo subconjuntos HOR semelhantes e uma matriz SST1 central e altamente metilada ( Fig. 4). Isso coincide com esses três cromossomos sendo mais frequentemente envolvidos em translocações Robertsonianas ( 51 ). HORs satélite alfa nos cromossomos 13 e 21 e cromossomos 14 e 22 também compartilham alta similaridade dentro de cada par, mas não entre eles ( 52 , 53 ). As sequências não-satélite dentro dessas duplicações segmentares geralmente excedem 99% de identidade e mostram evidências de transcrição ( 29 , 42 , 49 ). Usando a referência T2T-CHM13 como base, agora é necessário mais estudo de genomas adicionais para entender quais dessas características são conservadas em toda a população humana.

Análises e recursos

Vários estudos complementares foram realizados para caracterizar a sequência completa de um genoma humano, incluindo análises abrangentes de satélites centroméricos ( 30 ), duplicações segmentares ( 42 ), perfis transcricionais ( 49 ) e epigenéticos ( 29 ), elementos móveis ( 49 ) , e chamadas variantes ( 25 ). Até 99% do genoma completo de CHM13 pode ser mapeado com confiança com sequenciamento de leitura longa, abrindo essas regiões do genoma para análise funcional e variacional ( 23 ) (fig. S38 e tabela S14). Produzimos uma rica coleção de anotações e conjuntos de dados ômicos para CHM13 - incluindo sequenciamento de RNA (RNA-seq) ( 30 ), Iso-seq ( 21), sequenciamento de precisão run-on (PRO-seq) ( 49 ), clivagem sob alvos e liberação usando nuclease (CUT&RUN) ( 30 ) e experimentos de metilação ONT ( 29 ) - e disponibilizamos esses conjuntos de dados por meio de uma Universidade da Califórnia centralizada , Santa Cruz (UCSC), navegador de genoma Assembly Hub ( 54 ).
Para destacar a utilidade desses recursos genéticos e epigenéticos mapeados para um genoma humano completo, fornecemos o exemplo de uma região segmentarmente duplicada do subtelômero do cromossomo 4q que está associada à distrofia muscular facioscapuloumeral (FSHD) ( 55 ). Esta região inclui o gene 1 da região FSHD ( FRG1 ), o gene 2 da região FSHD ( FRG2 ) e uma repetição macrossatélite D4Z4 interveniente contendo o gene homeobox 4 duplo ( DUX4 ) que foi implicado na etiologia da FSHD ( 56 ). Numerosas duplicações desta região ao longo do genoma complicaram as análises genéticas anteriores de FSHD.
A montagem T2T-CHM13 revela 23 parálogos de FRG1 espalhados por todos os cromossomos acrocêntricos, bem como cromossomos 9 e 20 ( Fig. 5A ). Este gene parece ter sofrido amplificação recente nos grandes símios ( 57 ), e localizações aproximadas de parálogos de FRG1 foram previamente identificadas por FISH ( 58 ). No entanto, apenas nove parálogos de FRG1 são encontrados em GRCh38, dificultando a análise baseada em sequência.
Fig. 5 . Paralogs FRG1 resolvidos.
A ) Gene codificador de proteínas FRG1 e seus 23 parálogos em CHM13. Apenas nove são encontrados em GRCh38. Os genes são desenhados maiores do que seu tamanho real, e o prefixo “ FRG1 ” é omitido por brevidade. Todos os parálogos são encontrados perto de matrizes de satélites. A maioria das cópias exibe evidência de expressão, incluindo ilhas CpG presentes no local de início 5' com vários graus de metilação. B ) A cobertura do alelo de referência (cinza) e variante (colorida) é mostrada para quatro amostras HiFi humanas mapeadas para o parálogo FRG1DP . Quando mapeado para GRCh38, a região mostra cobertura e variantes de alta fidelidade excessivas, indicando que as leituras dos parálogos ausentes são mapeadas incorretamente para FRG1DP(variantes >80% de frequência mostradas). Quando mapeado para CHM13, as leituras HiFi mostram a cobertura esperada e um padrão de variação heterozigoto típico para as três amostras não-CHM13 (variantes > 20% de frequência mostradas). Esses alelos sem referência também são encontrados em outras populações de dados de 1KGP ILMN. NonRef AF, frequência alélica sem referência; AFR, Africano; AMR, americano misto; EAS, Leste Asiático; EUR, Europeu; SAS, Sul da Ásia. C ) Cobertura de leitura HiFi mapeada para outros parálogos FRG1 , com um contexto estendido mostrado para o cromossomo 20. A cobertura de leituras HiFi mapeadas para FRG1DP em GRCh38 é destacada (cinza escuro), mostrando as cópias parálogas de onde se originam ( FRG1BP4 a FRG1BP10 , FRG1GP ,FRG1GP2 e FRG1KP4 ). A cobertura de fundo é variável para alguns parálogos, sugerindo a presença de polimorfismo de número de cópias na população. D ) Perfis de metilação e expressão sugerem transcrição de FRG1DP em CHM13. Na exibição do número de cópias (parte inferior), as janelas de 100 bp do conjunto CHM13 são destacadas com uma cor que representa o número de cópias dessa sequência em uma amostra SGDP. As trilhas CHM13 e GRCh38 mostram o número de cópias dessas mesmas sequências nas respectivas montagens. O número de cópias CHM13 se assemelha a todas as amostras do SGDP, enquanto GRCh38 representa pouco o número de cópias verdadeiro.
ABRIR NO VISUALIZADOR
Um dos poucos parálogos de FRG1 incluídos em GRCh38, FRG1DP , está localizado na região centromérica do cromossomo 20 e compartilha alta identidade (97%) com vários parálogos ( FRG1BP4 a FRG1BP10 ) ( 23 ) (fig. S39 e tabelas S15 e S16) . Ao mapear leituras HiFi, a ausência dos parálogos FRG1 adicionais em GRCh38 faz com que suas leituras se alinhem incorretamente a FRG1DP , resultando em muitas variantes falso-positivas ( Fig. 5B ). A maioria dos parálogos de FRG1 aparece presente em outros genomas humanos ( Fig. 5C ), e todos, exceto FRG1KP2 e FRG1KP3têm ilhas CpG a montante e algum grau de evidência de expressão em CHM13 ( Fig. 5D e tabela S17). Quaisquer variantes dentro desses parálogos, e outras semelhantes, serão ignoradas ao usar GRCh38 como referência.

Futuro do genoma de referência humano

O conjunto T2T-CHM13 adiciona cinco braços cromossômicos completos e mais sequência adicional do que qualquer liberação de referência do genoma nos últimos 20 anos ( Fig. 1D ). Esses 8% do genoma não foram esquecidos por falta de importância, mas sim por limitações tecnológicas. O sequenciamento de leitura longa de alta precisão finalmente removeu essa barreira tecnológica, permitindo estudos abrangentes de variação genômica em todo o genoma humano, que esperamos impulsionar futuras descobertas em saúde e doença genômica humana. Tais estudos exigirão necessariamente um genoma de referência humano completo e preciso.
CHM13 não possui um cromossomo Y, e CHMs homozigotos portadores de Y não são viáveis, portanto, um tipo de amostra diferente será necessário para completar este último cromossomo restante. No entanto, dada a sua natureza haploide, deve ser possível montar o cromossomo Y de uma amostra masculina usando os mesmos métodos descritos aqui e complementar o conjunto de referência T2T-CHM13 com um cromossomo Y conforme necessário.
Estendendo-se além do genoma de referência humano, projetos de resequenciamento em larga escala revelaram variação genômica entre populações humanas. Nossas reanálises dos conjuntos de dados 1KGP ( 25 ) e SGDP ( 42 ) já mostraram as vantagens do T2T-CHM13, mesmo para análises de leitura curta. No entanto, esses estudos dão apenas um vislumbre da extensa variação estrutural que se encontra nas regiões mais repetitivas do genoma aqui reunido. Estudos de resequenciamento de leitura longa agora são necessários para pesquisar de forma abrangente a variação polimórfica e revelar quaisquer associações fenotípicas nessas regiões.
Embora CHM13 represente um haplótipo humano completo, ele não captura toda a diversidade da variação genética humana. Para resolver esse viés, o Human Pangenome Reference Consortium ( 59 ) juntou-se ao T2T Consortium para construir uma coleção de haplótipos de referência de alta qualidade a partir de um conjunto diversificado de amostras. Idealmente, todos os genomas poderiam ser montados com a qualidade alcançada aqui, mas a montagem T2T automatizada de genomas diplóides apresenta um desafio difícil que exigirá desenvolvimento contínuo. Até que esse objetivo seja alcançado e qualquer genoma humano possa ser completamente sequenciado sem erros, o conjunto T2T-CHM13 representa uma referência mais completa, representativa e precisa do que GRCh38.

Agradecimentos

Agradecemos a M. Akeson, A. Carroll, P.-C. Chang, A. Delcher, M. Nattestad e M. Pop pelas discussões sobre sequenciamento, montagem e análise; AnVIL, Amazon Web Services, DNAnexus, UW Genome Sciences IT Group e UConn Computational Biology Core para suporte computacional; e os Institutos Nacionais de Saúde (NIH) Intramural Sequencing Center, o UConn Center for Genome Innovation e o Stowers Imaging Facility para apoio experimental. Este trabalho utilizou os recursos computacionais do cluster NIH HPC Biowulf ( https://hpc.nih.gov). Certos equipamentos, instrumentos ou materiais comerciais são identificados para especificar adequadamente as condições experimentais ou os resultados relatados. Tal identificação não implica recomendação ou endosso do Instituto Nacional de Padrões e Tecnologia, nem implica que os equipamentos, instrumentos ou materiais identificados sejam necessariamente os melhores disponíveis para o efeito.
Financiamento:Programa de Pesquisa Intramural do Instituto Nacional de Pesquisa do Genoma Humano, NIH (AMP, ACY, AMM, MR, AR, BPW, GGB, CJ, JCM, NFH, SK, SN e SYB); NIH U01HG010971 (EEE, HL, KHM, M.Kr., RSF e TAG-L.); NIH R01HG002385 e R01HG010169 (EEE); NIH R01HG009190 (AG e WT); NIH R01HG010485 e U01HG010961 (BP, EG e KS); NIH U41HG010972 (IMH, BP, EG e KS); National Science Foundation (NSF) 1627442, 1732253 e 1758800 e NIH U24HG006620, U01CA253481 e R24DK106766 (MCS); NIH U24HG010263 (SZ e MCS); Mark Foundation for Cancer Research 19-033-ASP (SA e MCS); NIH R01HG006677 (A.Sh. e SLS); NIH U24HG009081 (RSF e TAG-L.); financiamento interno no Instituto Nacional de Padrões e Tecnologia (JM, JMZ, JW e NDO); St. Petersburg State University subvenção 73023573 (AM, IAA e TD); NIH R01HG002939 (AFAS, ITF e JMS); NIH R01GM124041, R01GM129263 e R21CA238758 (BAS); Programa de Pesquisa Intramural da Biblioteca Nacional de Medicina, NIH (CX, FT-N. e VAS); NIH F31HG011205 (CJS); Damon Runyon Pós-Doutorado e PEW Latin American Fellowship (GVC); Bolsa Fulbright (DCS); Howard Hughes Medical Institute (HHMI) (EDJ e GF); NIH R01AG054712 (EIR); NIH UM1HG008898 (FJS); NIH R01GM123312 e R21CA240199 e NSF 1613806 e 1643825 (GAH, PGSG, SJH e RJO); NIH R21CA240199, NSF 643825 e Connecticut Innovations 20190200 (RJO); NIH F32GM134558 (GAL); NIH R01HG010040 (HL); Bolsa da Universidade Estadual de São Petersburgo 73023573 (IAA); Wellcome WT206194 (JT, JMDW, KH, WC e YS); Bem-vindo WT207492 (RD); Instituto Stowers de Pesquisa Médica (JLG); NIH R01HG011274 (KHM); Ministério da Ciência e Ensino Superior do RF 075-10-2020-116/13.1902.21.0023 (LU); apoiado pela Sirius University (LU); Russian Science Foundation (RSF) 19-75-30039 Análise de repetições genômicas (IAA); NIH U41HG007234 (MD); NIH DP2MH119424 (MYD); Irmandade da HHMI Hanna H. Gray (NA); NIH R35GM133747 (RCM); Childcare Foundation, Swiss National Science Foundation e European Research Council (ERC) 249968 (SEA); Ministério Federal Alemão para Pesquisa e Educação 031L0184A (TM); Prêmio Chan Zuckerberg Biohub Investigator (A.St.); Fundo Comum, Gabinete do Diretor, NIH (VVM); e a Sociedade Max Planck (EWM). EEE e EDJ são investigadores do HHMI. Instituto Stowers de Pesquisa Médica (JLG); NIH R01HG011274 (KHM); Ministério da Ciência e Ensino Superior do RF 075-10-2020-116/13.1902.21.0023 (LU); apoiado pela Sirius University (LU); Russian Science Foundation (RSF) 19-75-30039 Análise de repetições genômicas (IAA); NIH U41HG007234 (MD); NIH DP2MH119424 (MYD); Irmandade da HHMI Hanna H. Gray (NA); NIH R35GM133747 (RCM); Childcare Foundation, Swiss National Science Foundation e European Research Council (ERC) 249968 (SEA); Ministério Federal Alemão para Pesquisa e Educação 031L0184A (TM); Prêmio Chan Zuckerberg Biohub Investigator (A.St.); Fundo Comum, Gabinete do Diretor, NIH (VVM); e a Sociedade Max Planck (EWM). EEE e EDJ são investigadores do HHMI. Instituto Stowers de Pesquisa Médica (JLG); NIH R01HG011274 (KHM); Ministério da Ciência e Ensino Superior do RF 075-10-2020-116/13.1902.21.0023 (LU); apoiado pela Sirius University (LU); Russian Science Foundation (RSF) 19-75-30039 Análise de repetições genômicas (IAA); NIH U41HG007234 (MD); NIH DP2MH119424 (MYD); Irmandade da HHMI Hanna H. Gray (NA); NIH R35GM133747 (RCM); Childcare Foundation, Swiss National Science Foundation e European Research Council (ERC) 249968 (SEA); Ministério Federal Alemão para Pesquisa e Educação 031L0184A (TM); Prêmio Chan Zuckerberg Biohub Investigator (A.St.); Fundo Comum, Gabinete do Diretor, NIH (VVM); e a Sociedade Max Planck (EWM). EEE e EDJ são investigadores do HHMI. Ministério da Ciência e Ensino Superior do RF 075-10-2020-116/13.1902.21.0023 (LU); apoiado pela Sirius University (LU); Russian Science Foundation (RSF) 19-75-30039 Análise de repetições genômicas (IAA); NIH U41HG007234 (MD); NIH DP2MH119424 (MYD); Irmandade da HHMI Hanna H. Gray (NA); NIH R35GM133747 (RCM); Childcare Foundation, Swiss National Science Foundation e European Research Council (ERC) 249968 (SEA); Ministério Federal Alemão para Pesquisa e Educação 031L0184A (TM); Prêmio Chan Zuckerberg Biohub Investigator (A.St.); Fundo Comum, Gabinete do Diretor, NIH (VVM); e a Sociedade Max Planck (EWM). EEE e EDJ são investigadores do HHMI. Ministério da Ciência e Ensino Superior do RF 075-10-2020-116/13.1902.21.0023 (LU); apoiado pela Sirius University (LU); Russian Science Foundation (RSF) 19-75-30039 Análise de repetições genômicas (IAA); NIH U41HG007234 (MD); NIH DP2MH119424 (MYD); Irmandade da HHMI Hanna H. Gray (NA); NIH R35GM133747 (RCM); Childcare Foundation, Swiss National Science Foundation e European Research Council (ERC) 249968 (SEA); Ministério Federal Alemão para Pesquisa e Educação 031L0184A (TM); Prêmio Chan Zuckerberg Biohub Investigator (A.St.); Fundo Comum, Gabinete do Diretor, NIH (VVM); e a Sociedade Max Planck (EWM). EEE e EDJ são investigadores do HHMI. Russian Science Foundation (RSF) 19-75-30039 Análise de repetições genômicas (IAA); NIH U41HG007234 (MD); NIH DP2MH119424 (MYD); Irmandade da HHMI Hanna H. Gray (NA); NIH R35GM133747 (RCM); Childcare Foundation, Swiss National Science Foundation e European Research Council (ERC) 249968 (SEA); Ministério Federal Alemão para Pesquisa e Educação 031L0184A (TM); Prêmio Chan Zuckerberg Biohub Investigator (A.St.); Fundo Comum, Gabinete do Diretor, NIH (VVM); e a Sociedade Max Planck (EWM). EEE e EDJ são investigadores do HHMI. Russian Science Foundation (RSF) 19-75-30039 Análise de repetições genômicas (IAA); NIH U41HG007234 (MD); NIH DP2MH119424 (MYD); Irmandade da HHMI Hanna H. Gray (NA); NIH R35GM133747 (RCM); Childcare Foundation, Swiss National Science Foundation e European Research Council (ERC) 249968 (SEA); Ministério Federal Alemão para Pesquisa e Educação 031L0184A (TM); Prêmio Chan Zuckerberg Biohub Investigator (A.St.); Fundo Comum, Gabinete do Diretor, NIH (VVM); e a Sociedade Max Planck (EWM). EEE e EDJ são investigadores do HHMI. Ministério Federal Alemão para Pesquisa e Educação 031L0184A (TM); Prêmio Chan Zuckerberg Biohub Investigator (A.St.); Fundo Comum, Gabinete do Diretor, NIH (VVM); e a Sociedade Max Planck (EWM). EEE e EDJ são investigadores do HHMI. Ministério Federal Alemão para Pesquisa e Educação 031L0184A (TM); Prêmio Chan Zuckerberg Biohub Investigator (A.St.); Fundo Comum, Gabinete do Diretor, NIH (VVM); e a Sociedade Max Planck (EWM). EEE e EDJ são investigadores do HHMI.
Contribuições do autor:As equipes de análise são listadas, com os leads indicados por um asterisco. Montagem: SN*, SK*, MR*, MA, HC, C.-SC, RD, EG, M.Ki., M.Ko., HL, TM, EWM, IS, BPW, AW, AMP Acrocêntricos: AMP *, JLG*, MR, SEA, MB, RD, LGdL, TP Validação: AR*, AVB*, AM*, MA*, AMM*, KS*, WC, LGdL, TD, GF, AF, KH, CJ, EDJ, DP, VAS, YS, BAS, FT-N., JT, JMDW, AMP Duplicações segmentais: MRV*, EEE*, SN, SK, MD, PCD, AG, GAL, DP, CJS, DCS, MYD, WT , KHM, AMP Anotação de satélite: NA*, IAA*, KHM*, AVB, LU, TD, LGdL, PAP, EIR, A.St., BAS, AMP. Epigenética: AG*, WT*, SK, AR, MRV, NA, SJH, GAL, GVC, MCS, RJO, EEE, KHM, AMP Variantes: SA*, DCS*, SMY*, SZ*, RCM*, MYD* , JMZ*, MCS*, NFH, M.Ki., JM, DEM, NDO, JAR, FJS, KS, A.Sh., JW, CX, AMP Repetir anotação: SJH*, RJO*, AG, PGSG, GAH, LGdL, AFAS, JMS Anotação do gene: MD*, MH*, A.Sh.*, SN, SK, PCD, ITF, SLS, FT-N., AMP Navegadores: MD*, N.-CC, PK Geração de dados: SJH, GGB, SYB, GVC, RSF, TAG-L., IMH, MWH, MJ, JK, M.Kr., VVM, JCM, BP, PP, ACY, US, MYD, JLG, RJO, WT, EEE, KHM, AMP Recursos computacionais: C.-SC, AF, RJO, MCS, KHM, AMP Rascunho do manuscrito: AMP Figuras: SK, SN, AMP, AR Edição: AMP, SN, SK, AR, EEE e KHM, com o assistência de todos os autores. Suplemento: SN e SK, com a assistência dos grupos de trabalho. Supervisão: RCM, MYD, IAA, JLG, RJO, WT
Interesses concorrentes: AF e C.-SC são funcionários da DNAnexus; IS, JK, MWH, PP e AW são funcionários da Pacific Biosciences; SA é funcionário e acionista da Oxford Nanopore Technologies; A EEE é membro do conselho consultivo científico da Variant Bio; KHM é membro do conselho consultivo científico da Centaura; PK possui e recebe receitas da Reservoir Genomics LLC; FJS recebeu fundos de viagem para falar em eventos organizados pela Pacific Biosciences; SK, DEM, FJS e KHM receberam fundos de viagem para falar em eventos organizados pela Oxford Nanopore Technologies; e WT licenciou duas patentes para Oxford Nanopore Technologies (US 8748091 e 8394584).
Disponibilidade de dados e materiais: Os conjuntos T2T-CHM13 e T2T-HG002-ChrX gerados por este estudo estão arquivados sob os números de acesso GenBank do Centro Nacional de Informações sobre Biotecnologia (NCBI) GCA_009914755 e CP086568, respectivamente. As células CHM13hTERT foram obtidas para uso em pesquisa por meio de um acordo de transferência de material com U. Surti e a Universidade de Pittsburgh. Os dados brutos de sequenciamento foram descritos em estudos anteriores e estão resumidos na tabela S1. Por conveniência, links para os dados de sequência e navegadores de genoma também estão disponíveis em https://github.com/marbl/CHM13 . Dados suplementares para a fig. S39 e o código de construção do gráfico de strings estão arquivados em Zenodo ( 61 ) e também https://github.com/snurk/sg_sandbox .

Materiais Complementares

Este arquivo PDF inclui:

Material e métodos
Figs. S1 a S39
Referências ( 62 - 128 )

Outro material suplementar para este manuscrito inclui o seguinte:

Tabelas S1 a S17
Lista de verificação de reprodutibilidade do MDAR

Referências e Notas

1
VA Schneider, T. Graves-Lindsay, K. Howe, N. Bouk, H.-C. Chen, PA Kitts, TD Murphy, KD Pruitt, F. Thibaud-Nissen, D. Albracht, RS Fulton, M. Kremitzki, V. Magrini, C. Markovic, S. McGrath, KM Steinberg, K. Auger, W. Chow , J. Collins, G. Harden, T. Hubbard, S. Pelan, JT Simpson, G. Threadgold, J. Torrance, JM Wood, L. Clarke, S. Koren, M. Boitano, P. Peluso, H. Li , C.-S. Chin, AM Phillippy, R. Durbin, RK Wilson, P. Flicek, EE Eichler, DM Church, Avaliação de GRCh38 e conjuntos de genoma haploide de novo demonstra a qualidade duradoura do conjunto de referência. Genoma Res. 27 , 849-864 (2017).
2
Consórcio Internacional de Sequenciamento do Genoma Humano, sequenciamento inicial e análise do genoma humano. Nature 409 , 860-921 (2001).
3
TJ Heiman, ME Higgins, R.-R. Ji, Z. Ke, KA Ketchum, Z. Lai, Y. Lei, Z. Li, J. Li, Y. Liang, X. Lin, F. Lu, GV Merkulov, N. Milshina, HM Moore, AK Naik, VA Narayan, B. Neelam, D. Nusskern, DB Rusch, S. Salzberg, W. Shao, B. Shue, J. Sun, Z. Wang, A. Wang, X. Wang, J. Wang, M. Wei, R. Wides, C. Xiao, C. Yan, A. Yao, J. Ye, M. Zhan, W. Zhang, H. Zhang, Q. Zhao, L. Zheng, F. Zhong, W. Zhong, S. Zhu, S. Zhao, D. Gilbert, S. Baumhueter, G. Spier, C. Carter, A. Cravchik, T. Woodage, F. Ali, H. An, A. Awe, D. Baldwin, H. Baden, M. Barnstead, I. Barrow, K. Beeson, D. Busam, A. Carver, A. Center, ML Cheng, L. Curry, S. Danaher, L. Davenport, R. Desilets, S. Dietz, K. Dodson , L. Doup, S. Ferriera, N. Garg, A. Gluecksmann, B. Hart, J. Haynes, C. Haynes, C. Heiner, S. Hladun, D. Hostin, J. Houck, T. Howland, C . Ibegwam, J. Johnson, F. Kalush, L. Kline, S. Koduru, A. Love, F. Mann, D. May, S. McCawley, T. McIntosh, I. McMullen, M. Moy, L. Moy, B. Murphy, K. Nelson, C. Pfannkoch, E. Pratts, V. Puri, H. Qureshi, M. Reardon, R. Rodriguez, Y.-H. Rogers, D. Romblad, B. Ruhfel, R. Scott, C. Sitter, M. Smallwood, E. Stewart, R. Strong, E. Suh, R. Thomas, NN Tint, S. Tse, C. Vech, G . Wang, J. Wetter, S. Williams, M. Williams, S. Windsor, E. Winn-Deen, K. Wolfe, J. Zaveri, K. Zaveri, JF Abril, R. Guigó, MJ Campbell, KV Sjolander, B. Karlak, A. Kejariwal, H. Mi, B. Lazareva, T. Hatton, A. Narechania, K. Diemer, A. Muruganujan, N. Guo, S. Sato, V. Bafna, S. Istrail, R. Lippert, R. Schwartz, B. Walenz, S. Yooseph, D. Allen, A. Basu, J. Baxendale, L. Blick, M. Caminha, J. Carnes-Stine, P. Caulk, Y.-H. Chiang, M. Coyne, C. Dahlke, A. Mays, M. Dombroski, M. Donnelly, D. Ely, S.Science 291 , 1304-1351 (2001).
4
EW Myers, GG Sutton, AL Delcher, IM Dew, DP Fasulo, MJ Flanigan, SA Kravitz, CM Mobarry, KHJ Reinert, KA Remington, EL Anson, RA Bolanos, H.-H. Chou, CM Jordan, AL Halpern, S. Lonardi, EM Beasley, RC Brandon, L. Chen, PJ Dunn, Z. Lai, Y. Liang, DR Nusskern, M. Zhan, Q. Zhang, X. Zheng, GM Rubin , MD Adams, JC Venter, Um conjunto de todo o genoma de Drosophila . Science 287 , 2196-2204 (2000).
5
EE Eichler, RA Clark, X. Ela, uma avaliação das lacunas de sequência: negócios inacabados em um genoma humano acabado. Nat. Rev. Genet. 5 , 345-354 (2004).
6
KH Miga, Y. Newton, M. Jain, N. Altemose, HF Willard, WJ Kent, modelos de referência Centrômero para cromossomos humanos X e matrizes de satélite Y. Genoma Res. 24 , 697-707 (2014).
7
M. Gupta, AR Dhanasekaran, KJ Gardiner, modelos do rato da síndrome de Down: conteúdo do gene e consequências. Mam. Genoma 27 , 538–555 (2016).
8
MJP Chaisson, J. Huddleston, MY Dennis, PH Sudmant, M. Malig, F. Hormozdiari, F. Antonacci, U. Surti, R. Sandstrom, M. Boitano, JM Landolin, JA Stamatoyannopoulos, MW Hunkapiller, J. Korlach, EE Eichler, Resolvendo a complexidade do genoma humano usando sequenciamento de molécula única. Natureza 517 , 608-611 (2015).
9
Consórcio Internacional de Sequenciamento do Genoma Humano, Finalizando a sequência eucromática do genoma humano. Nature 431 , 931-945 (2004).
10
J. Eid, A. Fehr, J. Gray, K. Luong, J. Lyle, G. Otto, P. Peluso, D. Rank, P. Baybayan, B. Bettman, A. Bibillo, K. Bjornson, B. Chaudhuri, F. Christians, R. Cicero, S. Clark, R. Dalal, A. Dewinter, J. Dixon, M. Foquet, A. Gaertner, P. Hardenbol, C. Heiner, K. Hester, D. Holden, G. Kearns, X. Kong, R. Kuse, Y. Lacroix, S. Lin, P. Lundquist, C. Ma, P. Marks, M. Maxham, D. Murphy, I. Park, T. Pham, M. Phillips, J. Roy, R. Sebra, G. Shen, J. Sorenson, A. Tomaney, K. Travers, M. Trulson, J. Vieceli, J. Wegener, D. Wu, A. Yang, D. Zaccarin, P. Zhao, F. Zhong, J. Korlach, S. Turner, sequenciamento de DNA em tempo real de moléculas de polimerase simples. Ciência 323 , 133-138 (2009).
11
K. Berlin, S. Koren, C.-S. Chin, JP Drake, JM Landolin, AM Phillippy, montando grandes genomas com sequenciamento de molécula única e hash sensível à localidade. Nat. Biotecnologia. 33 , 623-630 (2015).
12
M. Jain, S. Koren, KH Miga, J. Quick, AC Rand, TA Sasani, JR Tyson, AD Beggs, AT Dilthey, IT Fiddes, S. Malla, H. Marriott, T. Nieto, J. O'Grady , HE Olsen, BS Pedersen, A. Rhie, H. Richardson, AR Quinlan, TP Snutch, L. Tee, B. Paten, AM Phillippy, JT Simpson, NJ Loman, M. Loose, sequenciamento Nanopore e montagem de um genoma humano com leituras ultra-longas. Nat. Biotecnologia. 36 , 338-345 (2018).
13
M. Jain, HE Olsen, DJ Turner, D. Stoddart, KV Bulazel, B. Paten, D. Haussler, HF Willard, M. Akeson, KH Miga, Montagem linear de um centrômero humano no cromossomo Y. Nat. Biotecnologia. 36 , 321-323 (2018).
14
KH Miga, S. Koren, A. Rhie, MR Vollger, A. Gershman, A. Bzikadze, S. Brooks, E. Howe, D. Porubsky, GA Logsdon, VA Schneider, T. Potapova, J. Wood, W. Chow, J. Armstrong, J. Fredrickson, E. Pak, K. Tigyi, M. Kremitzki, C. Markovic, V. Maduro, A. Dutra, GG Bouffard, AM Chang, NF Hansen, AB Wilfert, F. Thibaud- Nissen, AD Schmitt, J.-M. Belton, S. Selvaraj, MY Dennis, DC Soto, R. Sahasrabudhe, G. Kaya, J. Quick, NJ Loman, N. Holmes, M. Loose, U. Surti, RA Risques, TA Graves Lindsay, R. Fulton, I. Hall, B. Paten, K. Howe, W. Timp, A. Young, JC Mullikin, PA Pevzner, JL Gerton, BA Sullivan, EE Eichler, AM Phillippy, montagem de telômero a telômero de um cromossomo X humano completo . Natureza 585 , 79-84 (2020).
15
AM Wenger, P. Peluso, WJ Rowell, P.‑C. Chang, RJ Hall, GT Concepcion, J. Ebler, A. Fungtammasan, A. Kolesnikov, ND Olson, A. Töpfer, M. Alonge, M. Mahmoud, Y. Qian, C.-S. Chin, AM Phillippy, MC Schatz, G. Myers, MA DePristo, J. Ruan, T. Marschall, FJ Sedlazeck, JM Zook, H. Li, S. Koren, A. Carroll, DR Rank, MW Hunkapiller, Consenso circular preciso o sequenciamento de leitura longa melhora a detecção de variantes e a montagem de um genoma humano. Nat. Biotecnologia. 37 , 1155-1162 (2019).
16
S. Nurk, BP Walenz, A. Rhie, MR Vollger, GA Logsdon, R. Grothe, KH Miga, EE Eichler, AM Phillippy, S. Koren, HiCanu: Montagem precisa de duplicações segmentares, satélites e variantes alélicas de fidelidade leituras longas. Genoma Res. 30 , 1291-1305 (2020).
17
J. Huddleston, MJP Chaisson, KM Steinberg, W. Warren, K. Hoekzema, D. Gordon, TA Graves-Lindsay, KM Munson, ZN Kronenberg, L. Vives, P. Peluso, M. Boitano, C.-S. Chin, J. Korlach, RK Wilson, EE Eichler, Descoberta e genotipagem de variação estrutural de dados de sequência de genoma haploide de leitura longa. Genoma Res. 27 , 677-685 (2017).
18
EE Eichler, U. Surti, R. Ophoff, Proposta para construção de uma biblioteca haploide humana BAC a partir de material fonte de mola hidatiforme (2002); www.genome.gov/Pages/Research/Sequencing/BACLibrary/HydatidiformMoleBAC021203.pdf .
19
KM Steinberg, VA Schneider, TA Graves-Lindsay, RS Fulton, R. Agarwala, J. Huddleston, SA Shiryev, A. Morgulis, U. Surti, WC Warren, DM Church, EE Eichler, RK Wilson, Montagem de haplótipo único do genoma humano de uma mola hidatiforme. Genoma Res. 24 , 2066-2076 (2014).
20
MR Vollger, GA Logsdon, PA Audano, A. Sulovari, D. Porubsky, P. Peluso, AM Wenger, GT Concepcion, ZN Kronenberg, KM Munson, C. Baker, AD Sanders, DCJ Spierings, PM Lansdorp, U. Surti, MW Hunkapiller, EE Eichler, Aprimoramento da montagem e detecção de variantes de um genoma humano haploide usando leituras longas de alta fidelidade de uma única molécula. Ana Zumbir. Genet. 84 , 125-140 (2020).
21
GA Logsdon, MR Vollger, P. Hsieh, Y. Mao, MA Liskovykh, S. Koren, S. Nurk, L. Mercuri, PC Dishuck, A. Rhie, LG de Lima, T. Dvorkina, D. Porubsky, WT Harvey , A. Mikheenko, AV Bzikadze, M. Kremitzki, TA Graves-Lindsay, C. Jain, K. Hoekzema, SC Murali, KM Munson, C. Baker, M. Sorensen, AM Lewis, U. Surti, JL Gerton, V .Larionov, M. Ventura, KH Miga, AM Phillippy, EE Eichler, A estrutura, função e evolução de um cromossomo humano completo 8. Nature 593 , 101-107 (2021).
22
J.-B. Fan, U. Surti, P. Taillon-Miller, L. Hsie, GC Kennedy, L. Hoffner, T. Ryder, DG Mutch, P.-Y. Kwok, Origens paternas de molas hidatiformes completas comprovadas por haplotipagem de polimorfismo de nucleotídeo único do genoma inteiro. Genomics 79 , 58-62 (2002).
23
Consulte materiais complementares.
24
1000 Genomes Project Consortium, uma referência global para variação genética humana. Natureza 526 , 68-74 (2015).
25
S. Aganezov, SM Yan, DC Soto, M. Kirsche, S. Zarate, P. Avdeyev, DJ Taylor, K. Shafin, A. Shumate, C. Xiao, J. Wagner, J. McDaniel, ND Olson, MEG Sauria , MR Vollger, A. Rhie, M. Meredith, S. Martin, J. Lee, S. Koren, JA Rosenfeld, B. Paten, R. Layer, C.-S. Chin, FJ Sedlazeck, NF Hansen, DE Miller, AM Phillippy, KH Miga, RC McCoy, MY Dennis, JM Zook, MC Schatz, Um genoma de referência completo melhora a análise da variação genética humana. Science 376 , eabl3533 (2022).
26
EW Myers, The fragment assembly string graph. Bioinformática 21 , ii79–ii85 (2005).
27
H. Li, Minimap e miniasm: Mapeamento rápido e montagem de novo para sequências longas ruidosas. Bioinformática 32 , 2103-2110 (2016).
28
M. Rautiainen, T. Marschall, GraphAligner: Alinhamento de sequência para gráfico rápido e versátil. Genoma Biol. 21 , 253 (2020).
29
A. Gershman, MEG Sauria, X. Guitart, MR Vollger, PW Hook, SJ Hoyt, M. Jain, A. Shumate, R. Razaghi, S. Koren, N. Altemose, GV Caldas, GA Logsdon, A. Rhie, EE Eichler, MC Schatz, RJ O'Neill, AM Phillippy, KH Miga, H. Timp, padrões epigenéticos em um genoma humano completo. Science 376 , eabj5089 (2022).
30
N. Altemose, JA Logsdon, AV Bzikadze, P. Sidhwani, SA Langley, GV Caldas, SJ Hoyt, L. Uralsky, FD Ryabov, CJ Shew, MEG Sauria, M. Borchers, A. Gershman, A. Mikheenko, VA Shepelev , T. Dvorkina, O. Kunyavskaya, MR Vollger, A. Rhie, AM McCartney, M. Asri, R. Lorig-Roach, K. Shafin, JK Lucas, S. Aganezov, D. Olson, L. Gomes de Lima, T. Potapova, GA Hartley, M. Haukness, P. Kerpedjiev, F. Gusev, K. Tigyi, S. Brooks, A. Young, S. Nurk, S. Koren, SR Salama, B. Paten, EI Rogaev, A . Streets, GH Karpen, AF Dernburg, BA Sullivan, AF Straight, TJ Wheeler, JL Gerton, EE Eichler, SJ Hoyt, AM Phillippy, W. Timp, MY Dennis, RJ O'Neill, JM Zook, MC Schatz, PA Pevzner , M. Diekhans, CH Langley, IA Alexandrov, KH Miga,Mapas genômicos e epigenéticos completos de centrômeros humanos.Science 376 , eabl4178 (2022).
31
MM Parks, CM Kurylo, RA Dass, L. Bojmar, D. Lyden, CT Vincent, SC Blanchard, alelos de RNA ribossômico variante são conservados e exibem expressão específica de tecido. Sci. Av. 4 , eaao0665 (2018).
32
JO Nelson, GJ Watase, N. Warsinger-Pepe, YM Yamashita, Mecanismos de manutenção do número de cópias do rDNA. Tendências Genet. 35 , 734-742 (2019).
33
M. Rautiainen, T. Marschall, MBG: Construção de grafos esparsos de Bruijn baseados em minimizadores. Bioinformática 37 , 2476-2478 (2021).
34
AM McCartney, K. Shafin, M. Alonge, AV Bzikadze, G. Formenti, A. Fungtammasan, K. Howe, C. Jain, S. Koren, GA Logsdon, KH Miga, A. Mikheenko, B. Paten, A. Shumate, DC Soto, I. Sović, JMD Wood, JM Zook, AM Phillippy, A. Rhie, Perseguindo a perfeição: estratégias de validação e polimento para conjuntos de genoma de telômero a telômero. Nat. Métodos https://doi.org/10.1038/s41592-022-01440-3 (2022).
35
JM Flynn, M. Long, RA Wing, AG Clark, Dinâmica evolutiva de satélites abundantes de 7 pb no genoma de Drosophila virilis . Mol. Biol. Evoluir 37 , 1362-1375 (2020).
36
WM Guiblet, MA Cremona, M. Cechova, RS Harris, I. Kejnovská, E. Kejnovsky, K. Eckert, F. Chiaromonte, KD Makova, Tecnologia de sequenciamento de leitura longa indica efeitos genômicos do DNA não-B na velocidade de polimerização e taxa de erro. Genoma Res. 28 , 1767-1778 (2018).
37
A. Mikheenko, AV Bzikadze, A. Gurevich, KH Miga, PA Pevzner, TandemTools: Mapeamento de leituras longas e avaliação/melhoria da qualidade de montagem em repetições tandem extralongas. Bioinformática 36 , i75–i83 (2020).
38
MR Vollger, PC Dishuck, M. Sorensen, AE Welch, V. Dang, ML Dougherty, TA Graves-Lindsay, RK Wilson, MJP Chaisson, EE Eichler, sequência de leitura longa e montagem de duplicações segmentares. Nat. Métodos 16 , 88-94 (2019).
39
IT Fiddes, J. Armstrong, M. Diekhans, S. Nachtweide, ZN Kronenberg, JG Underwood, D. Gordon, D. Earl, T. Keane, EE Eichler, D. Haussler, M. Stanke, B. Paten, Anotação Comparativa Toolkit (CAT) - clado simultâneo e anotação de genoma pessoal. Genoma Res. 28 , 1029-1038 (2018).
40
A. Shumate, SL Salzberg, Liftoff: Mapeamento preciso de anotações de genes. Bioinformática 37 , 1639-1643 (2021).
41
A. Frankish, M. Diekhans, A.-M. Ferreira, R. Johnson, I. Jungreis, J. Loveland, JM Mudge, C. Sisu, J. Wright, J. Armstrong, I. Barnes, A. Berry, A. Bignell, S. Carbonell Sala, J. Chrast, F. Cunningham, T. Di Domenico, S. Donaldson, IT Fiddes, C. García Girón, JM Gonzalez, T. Grego, M. Hardy, T. Hourlier, T. Hunt, OG Izuogu, J. Lagarde, FJ Martin, L. Martínez, S. Mohanan, P. Muir, FCP Navarro, A. Parker, B. Pei, F. Pozo, M. Ruffier, BM Schmitt, E. Stapleton, M.-M. Suner, I. Sycheva, B. Uszczynska-Ratajczak, J. Xu, A. Yates, D. Zerbino, Y. Zhang, B. Aken, JS Choudhary, M. Gerstein, R. Guigó, TJP Hubbard, M. Kellis, B. Paten, A. Reymond, ML Tress, P. Flicek, anotação de referência GENCODE para os genomas humanos e de camundongos. Res. de Ácidos Nucleicos. 47 , D766–D773 (2019).
42
MR Vollger, X. Guitart, PC Dishuck, L. Mercuri, WT Harvey, A. Gershman, M. Diekhans, A. Sulovari, KM Munson, AP Lewis, K. Hoekzema, D. Porubsky, R. Li, S. Nurk , S. Koren, KH Miga, AM Phillippy, W. Timp, M. Ventura, EE Eichler, duplicações segmentares e sua variação em um genoma humano completo. Science 376 , eabj6965 (2022).
43
S. Mallick, H. Li, M. Lipson, I. Mathieson, M. Gymrek, F. Racimo, M. Zhao, N. Chennagiri, S. Nordenfelt, A. Tandon, P. Skoglund, I. Lazaridis, S. Sankararaman, Q. Fu, N. Rohland, G. Renaud, Y. Erlich, T. Willems, C. Gallo, JP Spence, YS Song, G. Poletti, F. Balloux, G. van Driem, P. de Knijff, IG Romero, AR Jha, DM Behar, CM Bravi, C. Capelli, T. Hervig, A. Moreno-Estrada, OL Posukh, E. Balanovska, O. Balanovsky, S. Karachanak-Yankova, H. Sahakyan, D. Toncheva , L. Yepiskoposyan, C. Tyler-Smith, Y. Xue, MS Abdullah, A. Ruiz-Linares, CM Beall, A. Di Rienzo, C. Jeong, EB Starikovskaya, E. Metspalu, J. Parik, R. Villems , BM Henn, U. Hodoglugil, R. Mahley, A. Sajantila, G. Stamatoyannopoulos, JTS Wee, R. Khusainova, E. Khusnutdinova, S. Litvinov, G. Ayodo, D. Comas, MF Hammer, T. Kivisild, W. Klitz, CAWinkler, D. Labuda, M. Bamshad, LB Jorde, SA Tishkoff, WS Watkins, M. Metspalu, S. Dryomov, R. Sukernik, L. Singh, K. Thangaraj, S. Pääbo, J. Kelso, N. Patterson , D. Reich, The Simons Genome Diversity Project: 300 genomas de 142 populações diversas.Natureza 538 , 201-206 (2016).
44
MS Lindström, D. Jurada, S. Bursac, I. Orsolic, J. Bartek, S. Volarevic, Nucleolus como um hub emergente na manutenção da estabilidade do genoma e patogênese do câncer. Oncogene 37 , 2351-2366 (2018).
45
R. Lyle, P. Prandini, K. Osoegawa, B. ten Hallers, S. Humphray, B. Zhu, E. Eyras, R. Castelo, CP Bird, S. Gagos, C. Scott, A. Cox, S. Deutsch, C. Ucla, M. Cruts, S. Dahoun, X. She, F. Bena, S.-Y. Wang, C. Van Broeckhoven, EE Eichler, R. Guigo, J. Rogers, PJ de Jong, A. Reymond, SE Antonarakis, Ilhas de sequência semelhante à eucromatina e sequências polimórficas expressas dentro do braço curto do cromossomo humano 21. Genoma Res . 17 , 1690-1696 (2007).
46
I. Flotsakou, S. Agrawal, TT Nguyen, C. Seoighe, ARD Ganley, B. McStay, A arquitetura genômica compartilhada de regiões organizadoras nucleolares humanas. Genoma Res. 23 , 2003-2012 (2013).
47
J.-H. Kim, AT Dilthey, R. Nagaraja, H.-S. Lee, S. Koren, D. Dudekula, WH Wood Iii, Y. Piao, AY Ogurtsov, K. Utani, VN Noskov, SA Shabalina, D. Schlessinger, AM Phillippy, V. Larionov, Variação nos genes de RNA ribossômico do cromossomo humano 21 caracterizada por clonagem de TAR e sequenciamento de leitura longa. Res. de Ácidos Nucleicos. 46 , 6712-6725 (2018).
48
S. Caburet, C. Conti, C. Schurra, R. Lebofsky, SJ Edelstein, A. Bensimon, Human ribosomal RNA gene arrays exibem uma ampla gama de estruturas palindrômicas. Genoma Res. 15 , 1079-1085 (2005).
49
SJ Hoyt, JM Storer, GA Hartley, PGS Grady, A. Gershman, LG de Lima, C. Limouse, R. Halabian, L. Wojenski, M. Rodriguez, N. Altemose, A. Rhie, LJ Core, JL Gerton, W. Makalowski, D. Olson, J. Rosen, AFA Smit, AF Straight, MR Vollger, TJ Wheeler, MC Schatz, EE Eichler, AM Phillippy, W. Timp, KH Miga, RJ O'Neill, De telômero a telômero: O estado transcricional e epigenético de elementos repetidos humanos. Science 376 , eabk3112 (2022).
50
M. van Sluis, M. Ó. Gailín, JGW McCarter, H. Mangan, A. Grob, B. McStay, NORs humanas, compreendendo arranjos de rDNA e elementos distais funcionalmente conservados, estão localizados dentro de regiões cromossômicas dinâmicas. Genes Dev. 33 , 1688-1701 (2019).
51
BA Sullivan, LS Jenkins, EM Karson, J. Leana-Cox, S. Schwartz, Evidência de heterogeneidade estrutural da análise citogenética molecular de translocações Robertsonianas dicêntricas. Sou. J. Hum. Genet. 59 , 167-175 (1996).
52
GM Greig, PE Warburton, HF Willard, Organização e evolução de um subconjunto de DNA satélite alfa compartilhado pelos cromossomos humanos 13 e 21. J. Mol. Evoluir 37 , 464-475 (1993).
53
AL Jørgensen, S. Kølvraa, C. Jones, AL Bak, Uma subfamília de DNA repetitivo alfóide compartilhado pelos cromossomos humanos portadores de NOR 14 e 22. Genomics 3 , 100-109 (1988).
54
WJ Kent, CW Sugnet, TS Furey, KM Roskin, TH Pringle, AM Zahler, D. Haussler, O navegador do genoma humano na UCSC. Genoma Res. 12 , 996-1006 (2002).
55
C. Wijmenga, JE Hewitt, LA Sandkuijl, LN Clark, TJ Wright, HG Dauwerse, A.-M. Gruter, MH Hofker, P. Moerer, R. Williamson, G.-JB van Ommen, GW Padberg, RR Frants, rearranjos de DNA do cromossomo 4q associados à distrofia muscular facioscapuloumeral. Nat. Genet. 2 , 26-30 (1992).













 

Nenhum comentário:

Postar um comentário

Observação: somente um membro deste blog pode postar um comentário.