quinta-feira, 6 de junho de 2024

Translator

 

Uma montagem do genoma nuclear de uma ave extinta que não voa, o pequeno arbusto moa

Avanços da Ciência
23 de maio de 2024
Vol 10 , Edição 21
 
 

Abstrato

Apresentamos um rascunho do genoma do pequeno arbusto moa ( Anomalopteryx didiformis ) - uma das aproximadamente nove espécies de aves extintas que não voam de Aotearoa, Nova Zelândia - usando DNA antigo recuperado de um osso fóssil da Ilha Sul. Recuperamos um genoma mitocondrial completo com profundidade de cobertura de 249,9 × e quase 900 megabases de um genoma nuclear moa masculino com cobertura de ~ 4 a 5 ×, com contiguidade de sequência suficiente para identificar mais de 85% dos ortólogos universais de cópia única aviários. 
 
Descrevemos uma paisagem diversificada de elementos transponíveis e repetições de satélite, estimamos um tamanho populacional efetivo de longo prazo de aproximadamente 240.000, identificamos um conjunto diversificado de genes receptores olfativos e um repertório de opsina com sensibilidade na faixa ultravioleta, mostramos que o fenótipo moa sem asas é provavelmente não atribuível à perda genética ou pseudogenização, e identificar potenciais variantes de sequência de codificação que alteram a função em moa que poderiam ser sintetizadas para futuros ensaios funcionais. Este recurso genômico deverá apoiar novos estudos sobre evolução aviária e divergência morfológica.

INTRODUÇÃO

Os extintos moa da Nova Zelândia (Aves: Dinornithiformes) compreendem nove espécies atualmente reconhecidas ( 1 ) e pertencem ao Palaeognathae, que engloba as ratites que não voam (avestruz, emu, casuar, kiwi, emas, moa e aves elefante) e o voador , ou voador, tinamous. Acredita-se que a extinção de todas as espécies de moa tenha seguido de perto a colonização polinésia da Nova Zelândia no final do século XIII, como resultado da exploração humana direta agravada por mudanças antropogénicas no uso da terra e impactos associados às espécies introduzidas ( 2 ). 
 
Além de uma rica história de estudo paleontológico [revisado em ( 3 )], o DNA antigo (aDNA) rendeu vários insights sobre a biologia da moa ( 4 , 5 ). Cooper et ai . ( 6 ) utilizaram um DNA amplificado pela reação em cadeia da polimerase (PCR) para mostrar que os moa não estão mais intimamente relacionados ao kiwi, indicando chegadas independentes dessas duas linhagens à Nova Zelândia. moa como irmã do tinamous voador, consistente com múltiplas perdas independentes de voo em ratites ( 7-11 vez disso, o aDNA coloca a Em ). O aDNA também ajudou a esclarecer a taxonomia de moa ( 1 , 12 ) e foi fundamental na identificação de dimorfismo de tamanho sexual invertido extremo que confundiu algumas designações taxonômicas morfológicas ( 3 , 13 ). As contribuições do aDNA “vestiram” moa atribuindo penas às suas espécies de origem ( 14 ), identificaram os machos como o provável sexo incubador do aDNA da casca do ovo ( 15 ) e investigaram a ecologia de alimentação de moa e parasitas usando coprólitos ( 16 , 17 ). 
 
Esta diversidade de pesquisas de aDNA atesta a riqueza de restos de moa relativamente bem preservados ( 4 ). No entanto, a maioria dos estudos moleculares de moa basearam-se fortemente no DNA mitocondrial (mtDNA), uma vez que o mtDNA ocorre em elevado número de cópias por célula e é, portanto, mais facilmente recuperado do que o DNA nuclear de substratos subfósseis, onde o aDNA é frequentemente altamente degradado ( 4 , 5 , 18 ). O sequenciamento de alto rendimento (HTS) revolucionou o campo do aDNA ao permitir a recuperação desses pequenos segmentos de DNA nuclear. Ao contrário do mtDNA, que é herdado uniparentalmente e representa apenas uma pequena fração do “modelo” genômico total de um indivíduo, o DNA nuclear pode fornecer muito mais detalhes sobre a história evolutiva e adaptações únicas de espécies extintas ( 5 , 18 ). Portanto, é provável que apenas tenhamos começado a ter acesso à informação genética disponível para moa.
Nós isolamos o aDNA do pequeno arbusto moa ( Anomalopteryx didiformis ) e usamos HTS para caracterizar seu genoma. Os pequenos arbustos moa ( Fig. 1A ) foram distribuídos nas florestas de planície nas ilhas do Norte e do Sul da Nova Zelândia e estavam entre as menores espécies de moa, atingindo alturas de 50 a 90 cm e pesos corporais de cerca de 30 kg ( 1 , 3 ) . Além de um genoma mitocondrial completo, relatamos o genoma nuclear de um pequeno arbusto moa, montado através do mapeamento de leituras de um pequeno arbusto moa em um rascunho de genoma de alta qualidade para o emu ( Dromaius novaehollandiae ), que anteriormente tinha um dos genomas mais completamente montados. genomas de qualquer paleognata ( 11 ), e que agora foi aumentado por extensos dados de longa leitura ( 19 ). Estima-se que os Moa tenham divergido dos seus parentes vivos mais próximos, os tinamous, há cerca de 53 milhões de anos (Ma atrás), e das emas e avestruzes há cerca de 70 Ma e 79 Ma, respectivamente ( 20 ), tornando o mapeamento comparativo um desafio. No entanto, usamos este genoma nuclear moa para explorar diversos aspectos da biologia do genoma moa, incluindo a biologia sensorial, e para apresentar recursos genômicos, incluindo microssatélites polimórficos para futuros estudos em nível populacional e sequências de codificação para um conjunto de genes candidatos para o desenvolvimento de membros, para investigue sua possível associação com a incapacidade de voar em moa e outras ratites.
Figura 1 . Projeto de conjuntos de genoma nuclear e mitocondrial do pequeno arbusto moa.
( A ) Representação 3D de um pequeno esqueleto de arbusto moa. ( B ) Genoma mitocondrial montado de novo, com localizações de genes anotados e RNAs indicados. O gráfico voltado para dentro mostra a profundidade de cobertura (DoC) por base. ( C ) Montagem do genoma nuclear baseada em referência (ilustrada para a montagem moa original). Seções alternadas de cinza e azul ao longo do círculo externo indicam andaimes individuais em ordem decrescente de tamanho. O gráfico voltado para dentro mostra o DoC calculado em 10 janelas não sobrepostas por andaime. A imagem em (A) de nzfauna ( https://skfb.ly/FQAU ) está licenciada sob Creative Commons Attribution ( http://creativecommons.org/licenses/by/4.0/ ).
Abrir no visualizador

RESULTADOS

Caracterização da biblioteca e conteúdo de DNA endógeno

O sequenciamento da Illumina rendeu 143,4 Gb de dados brutos (acesso SRA SRP132423; fig. S1 e tabela S1). A maioria dos dados incorporados aos genomas mitocondriais e nucleares descritos abaixo originou-se da biblioteca TruSeq A_didi_CTTGTA (fig. S1A) devido, em parte, ao maior esforço de sequenciamento para esta biblioteca. A biblioteca TruSeq A_didi_GCCAAT produziu menos leituras do que o esperado e teve um alto nível de duplicação de sequência devido à densidade de cluster abaixo do ideal (fig. S1 e tabela S1). A recuperação de DNA moa das três bibliotecas Nextera também foi limitada, um resultado que poderia refletir a menor quantidade de DNA de entrada usado no protocolo Nextera e/ou uma quantidade diminuída de DNA endógeno nas frações de tamanho testadas para essas preparações.
O perfil taxonômico de leituras, que representa uma mistura de moa aDNA endógeno e DNA ambiental, atribuiu taxonomia a 26 a 35% das leituras nas bibliotecas (fig. S1B). As bibliotecas TruSeq continham proporções muito maiores de leituras atribuídas a Aves (por exemplo, todas as aves, 13 e 10%, respectivamente, para bibliotecas CTTGTA e GCCAAT; fig. S1B) do que as bibliotecas Nextera, com a maioria dessas leituras atribuídas a Palaeognathae (fig. S1C). As taxas totais de mapeamento antes da remoção de duplicatas refletem quantidades estimadas de DNA endógeno em cada biblioteca (fig. S1C e tabela S1), sugerindo que o uso de um genoma de referência, emu, que era relativamente divergente de moa para mapeamento, ainda assim recuperou a maior parte do genoma reconhecível DNA moa em extratos de biblioteca. Os níveis de duplicação de leitura (tabela S1) indicam ainda que a saturação do sequenciamento foi atingida para recuperar a quantidade máxima possível de DNA endógeno.
O aDNA é tipicamente degradado em fragmentos menores que 500 pares de bases (pb) e exibe modificações post-mortem características, levando a um excesso de purinas imediatamente anteriores às quebras de fita e aumentando as substituições de citosina (C) por timina (T) nas extremidades dos fragmentos ( 21 , 22 ). Não podemos avaliar completamente a extensão dos danos no ADN porque a construção da biblioteca envolve o cisalhamento do ADN, o que significa que as extremidades dos fragmentos representam uma mistura de quebras de ADN que ocorrem naturalmente, bem como quebras de cadeia induzidas durante a preparação da biblioteca. No entanto, os comprimentos médios das leituras mapeadas e os tamanhos estimados das inserções, especialmente para as duas bibliotecas TruSeq, são consistentes com o DNA bem preservado (tabela S1). Consequentemente, embora observemos assinaturas de danos no aDNA, a quantidade de danos parece mínima (fig. S2). Estas observações não são inéditas para espécimes de moa bem preservados. Haddrath e Baker ( 23 ), Cooper et al . ( 24 ) e Baker et al . ( 12 ), produtos de PCR moa amplificados com sucesso com 250 a 600 pb de comprimento, e Cooper e outros . ( 24 ) relataram alto conteúdo de DNA endógeno e poucos danos ao DNA para amostras usadas para sequenciar genomas mitocondriais completos. Além disso, tanto o genoma mitocondrial descrito abaixo como a análise filogenética de conjuntos de dados de marcadores nucleares de todo o genoma para este espécime corroboram a autenticidade da sua sequência de aDNA ( 7 , 8 , 11 ).

Montagem de genomas mitocondriais e nucleares

Recuperamos um genoma mitocondrial completo de 17.043 pb a 249,9 × profundidade média de cobertura (DoC) após remoção duplicada (número de acesso do GenBank MK778441; Fig. 1B ). A correção mapDamage produziu uma sequência idêntica do genoma do mtDNA. Esta pequena montagem de arbusto moa abrange toda a região de controle de 1478 pb (loop D), que não foi totalmente representada no genoma do mtDNA publicado, montado a partir do sequenciamento baseado em PCR do mesmo espécime ( 23 ). Confirmamos uma ordem de gene mitocondrial específica de moa previamente identificada ( 25 ) a montante da região de controle e consistindo em cytb:tRNA-thr:tRNA-pro:ND6:tRNA-glu:ND6-pseudogene-fragment:control-region ( Fig. .1B ). A montagem é quase idêntica à referência existente, com apenas dois polimorfismos de nucleotídeo único (SNPs) em 777 pb da sequência da região de controle alinhável e cinco SNPs e três indels de pares de bases únicos em 15.565 pb fora da região de controle (99,9% identidade), com todas as diferenças suportadas por >50× DoC na nova montagem HTS.
O genoma mitocondrial permite evidências mais refinadas da procedência da amostra. Haddrath ( 26 ) observou que a amostra usada aqui foi “descoberta em uma caverna na Ilha Sul da Nova Zelândia” (p. 27) sem maiores detalhes. Um diagnóstico de “fragmento” de região de controle hipervariável de 30 pb para linhagens de moa ( 27 ) confirma a atribuição taxonômica do espécime sequenciado, e um segmento mais longo (382 pb) abrangendo esta região é idêntico a um haplótipo de pequeno arbusto moa amostrado em vários locais através da Ilha Sul da Nova Zelândia (fig. S3) ( 1 ). Combinamos a sequência CR1 completa da amostra com 263 amostras adicionais de CR1 de Bunce et al . ( 1 ) e conduziu uma análise filogenética de máxima verossimilhança usando configurações padrão do IQ-TREE (fig. S4) ( 28 ). A amostra de moa usada aqui parecia idêntica às amostras de Tākaka, na costa norte da Ilha Sul, e de Punakaiki, também do norte da Ilha Sul. Esperançosamente, esta determinação mais detalhada da localidade da amostra ajudará nos esforços para identificar o contexto cultural apropriado para a assembleia (Texto Suplementar).
O mapeamento iterativo para uma referência emu de alta qualidade ( 11 ) recuperou quase 900 Mb do genoma nuclear de little bush moa (número de acesso do GenBank GCA_006937325.1 para a montagem original e GCA_006938045.1 para a versão corrigida do mapDamage; ver também Aotearoa Genomic Data Projeto de repositório ID TAONGA-AGDR00049) ou aproximadamente 75% da referência emu de 1,2 Gb em andaimes moa 1844 ( Fig. 1C e Tabela 1 ). O DoC médio entre as bases chamadas foi 3,9× para o assembly original não corrigido, com 87% das bases tendo DoC ≥2 (os valores correspondentes para o assembly corrigido por mapDamage são 4,0× DoC médio, com 87% das bases chamadas tendo DoC ≥2; Figura 1C ). Embora um grande número de moa contigs seja relativamente curto (comprimento máximo do contig = 12,2 kb para a montagem original e 12,0 kb para mapDamage-corrigido; Tabela 1 ), e a fração de bases ambíguas (Ns) para andaimes moa é em média ~ 26% ( fig. S5), a quebra média entre contigs é pequena (quebra média de contig = 218 pb para a montagem original e 226 pb para mapDamage-corrigido; Tabela 1 ). Como resultado, mais de 85% dos ortólogos de cópia única do BUSCO para aves foram identificados em moa, com mais de 72% dos BUSCOs representados pela sequência de codificação completa ( Tabela 1 ). O uso da montagem nuclear corrigida por mapDamage para recuperação de loci para análise filogenética fez pouca diferença nas conclusões filogenéticas das espécies paleognatas de Sackton et al . ( 11 ) (Texto Suplementar).
 
 
 
 
Tabela 1 . Estatísticas de montagem para referência emu (número de acesso do GenBank GCA_006938045.1) e os genomas nucleares de little bush moa baseados em referência (Repositório de Dados Genômicos Aotearoa, ID do Projeto TAONGA-AGDR00049; e GenBank).

*As quebras de contig são definidas por sequências de ≥25 Ns consecutivos. 

 

 

Tamanho do genoma e conteúdo de GC

O tamanho do genoma nuclear de qualquer moa (Dinornithiformes) é atualmente desconhecido. Medindo o volume das células dos osteoblastos e extrapolando a partir de uma regressão filogenética Bayesiana do tamanho do genoma nuclear no volume celular entre os tetrápodes existentes, Organ et al . ( 29 ) estimou o tamanho do genoma de uma espécie desconhecida de dinornitiforme em 1,7 ± 0,0024 Gb, que agora sabemos ser consideravelmente maior do que os tamanhos do genoma de outros paleognatos, conforme medido pela densitometria Fuelgen, métodos bioquímicos ou seus tamanhos de montagem ( 11 , 30 , 31 ). Não podemos usar o assembly moa como andaime em um assembly emu de referência como um proxy para o tamanho do genoma, nem o assembly moa sem andaime é útil aqui porque é incompleto e tem baixa cobertura. Mesmo que tivéssemos dados de sequência de alta cobertura para moa, os tamanhos dos conjuntos são frequentemente menores que os tamanhos do genoma determinados por outros meios ( 32 ). Portanto, usamos um método de contagem de k -mer adaptado para genomas de baixa cobertura, RESPECT, para estimar o tamanho do genoma ( 33 ). RESPECT conduz uma busca de otimização para o vetor de espectro de repetição cujos elementos são considerados dentro de um conjunto de condições restritas. Aplicamos RESPEITO às leituras brutas de sequenciamento de moa após filtragem rigorosa de leituras potencialmente contaminantes ( 34 ). Uma variedade de métodos de filtragem e proporção de leituras mapeadas produziram uma faixa de tamanhos estimados de genoma de 1,07 a 1,12 Gb, sugerindo que esse genoma moa pode estar no lado pequeno entre os genomas aviários (fig. S6). A análise de leituras de sequências reduzidas de cinco aves e um crocodiliano sugere que o RESPECT parece estimar bem o tamanho do conjunto (inclinação = 1,049), embora a correlação entre as estimativas do RESPECT do tamanho do genoma e o tamanho do conjunto não tenha sido significativa (fig. S7). Comparamos essas estimativas do tamanho do genoma de moa com os tamanhos de montagem de 11 espécies do grupo irmão de moas, o tinamous (Tinamidae), como um proxy aproximado. Descobrimos que o tamanho do genoma em tinamous variou de 0,958 Gb em Eudromia a 1,195 em Crypturellus , com evidência de algum efeito do método de sequenciamento. Ainda assim, os genomas do tinamou, particularmente os de Nothoprocta e Eudromia , parecem particularmente pequenos, a par dos dos beija-flores ( 35 ). O tamanho do genoma em paleognatos geralmente parece variar fortemente com a filogenia, e nossa estimativa do tamanho do genoma em O Anomalopteryx é consistente com o pequeno tamanho do genoma encontrado em alguns tinamous.
Calculamos um conteúdo de GC da montagem total de Anomalopteryx , corrigido para chamadas de bases ambíguas, de 0,4277 (o valor de 0,32 relatado no NCBI não é corrigido para Ns). Este valor cai amplamente dentro da variação do conteúdo de GC entre os paleognatos e é ligeiramente superior ao conteúdo global de GC do tinamous (0,420 a 0,422), apesar de algum efeito do método de sequenciamento no conteúdo estimado de GC (fig. S8). Como esperado para os dados da Illumina ( 36 , 37 ), os andaimes curtos tiveram um conteúdo de GC mais alto do que os andaimes mais longos (fig. S9). Para investigar detalhes da paisagem do GC através de longos andaimes e facilitar comparações entre espécies, primeiro mapeamos os andaimes de moa para um parente próximo do moa com uma boa montagem, o Tinamou chileno ( Nothoprocta perdicaria ) (fig. S10). Em seguida, desenvolvemos um algoritmo dentro do conjunto de métodos do pacote de alinhamento MAFFT ( 38 ) para alinhar andaimes longos (> 10 Mb) com precisão de par de bases (Texto Suplementar). Descobrimos que a paisagem GC de regiões inequívocas de andaimes de moa espelhava de perto a dos andaimes do tinamou chileno (fig. S11). Apesar de remover bases ambíguas nessas comparações, as janelas deslizantes do conteúdo de moa GC são sistematicamente maiores do que aquelas de regiões comparáveis ​​do Genoma de N. perdicaria , sugerindo a possibilidade de diferenças no processo de substituição de nucleotídeos entre as duas linhagens, que estão implícitas dadas as fortes diferenças na taxa de substituição de DNA nuclear entre as duas linhagens ( 10 , 11 , 39 ). Como esperado, o conteúdo de GC também aumentou em estruturas compostas por uma maior proporção de exons (fig. S12).

Heterozigosidade e tamanho efetivo da população

Consideramos quantificar a história demográfica do moa analisando a divergência entre os dois haplótipos de moa através da técnica PSMC ( 40 ), mas a qualidade da montagem não foi alta o suficiente para ter confiança nessa abordagem. Portanto, calculamos a diversidade de nucleotídeos (π) em janelas de 10 kb através de andaimes moa, mapeando as leituras moa filtradas e corrigidas por mapDamage de volta para a montagem moa. Descobrimos que π por janela (em andaimes de pelo menos 100 kb e corrigidos para cobertura em pelo menos 2.500 bases) variou de 0,0001 a 0,024, com média de 0,00102 para autossomos. Calcular como acima em andaimes inteiros (em vez de janelas) produz um π médio de 0,00097 [intervalo de confiança de 95% (CI): 0,00096 a 0,00098] (fig. S13). Sob neutralidade, esperamos π = 4 N e m , onde N e é o tamanho efetivo da população a longo prazo e m é a taxa de mutação/substituição. Consistente com as estimativas de Ne 10 feminino com base no mtDNA ( 1 , 20 ), estimamos que a linhagem moa experimentou uma taxa de substituição por íntrons nucleares de 1,0245 × –08 (IC 95%: 1,011796 × 10 –08 para 1,037205 × 10 –08 ) substituições por site por ano (Texto Suplementar e fig. S14). Com um tempo de geração de aproximadamente 10 anos para algumas espécies de moa ( 2 ), estimamos, portanto, um tamanho populacional efetivo de 237.555 (IC 95%: 231.897 a 243.355).
Mapeamos andaimes moa para uma montagem feminina de leitura longa de uma emu (tabela S2) ( 19 ) e identificamos 69 andaimes totalizando 81.993.503 pb (52.587.049 bases não N ) mapeando para a emu Z (82.723.677 pb). A densidade mediana de SNP e π por local foram significativamente menores para o cromossomo Z do que para os autossomos (fig. S15); atribuímos essa tendência ao esperado menor N e para os cromossomos Z do que para os autossomos, devido aos efeitos da deriva ( 41 ). No geral, o π médio para o Z (0,0015) foi ligeiramente superior ao dos autossomos (0,00097; t = -2,3629, df = 43,06, P de Cohen = 0,02272, d = 1,26). e não encontramos nenhuma deficiência forte e sistemática de SNPs em andaimes supostamente ligados a Z mais longos (> 100 kb) da montagem moa em comparação com andaimes autossômicos (fig. S15), sugerindo que não havia regiões do Z com muito baixo ou zero polimorfismo e que as leituras provavelmente derivaram de um pássaro macho.
Também procuramos semelhanças entre a sonda ligada ao sexo de Huynen et al . ( 42 ) na montagem moa. Esta sequência de 676 pb (número de acesso do GenBank AF308932) teve três ataques de explosão em três estruturas de moa diferentes, indicando que a montagem de moa continha sequências semelhantes às de ratites machos e não tinha a deleção de ratites diagnóstica indicando uma ave fêmea (fig. S16) ( 42 ). No entanto, os andaimes com sequências correspondentes a esta sequência foram todos mapeados para o cromossomo 1 ou 2 da emu. Descobrimos também que o marcador desenvolvido por Huynen et al . ( 42 ) teve 72 ataques de explosão em locais diferentes na montagem emu de leitura longa ( 19 ), incluindo um local em cada um dos cromossomos Z e W. Essas explosões nos cromossomos Z e W cobriram 90 e 100% da sequência de consulta, respectivamente. Parece provável que o marcador de Huynen et al . ( 42 ) é um DNA moderadamente repetitivo que pode não estar bem coberto pela montagem moa, mas pode estar presente em algumas sequências repetitivas não anotadas identificadas em nossa busca por elementos transponíveis (TEs; veja abaixo). No geral, consideramos esta análise amplamente consistente com as evidências da cobertura de cromossomos individuais, sugerindo que a amostra é uma ave macho.

Identificação de marcadores microssatélites polimórficos

Os microssatélites oferecem uma opção atraente para estudos de aDNA, uma vez que esses marcadores nucleares são frequentemente altamente polimórficos, estão espalhados por todo o genoma e são suficientemente curtos para permitir a amplificação em amostras degradadas ( 43 ). No entanto, as abordagens de laboratório húmido para o isolamento de microssatélites não são adequadas para amostras de aDNA degradadas, e a amplificação de marcadores entre espécies de táxons existentes é muitas vezes mal sucedida ) ( 43-45 . O HTS pode contornar essas dificuldades identificando microssatélites diretamente a partir de leituras de sequenciamento nas espécies-alvo. Esta abordagem foi utilizada em moa onde Allentoft et al . ( 44 , 45 ) desenvolveram seis microssatélites polimórficos a partir de leituras de pirosequenciamento GS FLX 454 e demonstraram sua utilidade para estudos de parentesco moa ( 46 ) e demografia populacional ( 2 ).
Usamos uma abordagem complementar para isolar microssatélites polimórficos da montagem nuclear do pequeno arbusto moa. Identificamos 27.127 repetições de dinucleotídeos e 25.170 trinucleotídeos, aproximadamente metade das quais atenderam aos nossos critérios de inclusão com base na contiguidade da sequência flanqueadora (retendo 14.902 dinucleotídeos e 13.951 trinucleotídeos). Destes, identificamos 40 microssatélites (28 dinucleotídeos e 12 trinucleotídeos; tabela S3) que são heterozigotos no indivíduo sequenciado e, portanto, pelo menos minimamente polimórficos na espécie como um todo. Oferecemos os arquivos BAM realinhados para cada locus e alinhamentos para outras ratites como um recurso comunitário para estudos futuros (disponível no Dryad, um exemplo de cada tipo de dados é dado na fig. S17).

Análise de elementos transponíveis

Os TEs e outras sequências repetidas constituem um componente importante dos genomas aviários e, com métodos mais sensíveis para a detecção de TEs, a fração estimada de cada genoma aviário composto por TEs pode estar aumentando ( 47 ). Estimativas anteriores dos tamanhos dos genomas dos paleognatos e do conteúdo repetido indicaram que os genomas dos paleognatos são maiores que os dos neognatas, em até 27% em algumas estimativas ( 48 ). No entanto, as estimativas da fração de genomas paleognatos compostos por TEs permanecem inesperadamente baixas, geralmente inferiores a 10% ( 30 , 49 , 50 ). Para quantificar a paisagem TE de moa e parentes, usamos um pipeline sensível para quantificação TE envolvendo a produção de uma biblioteca de repetições anotadas específicas do clado, aumentada por abordagens de aprendizagem profunda para a anotação de TEs ( 51 , 52 ). Em seguida, usamos essa biblioteca para estimar a distribuição e abundância de TE com abordagens baseadas e sem referência.
Usando abordagens baseadas em referência, como RepeatModeler2 e RepeatMasker (v. 4.1.4) ( 52 ), nossas estimativas de conteúdo TE para paleognatas não-moa são normalmente cerca do dobro das estimativas anteriores de genomas de leitura curta e, quando disponíveis, consistentes com recentes estimativas de genomas de leitura longa (tabela S4) ( 48 , 53 ), com frações de TE anotadas variando de 5,6% no tinamou de crista elegante a 7,99% no kiwi Okarito (tabela S4). Para genomas de leitura longa, anotamos 14,46% do genoma da galinha e 8,01% para emu, como TEs. Como esperado com este gasoduto, as estimativas da abundância total de TE com base na pequena montagem de bush moa (3,3%) foram um pouco mais baixas e provavelmente tendenciosas para baixo devido à montagem fragmentada. Usando abordagens baseadas em leitura de sequência não montada, como dnaPipeTE ( 54 ), que não é sensível à qualidade do genoma de referência, nossas estimativas para frações TE em paleognatos variam de 7,06% no tinamou de crista elegante a 15,51% em emu ( Fig. 2 ). Com 5,5% para repetições anotadas, as estimativas baseadas em leitura das abundâncias de TE do genoma do pequeno arbusto moa são inferiores às da emu e do kiwi e semelhantes às do tinamou. As baixas abundâncias de TE em moa estimadas pela abordagem baseada em leitura são menos prováveis ​​de serem um artefato da fonte e qualidade do DNA e, em vez disso, podem fazer parte de uma tendência específica da linhagem em direção a paisagens de TE mais simplificadas no clado tinamou-moa ( Figura 3 e Figura 3. S15). Os genomas de Paleognath parecem particularmente ricos em elementos de DNA, e a abundância de retrotransposons com longas repetições terminais (LTRs), como CR1, varia consideravelmente entre o clado.
Figura 2 . Quantificação baseada em leitura da paisagem TE em moa e outras aves.
As porcentagens de TEs foram quantificadas usando dnaPipeTE ( 54 ).
Abrir no visualizador
Figura 3 . Evolução dos genes do receptor olfativo moa.
Usando sequência de 14 consultas de proteínas de Vandewege et al . ( 57 ), recuperamos 1.833 genes moa OR, indicados com uma bola vermelha. As 14 sequências do índice OR são indicadas com uma bola preta. Os galhos da árvore são coloridos por espécie conforme indicado na parte inferior e ao longo do anel interno. Os limites filogenéticos aproximados de cada índice OR clado são indicados no círculo externo em tons de cinza. Maiores detalhes encontram-se no Texto Suplementar.
 
A montagem moa foi distinta entre os genomas paleognatos por parecer ter uma alta fração de repetições não anotadas (fig. S18). A porcentagem genômica de repetições não anotadas usando dnaPipeTE chegou a 18,55%, mesmo quando se usou uma biblioteca TE anotada personalizada feita de moa e tinamou. No entanto, tais estimativas podem ser sensíveis à heterozigosidade em todo o genoma, bem como às profundidades de leitura desiguais em todo o genoma alvo ( 47 , 54 ). dnaPipeTE construiu mais de 70.000 contigs de leituras de sequências supostamente repetitivas e não anotadas no genoma do pequeno arbusto moa, todos, exceto 200, mapeados exclusivamente ou quase no genoma moa e em outros genomas paleognatas, neognatas e crocodilianos (fig. S19). Concluímos, portanto, que a maioria dessas supostas repetições não anotadas representam sequências únicas que foram sequenciadas em alta profundidade a partir do genoma de moa. No entanto, encontramos cinco motivos comuns a agrupamentos de sequências moa repetidas que foram mapeadas para o genoma da emu de leitura longa milhares de vezes, compreendendo até 37,3 kb (fig. S19). Esses motivos - prováveis ​​DNAs satélites e que se cruzam em vários graus com repetições anotadas em emu - também foram encontrados em grande número no genoma do kiwi, mas, inesperadamente, quatro deles estavam completamente ausentes do genoma do elegante tinamou de crista, apesar da relação irmã de moas e tinamous (fig. S19). Exploramos a diversidade filogenética de repetições adicionais não anotadas em moa e encontramos essas repetições em abundâncias variadas em outros genomas paleognatos, muitas vezes em proporção à qualidade do genoma de referência e à proximidade filogenética de moa. Exemplos de repetições filogeneticamente difundidas variam em abundância entre os paleognatos e exibem diversos padrões de diversificação em todo o clado (fig. S19). Juntos, esses resultados sugerem que a análise de leituras de sequências não montadas identificou diversas classes de elementos repetitivos no genoma do pequeno arbusto moa, alguns dos quais contêm motivos até então desconhecidos, mas filogeneticamente difundidos.

Genes informando a biologia sensorial de moa

Para entender melhor a biologia sensorial da moa, investigamos genes de receptores olfativos (OR), genes de receptores de sabor amargo e umami e opsinas visuais no genoma de moa. Com base no padrão de ramificação dos nervos olfativos, Johnston e Mitchell ( 55 ) concluíram que a moa das terras altas ( Megalapteryx didinus ) e outras moas eram especialistas olfativos; apesar do pequeno bulbo olfativo que levou a maioria dos autores a sugerir capacidades olfativas pobres ( 56 ), eles apontam que alguns moa têm uma grande câmara olfativa, e a presença de caroços no bico sugere alta sensibilidade da ponta do bico, potencialmente em combinação com o olfato enquanto forrageia. Outros, no entanto, afirmaram que o bulbo olfatório não é pequeno, mas em vez disso foi enterrado em uma expansão sem precedentes do cerebelo rostralmente ( 3 ). Detectamos um total de 43 genes OR parciais ou completos no genoma moa. Para colocar os genes moa OR em um contexto filogenético mais amplo, identificamos 1767 genes OR dos genomas de alta qualidade de crocodilo de água salgada, emu, kiwi manchado, tinamou de crista elegante e frango. Figura 3 ). A estes, também alinhamos 23 genes OR “índice” de Vandewege et al . ( 57 ), 13 de crocodilianos e 10 de galinhas que ajudaram a identificar as linhagens de ORs moa específicos. Juntos, estes genes de índice OR abrangeram 13 linhagens OR diferentes, conforme definido por Vandewege et al . ( 57 ), incluindo OR51 e OR52. Embora o número de genes OR em moa fosse pequeno e provavelmente inclinado para baixo devido à má qualidade de montagem, fomos capazes de encontrar genes OR intimamente relacionados a todas as 13 linhagens de índice OR, sugerindo que moa tem um repertório completo de genes OR reptilianos e aviários.
A visão é um dos sentidos mais importantes para os pássaros, mas o moa tinha olhos relativamente pequenos, pequenos lobos ópticos no cérebro e um campo visual limitado ( 55 ). Análises morfológicas e anatômicas anteriores sugerem que moa tinha uma acuidade visual comparável às ratites diurnas existentes ( 56 ). Encontramos cobertura completa da rodopsina e evidências de três dos quatro principais cones de opsinas encontrados em aves existentes, incluindo sensíveis ao comprimento de onda médio ( MWS ) e sensíveis ao comprimento de onda curto ( SWS1 – sensibilidade violeta e SWS2 – sensibilidade azul; Fig. 4, A para C e fig. Todas as opsinas, exceto LWS, são recuperadas da montagem moa, com pelo menos 50% da sequência presente em relação à sequência ortóloga emu. Uma cisteína no resíduo 90 é suficiente para mudar a sintonia do pigmento visual SWS1 de um estado sensível ao violeta (VS) para um estado sensível ao ultravioleta (UVS) em muitas espécies ( 58 ). Encontramos evidências claras de cisteína nesta posição ( Fig. 4B ), consistente com trabalhos anteriores em outras espécies de moa ( 59 ).
Abrir no visualizador
Pouco se sabe sobre o sentido do paladar nos paleognatas, incluindo os moa, embora a presença de papilas gustativas na língua tenha sido confirmada em vários ratites existentes ( 60 , 61 ). Descobrimos que o pequeno arbusto moa possuía um membro de cada um dos três clados aviários de receptores de sabor amargo ( T2Rs ) bem suportados, sugerindo uma sensibilidade ao sabor amargo equivalente à de outras aves ( Fig. 4, D e E ). embora um T2R (parte do clado incluindo T2R40 de galinha ) possa ser um pseudogene. Em cada clado, a sequência moa foi filogeneticamente próxima das sequências de outras ratites, como esperado. A comparação com 13 sequências adicionais de T2R de aves sugere um ataque de seleção positiva no ramo que leva a um dos clados T2R neoaviários , incluindo moa, ortólogo ao gene T2R40L da galinha . 
 
 
 
 
 
 
 
 
 
 
 
O receptor de sabor umami consiste em um heterodímero (T1R1 e T1R3) que sofreu evolução marcante no nível de aminoácidos para permitir novas sensibilidades em aves nectarívoras, incluindo beija-flores e passeriformes oscinos ( 62 , 63 ). Encontramos evidências dos éxons 2 a 5 de T1R1 , mas faltavam os éxons 1 e 6 ( Fig. 4F ). Nenhum exão de T1R3 foi recuperado, possivelmente devido a lacunas de montagem: genes esperados para flanquear T1R3 , incluindo CPTP e DVL1 foram encontrados na posição e orientação esperadas no mesmo andaime, mas grandes lacunas estavam presentes entre estes dois loci.

Genes do complexo principal de histocompatibilidade e receptores Toll-like

Um relatório recente detectou genes do complexo principal de histocompatibilidade ( MHC ) de classe I e II no genoma de moa ( 64 ), mas utilizou a versão do genoma não corrigida para substituições de bases incorridas em aDNA e não forneceu um contexto filogenético para a imunodiversidade de moa. Reavaliamos a presença de genes MHC de classe I e II no genoma moa com uma abordagem tblastn usando exons de proteínas de classe I e II de galinha como sondas. No geral, detectámos fragmentos de dois genes do MHC de classe I e três genes do MHC de classe II ( Fig. 5 ). Encontramos evidências de três cópias do exon 3 de classe I, que codifica parcialmente a região de ligação ao peptídeo (PBR), em moa, cada uma em uma estrutura separada. Também encontramos fragmentos de três cópias do éxon 3 conservado do MHC classe II ( BLB1 em frango) na estrutura moa SZQD01000727.1 (estrutura 726), localizada a aproximadamente 25,5 e 2,25 kb de distância uma da outra. Uma dessas cópias continha evidências de uma cópia quase completa do éxon 2 da classe II, codificando o PBR.
Figura 5 . Evolução dos genes do complexo principal de histocompatibilidade (MHC) classe I e classe II do pequeno arbusto moa.
Árvores do ( A ) exon 3 da região de ligação ao peptídeo (PBR) de classe I e ( B ) do exon 2 da classe II PBR foram feitas usando modelos de máxima verossimilhança e substituição ideal de nucleotídeos, conforme descrito no Texto Suplementar.
Abrir no visualizador
Os alinhamentos do éxon 3 da classe I de moa e do éxon 2 da classe II de moa com outros paleognatas mostraram que as sequências de moa tinham várias substituições únicas, embora não estivesse claro se alguma das sequências recuperadas era funcional. A análise da evolução adaptativa por um método Bayesiano ( 65 ) revelou cinco (classe I) e dois (classe II) códons experimentando seleção positiva através de alinhamentos que incluíam uma sequência moa (fig. S22).
Procuramos por receptores Toll-like (TLRs) na montagem moa usando blast. Dos 13 exons de consulta TLR ou regiões de codificação completas compreendendo nove genes, encontramos fortes evidências para todos os nove genes TLR , conforme julgado por valores baixos de e (tabela S5). senão todos, dos TLRs até agora conhecidos em aves ( ) 66-68 No geral, estes resultados sugerem que o conjunto moa contém a maioria , .

Testes de seleção em genes candidatos ao desenvolvimento de membros

Indiscutivelmente, a característica mais notável do moa é a completa ausência de elementos esqueléticos dos membros anteriores que compõem as asas. Todas as ratites exibem algum grau de redução dos membros anteriores; entretanto, os moa são únicos por reter apenas um escapulocoracóide fundido dentro da cintura peitoral ( 3 , 69 ). Huynen et al . ( 69 ) recuperaram a sequência de codificação moa para o fator de transcrição T-box ( TBX5 ), que desempenha um papel fundamental na especificação e crescimento do membro anterior ( ) 70-72 TBX5 , e demonstraram que a sequência moa galinhas ativa promotores de genes a jusante no desenvolvimento de embriões. Portanto, parece improvável que alterações apenas nesta região codificadora estejam subjacentes ao fenótipo moa sem asas ( 69 ). Nós nos baseamos neste trabalho relatando a sequência moa para um conjunto mais abrangente de genes candidatos com envolvimento estabelecido no desenvolvimento de membros de vertebrados ( Tabela 2 ), bem como candidatos com supostas variantes que alteram a função no corvo-marinho que não voa ( Phalacrocorax harrisi ) que supostamente acompanha redução dos membros anteriores nesta espécie que não voa ( Quadro 2 ) ( 73 ). 
 
Abrir no visualizador
Recuperamos a sequência moa para todos os genes investigados, com uma média de 88% da sequência codificadora por gene recuperada da montagem moa original ( Tabela 2 ; 87% na versão corrigida por mapDamage, tabela S3). Não encontramos mutações de frameshift e apenas um único códon de parada no quadro em HOXD4 que, no entanto, ocorreu com cobertura 1× em ambas as versões de montagem e poderia representar um artefato de sequência (este códon foi intencionalmente mascarado por Ns para testes adicionais). Não houve evidência de seleção diversificada específica de linhagem em moa, com P > 0,05 em testes aBSREL para cada gene ( 74 ). Os testes RELAX também não encontraram diferença significativa na força de seleção em moa em relação a outras ratites para genes candidatos com papéis estabelecidos no desenvolvimento dos membros ( Tabela 2 e tabela S6). No entanto, o RELAX identificou uma intensificação significativa da seleção no gene FAT1 em moa e relaxamento no GLI2 em relação a outras ratites entre os 11 candidatos originários do estudo do cormorão que não voa ( Tabela 2 e tabela S6). Nenhum desses resultados permanece significativo sob uma correção genômica mais conservadora para cerca de 16.255 genes em aves, em vez de corrigir apenas para o conjunto de 37 candidatos testados aqui (ambos P > 0,05).
Os testes RELAX também identificaram sete candidatos com mudanças seletivas significativas em linhagens que não voam em relação a outras aves ( Tabela 2 ; 10 candidatos, incluindo os 7 anteriores, quando a sequência corrigida por mapDamage é usada, tabela S3). Destes, encontramos evidências de seleção intensificada em HOXA2 , HOXA4 e HOXD4 (adicionalmente, HOXA10 , SHH e WNT2B usando a sequência moa corrigida) e relaxamento em quatro genes ( GLI3 , EVC , FAT1 e TALPID3 ; observe que FAT1 mostra não apenas uma seleção intensificada em moa em relação a outras ratites, mas também uma seleção relaxada em aves que não voam em geral). No entanto, apenas a intensificação para HOXA2 permanece significativa sob a correção mais rigorosa da taxa de falsas descobertas em todo o genoma ( P = 0, 021 para ambos os conjuntos de dados).
A análise PROVEAN ( 75 ) identificou 24 variantes da sequência moa de possível relevância funcional em comparação com a referência emu (tabela S7). Os locais identificados foram idênticos para ambos os conjuntos de moa, exceto DVL1, onde apenas o alelo moa alternativo com o códon AAC foi recuperado após a recalibração da qualidade de base. No entanto, metade destas variantes (12 de 24) são partilhadas com outras espécies ou são polimórficas em moa, com o resíduo emu presente como um alelo moa alternativo, indicando que é improvável que este subconjunto de locais esteja subjacente ao fenótipo moa sem asas. Além disso, 16 dos 24 locais apresentam resíduos alternativos noutras aves que são frequentemente acompanhados por pontuações PROVEAN comparáveis ​​à moa (tabela S7). A comparação com uma reconstrução inferida do ancestral comum de moa e tinamous produziu resultados amplamente semelhantes, com 17 das 19 variantes de moa potencialmente funcionalmente relevantes idênticas àquelas identificadas a partir da comparação com a referência emu (tabela S8).
Variantes putativas que alteram a função no cormorão que não voa não são compartilhadas com outras linhagens que não voam, indicando que qualquer semelhança na base genética para perdas independentes de voo envolvendo esses genes provavelmente não é atribuível a alterações convergentes ou paralelas de aminoácidos (tabela S9). Burga et al . ( 73 ) também identificaram uma deleção em CUX1 do cormorão que não voa, com ensaios experimentais indicando que este gene atua como um ativador transcricional dos alvos FAT1 e OFD1 . Tal como acontece com as outras variantes de corvos-marinhos que não voam, a deleção de CUX1 não é compartilhada por moa ou outras ratites (sequência idêntica ocorre em ambos os conjuntos de moa; fig. S23). Juntos, concluímos que a perda de asas em moa não é atribuível à perda genética ou à pseudogenização dentro deste conjunto de genes candidatos, embora a relevância funcional de variantes exclusivas de moa exija mais trabalho experimental.

DISCUSSÃO

Aqui, descrevemos uma montagem de um genoma nuclear de uma espécie extinta de moa, a moa do mato ( Anomalopteryx didiformes ). Este recurso genômico já se mostrou útil para a montagem de conjuntos de dados de marcadores nucleares em todo o genoma para inferência filogenética ( 7 , 8 ) e para análises de mitogenomas ( 25 ) e genes nucleares específicos. Aqui, usamos uma variedade de genomas adicionais de ratites, incluindo um genoma de longa leitura de uma emu ( 19 ), para elucidar diversos aspectos da biologia da moa. Algumas de nossas conclusões e capacidade de detectar genes específicos provavelmente dependem da qualidade do genoma de referência de leitura curta para o qual mapeamos as leituras de moa para esta montagem específica; mapear leituras de moa para genomas paleognatos de leitura longa ( 19 ) poderia revelar genes adicionais e contiguidade de montagem. No entanto, o atual conjunto moa corrigido pelo mapDamage contém uma proporção inesperadamente alta de genes e outros marcadores para análise. Fornecemos ainda estimativas do tamanho do genoma nuclear e do sexo da amostra e exploramos a biologia sensorial de moa através de seu genoma.
Encontramos níveis aproximadamente iguais de diversidade no cromossomo Z e nos autossomos. Nossas estimativas de π para os autossomos e o cromossomo Z sugerem uma proporção de quase um para o π mediano (π Z A = 0,00097/0,00095 = 0,979) e o π médio é ligeiramente maior para o Z do que para os autossomos (π Z A = 0,00150/0,00098 = 1,53). A média ligeiramente mais alta de π no Z é consistente com os efeitos do dimorfismo sexual reverso, mas uma amostragem mais ampla de autossomos e cromossomos sexuais é necessária para uma compreensão mais aprofundada. seleção sexual impulsionada pelas mulheres pode reduzir a diversidade do cromossomo Z ( ) 76-78 Dado que a , é tentador especular que o dimorfismo sexual reverso encontrado em algumas espécies de moa ( 79 , 80 ) pode não reduzir a diversidade no cromossomo Z. No entanto, os efeitos demográficos também podem alterar a proporção da diversidade nos cromossomos sexuais e nos autossomos; em particular, as expansões populacionais podem resultar em uma diversidade transitoriamente maior no cromossomo X (=Z) em relação aos autossomos ( 81 ). Em geral, uma variedade de efeitos seletivos e demográficos podem alterar a proporção esperada de diversidade Z/autossômica do esperado ¾ que reflete estritamente as diferenças no tamanho da população quando a proporção sexual é de 1:1 ( 76 , 77 ).
Nossa estimativa do tamanho efetivo da população moa é aproximada e não incorpora todas as fontes de variância, como variância mutacional ou tempo de geração preciso, de forma adequada. Com seu tamanho corporal menor, os moas pequenos provavelmente tiveram um tempo de geração mais curto do que outros moas de corpo maior. Nossa estimativa de ~240.000 para A. didiformes fica no meio de múltiplas estimativas que variam de ~9.200 da variação de microssatélites a mais de 1 milhão com mtDNA ( 2 , 82 ). Allentoft e Rawlence ( 4 ) discutem os desafios de estimar o tamanho da população de moa extinta a partir de dados ecológicos ou genômicos e sugerem que as estimativas mais altas a partir de dados genéticos são muito altas. Nossa estimativa de ~240.000 para esta espécie também é maior do que as estimativas baseadas em considerações morfológicas e ecológicas, que estimam um total de até 100.000 aves para todo o clado moa em todas as espécies de moa ( 83 ). Nossa estimativa de N e para A. didiformes é incerta devido às incertezas da taxa de mutação e é ainda comprometida por não termos forçado a taxa de divergência dos íntrons através da origem, o que poderia levar a uma estimativa tendenciosa para cima da taxa de mutação. Estudos adicionais da taxa de substituição ao longo da linhagem moa, que é conhecida por ser menor do que na linhagem irmã tinamou, bem como estimativas demográficas mais detalhadas do DNA nuclear, são necessários ( 10 , 11 , 39 ).
O conjunto relativamente completo de genes OR sugere que o pequeno arbusto moa não era deficiente em capacidades olfativas, dando suporte a uma interpretação anatômica do endocrânio favorecendo um bulbo olfatório de tamanho normal em moa e outras aves gigantes que não voam ( 84 , 85 ). Também demonstramos sua utilidade no isolamento de marcadores para estudos em nível populacional e na investigação da evolução de sequências em genes candidatos a codificação de proteínas. As contribuições relativas da variação da sequência codificante e das mutações em elementos reguladores não codificantes para a variação fenotípica constituem uma área de pesquisa ativa ( 11 , 70 , 86 ), e prevemos que a disponibilidade de um genoma nuclear moa contribuirá ainda mais para estudos experimentais de mudanças regulatórias associado a fenótipos que não voam. Conjuntos adicionais de genoma nuclear de moa extintos, bem como melhores conjuntos de tinamous e outros paleognatas, sem dúvida permitirão ainda mais a exploração da base genética das características fenotípicas destas aves extraordinárias.

MATERIAIS E MÉTODOS

Extração e sequenciamento de DNA

O DNA foi extraído de um único osso do dedo do pé de um espécime de moa de baixa procedência, mantido nas coleções do Royal Ontario Museum (ROM; Toronto, Canadá). Algumas das leituras HTS relatadas aqui foram usadas anteriormente para análise filogenética de relações paleognatas usando 1.448 elementos ultraconservados e loci codificadores de proteínas ( 7 ), e sequências baseadas em PCR obtidas deste mesmo espécime foram relatadas por Haddrath e Baker ( 9 ), Baker et al . [( 12 ), amostra A. fez. OH], e Haddrath e Baker [( 9 ), amostra TW95].
A amostra aqui analisada também foi apresentada em ( 87 ); para transparência e esclarecimento, apresentamos aqui detalhes importantes de extração e análise. Extração de DNA seguida por Baker et al . ( 12 ). Resumidamente, os 1 a 2 mm externos foram removidos da superfície óssea por microjateamento com um sistema Airbrasive (MicroBlaster; Comco, Burbank CA, EUA) e 0,2 g do material restante foram moídos em pó fino. A digestão enzimática prosseguiu durante a noite a 56°C em um tampão contendo concentrações finais de EDTA 0,5 M, proteinase K (200 μg/ml) e N -lauroilsarcosina 0,5% em pH 8,0 ( 88 ), e o DNA foi purificado usando spin de sílica disponível comercialmente. colunas (DNeasy Blood & Tissue Kit; Qiagen, Germantown, MD, EUA). A preparação da amostra ocorreu em um espaço de trabalho dedicado ao aDNA no ROM, seguindo as melhores práticas estabelecidas ( 89 , 90 ).
A preparação e o sequenciamento da biblioteca foram realizados pelo Centre for Applied Genomics, The Hospital for Sick Children, Toronto, Canadá. A biblioteca A_didi_CTTGTA foi construída a partir de DNA selecionado por tamanho de 200 a 400 pb cortado para tamanho de inserção de 200 pb seguido pela preparação da biblioteca com o Illumina TruSeq DNA v3 DNA Prep Kit. O sequenciamento pareado (2 × 101 pb) foi realizado em três pistas de uma plataforma HiSeq 2500 usando a química Illumina v3. Uma segunda biblioteca TruSeq (A_didi_GCCAAT) foi preparada a partir do mesmo DNA de entrada e sequenciada em duas pistas parciais de um HiSeq 2500. Três bibliotecas adicionais foram construídas com o kit de preparação de amostras Illumina Nextera XT. As bibliotecas A_didi_CAGAGA e A_didi_CTCTCT usaram DNA de entrada <500 pb sem cisalhamento adicional, enquanto a biblioteca A_didi_AGGCAG usou DNA de 500 pb a 2 kb de tamanho posteriormente cortado para <700 pb. Essas bibliotecas Nextera foram agrupadas para sequenciamento em uma única pista HiSeq 2500.

Processamento de leitura e montagem do genoma

0.32 ( 91 ) foi executado no modo paired-end para remoção do adaptador e corte de qualidade e leituras com comprimento pós-corte abaixo de 25 pb foram descartadas (opções ILLUMINACLIP:[adapter_file]:2:30:10:1:true SLIDINGWINDOW :10:13 MINLEN:25). Uma montagem do genoma mitocondrial de novo foi construída com MITObim v. 1.8 ( 92 ) usando o genoma publicado do pequeno arbusto moa mtDNA como semente inicial [número de acesso do GenBank. NC_002779, ( 23 )]
Para obter uma montagem de sequência nuclear, primeiro mapeamos as leituras para um rascunho do genoma da emu [ D. novaehollandiae ; ( 11 ), número de acesso ao GenBank. GCA_003342905.1] e, em seguida, leituras remapeadas para o consenso moa inicial para melhor recuperação de leituras curtas e/ou variantes. Primeiro, para estimar um parâmetro de substituição apropriado entre o emu e o moa, um subconjunto aleatório de leituras foi mapeado para a referência do emu com Stampy v. 1.0.28 ( 93 ) usando configurações padrão. Os dados completos foram então mapeados para emu com Stampy e este parâmetro de substituição especificado pelo usuário (estimado em 0,0839). Samtools v. 1.3.1 ( 94 cada biblioteca foram marcadas e removidas com Picard Tools v. ) foi usado para filtrar leituras com pontuação de qualidade de mapeamento abaixo de 30, e duplicatas dentro de / ) antes de mesclar leituras mapeadas entre bibliotecas. O 'mpileup' do Samtools foi usado para gerar arquivos de formato de chamada variante com qualidade de mapeamento mínima 30 e qualidade base 20, e uma sequência de consenso foi chamada com BCFTools v. As leituras foram remapeadas para este consenso inicial com Bowtie2 v. 2.2.9 ( 95 ), com posterior pós-processamento como acima. Além da montagem nuclear detalhada acima (doravante denominada “montagem original”), uma versão do genoma com correção de erros também foi gerada para explicar incorporações incorretas de nucleotídeos devido a danos pós-morte no DNA característicos do aDNA, descritos no Texto Suplementar. O perfil de leitura taxonômica é descrito no Texto Suplementar.

Heterozigosidade e tamanho efetivo da população

Mapeamos leituras de moa para o assembly moa com andaime emu e chamamos variantes usando o Genome Analysis Toolkit (GATK) seguindo práticas padrão implementadas no pipeline snpArcher Snakemake ( 96 ). Os TEs foram estimados a partir de leituras de sequência bruta usando dnaPipeTE v.1.3.1 ( 54 ), conforme descrito no Texto Suplementar.

Genes de receptores sensoriais

Genes para ORs, opsinas e receptores gustativos tipos 1 e 2 (T1Rs e T2Rs) foram obtidos por blast ( 97 ) usando diversas sequências de consulta de pássaros e crocodilianos (ver Texto Suplementar para mais detalhes e testes para seleção positiva). Os genes OR de moa e outros paleognatos foram isolados por blast usando 23 sequências de índice OR de Vandewege et al . ( 57 ). Maiores detalhes estão no Texto Suplementar.

Testes de seleção para genes candidatos ao desenvolvimento de membros

Alinhamentos de múltiplas sequências foram compilados para 26 genes candidatos com papéis estabelecidos no desenvolvimento de membros de vertebrados [listados na Tabela 2 , revisados ​​em ( 70 , 71 , 98 )] e para 11 genes com potenciais variantes de alteração de função no cormorão que não voa ( P. harrisi ) supõe-se que acompanhe modificações fenotípicas típicas de aves que não voam [listadas na Tabela 2 , revisadas em ( 73 )]. Os modelos genéticos foram curados manualmente para 10 novos rascunhos de conjuntos de genoma para paleognatas ( 11 ). A sequência de codificação moa foi obtida a partir de alinhamentos de estrutura inteira de moa para emu usando coordenadas de referência emu (alinhamentos e um script Perl acessório estão disponíveis no Dryad). Sequências de esboços de genomas paleognatos foram combinadas com sequências de aves disponíveis no GenBank e sequências de corvos-marinhos que não voam de Burga et al . ( 73 ). As traduções de aminoácidos foram alinhadas com MAFFT v. 7.245 ( 38 ). Sequências parciais (<70% do comprimento total do alinhamento) e mal alinhadas (<60% da identidade média de aminoácidos aos pares) foram removidas, e o alinhamento resultante foi usado para guiar a inserção de lacunas nas sequências de nucleotídeos correspondentes. Informações de origem do GenBank, modelos genéticos selecionados e alinhamentos de sequências estão disponíveis no Dryad. Testes de seleção e efeitos funcionais de variantes da sequência moa em genes candidatos ao desenvolvimento de membros são descritos no Texto Suplementar. A identificação de repetições polimórficas de microssatélites está descrita no Texto Suplementar.

Agradecimentos

Agradecemos a O. Haddrath por extrair o aDNA de moa, e a T. Worthy e P. Scofield pela discussão útil sobre a proveniência do espécime moa sequenciado. Agradecemos a S. Pereira do Centro de Genômica Aplicada, do Hospital for Sick Children, Toronto, Canadá, por supervisionar a construção e sequenciamento da biblioteca e M.-C. Ko, do Grupo de Pesquisa Evolução de Sistemas Sensoriais, pela assistência na análise de receptores sensoriais. T. Worthy forneceu comentários úteis sobre o manuscrito. Agradecemos a P. Deardon, M. Bunce, J. Huh e C. Rye da Nova Zelândia eScience Infrastructure and Genomics Aotearoa pelos conselhos sobre as melhores práticas para envolvimento e colaboração científica e cultural. Os cálculos foram realizados no supercomputador GPC no SciNet HPC Consortium financiado pela Compute Canada, o Governo de Ontário e a Universidade de Toronto, bem como no cluster Cannon apoiado pela FAS Division of Science, Research Computing Group da Universidade de Harvard. Durante a análise e redação deste artigo, a SVE foi apoiada pela cátedra King XVI Carl Gustaf em Ciências Ambientais do Rei da Suécia. Os custos de publicação deste artigo foram cobertos em parte por uma doação do Fundo Wetmore Colles do Museu de Zoologia Comparada. Este trabalho é dedicado à memória do coautor AJB, que foi o impulsionador deste projeto, mas faleceu antes de sua conclusão.
Financiamento: Este trabalho foi apoiado pelo Conselho de Pesquisa em Ciências Naturais e Engenharia do Canadá (para AJB), Royal Ontario Museum Governors Fund (para AJB), National Science Foundation [concessão NSF DEB 1355343 (EAR 1355292) para AJB e SVE], e Sociedade Japonesa para a Promoção da Ciência (concessão KAKENHI número JP20K06767 para KK).
Contribuições dos autores: Conceitualização: AJB e SVE Metodologia: AC, TBS, PG e KK Recursos: PG e KK Investigação: AC, SVE, TBS, MWB e GC Curadoria de dados: SVE Validação: SVE e TBS Supervisão: SVE e MWB Formal análise: AC, SVE, TBS, PG, KK, MWB e RD Software: TBS, SVE e KK Visualização: AC, SVE e MWB Administração do projeto: AJB e SVE Aquisição de financiamento: AJB e SVE Redação - rascunho original: AC e SVE Writing – revisão e edição: Todos os autores.
Interesses conflitantes: Os autores declaram não ter interesses conflitantes.
Disponibilidade de dados e materiais: Todos os dados necessários para avaliar as conclusões do artigo estão presentes no artigo e/ou nos Materiais Suplementares. Os conjuntos nucleares e mitocondriais foram depositados no Repositório de Dados Genômicos Aotearoa ( //doi.org/10.57748/M42Z-SW23 ). Os conjuntos moa e leituras de sequência também foram depositados no NCBI sob BioProject PRJNA534317, sob os números de acesso GCA_006937325.1 (montagem original), GCA_006938045.1 (montagem corrigida por danos no mapa) e MK778441 (genoma mitocondrial) e acesso ao Short Read Archive SRP132423. Conjuntos de dados e alinhamentos adicionais para genes sensoriais, MHC, elementos transponíveis e genética populacional estão disponíveis no banco de dados Dryad em https://doi.org/10.5061/dryad.d51c59zxp .

Materiais Suplementares

Este arquivo PDF inclui:

Texto Suplementar
Figos. S1 a S23
Tabelas S1 a S9
Referências

REFERÊNCIAS E NOTAS

1
http://dx.doi.org/10.1037/0033-295X.101.2.103 Bunce, M. Bunce, TH Worthy, MJ, Phillips, RN Holdaway, E. Willerslev, J. Haile, B. Shapiro, B. Scofield , A. Drummond, PJJ, Kamp, A. Cooper, A história evolutiva da extinta ratite moa e a paleogeografia neogênica da Nova Zelândia. Processo. Nacional. Acad. Ciência. EUA 106 , 20646–20651.
2
ME Allentoft, R. Heller, CL Oskam, ED Lorenzen, ML Hale, MTP Gilbert, C. Jacomb, RN Holdaway, M. Bunce, A megafauna extinta da Nova Zelândia não estava em declínio antes da colonização humana. Processo. Nacional. Acad. Ciência. EUA 111 , 4922–4927 (2014).
3
M. Bunce, A. Cooper, O mundo perdido da moa: vida pré-histórica da Nova Zelândia. Vida do Passado. Por Trevor H Worthy e Richard N Holdaway; fotografia principal de Rod Morris. Bloomington (Indiana): Indiana University Press. US$ 89,95. xxxv + 718 pág. doente; índice. ISBN: 0–253–34034–9. 2002. Quarto. Rev. 78, 469 (2003).
4
ME Allentoft, NJ Rawlence, Arca de Moa ou fantasmas voadores de Gondwana? Insights de dezenove anos de pesquisa de DNA antigo sobre a extinta moa (Aves: Dinornithiformes) da Nova Zelândia. Anat. Anz. 194 , 36–51 (2012).
Mesa 2 . Testes de seleção para genes candidatos ao desenvolvimento de membros usando sequência moa da montagem original do genoma.
K , parâmetro de relaxamento (valores <1 indicam seleção relaxada nos ramos do primeiro plano e valores >1 denotam seleção intensificada); P adj ajustado , valor P ( valor Q ) controlando a taxa de descoberta falsa a um nível de significância de 0,05 com base em N = 37 genes testados. CDS, sequência de codificação. AA, aminoácido.

*CDS parcial recuperado na sequência de referência da emu.

 
 

Nenhum comentário:

Postar um comentário

Observação: somente um membro deste blog pode postar um comentário.