Análise de genomas de todas as cinco espécies de rinocerontes existentes e três extintas
•
Forte suporte filogenômico para a hipótese geográfica da evolução do rinoceronte
•
Divisão basal entre linhagens africanas e eurasianas no início do Mioceno (~16 milhões de anos)
•
Embora todos os rinocerontes tenham baixa diversidade genômica, ela é mais baixa nos modernos
Resumo
Apenas
cinco espécies de Rhinocerotidae, outrora diversas, permanecem,
tornando a reconstrução de sua história evolutiva um desafio para os
biólogos desde Darwin. Sequenciamos genomas de cinco espécies de
rinocerontes (três extintas e duas vivas), que comparamos com dados
existentes das três espécies vivas restantes e uma variedade de grupos
externos. Identificamos uma divergência inicial entre as linhagens
africanas e euro-asiáticas existentes, resolvendo um debate chave sobre a
filogenia dos rinocerontes existentes. Este início do Mioceno (~16
milhões de anos atrás [mya]) dividiu pós-datas a formação da ponte de
terra entre as massas de terra afro-árabe e euro-asiática. Nossas
análises também mostram que, enquanto os genomas de rinocerontes em
geral exibem baixos níveis de diversidade genômica, a heterozigosidade é
menor e a endogamia é maior nas espécies modernas. Esses resultados
sugerem que, embora a baixa diversidade genética seja uma característica
de longo prazo da família, ela foi particularmente exacerbada
recentemente, provavelmente refletindo os recentes declínios
populacionais causados pelo homem.
Compreender
as relações entre as espécies de rinocerontes e quando elas divergiram
tem sido uma questão abordada por biólogos evolucionistas desde os
primórdios do campo. O próprio Darwin discutiu o tema em 1842 como um
dos poucos exemplos em seu pequeno tratado sobre evolução que precedeu A Origem das Espécies em 1859 (
).
Embora os rinocerontes já tenham sido um clado diversificado, os
rinocerontes existentes compreendem apenas cinco espécies, todas
altamente ameaçadas e prioridades globais para conservação.
Rhinocerotoidea, o clado que inclui a família dos rinocerontes
(Rhinocerotidae), divergiu das antas 55-60 milhões de anos atrás (mya)
na Eurásia ou na América do Norte (
)
e incluiu alguns dos maiores mamíferos terrestres que já viveram. A
maioria dos rinocerotídeos foi extinta antes do Pleistoceno, com apenas
nove espécies sobrevivendo no Pleistoceno Superior, durante o qual
ocorreram extinções adicionais. Estes consistem nas cinco espécies
existentes, bem como o agora extinto unicórnio siberiano ( Elasmotherium sibiricum ), o rinoceronte da Merck ( Stephanorhinus kirchbergensis ) e seu parente Stephanorhinus hemitoechus (não estudado aqui), e o rinoceronte lanudo ( Coelodonta antiquitatis ).
Apesar
de décadas de estudo, questões fundamentais permanecem sobre as
relações evolutivas entre as espécies de rinocerontes existentes e seus
parentes recentemente extintos. Além disso, várias espécies de
rinocerontes carecem de recursos genômicos disponíveis que permitiriam
aplicações, incluindo monitoramento baseado em DNA, gerenciamento de
conservação e estudos de DNA ambiental. Para abordar essas questões e
necessidades, analisamos um conjunto de dados do genoma representando
oito espécies de rinocerontes ( Figura 1 ), incluindo todos os sete gêneros que sobreviveram no Pleistoceno Superior (
). Nossos dados incluem as cinco espécies de rinocerontes existentes representadas por quatro de novo de conjuntos de genomas Diceros bicornis ), branco ( Ceratotherium simum ), Sumatra ( Dicerorhinus sumatrensis ) e rinoceronte de um chifre maior ( Rhinoceros unicornis , também conhecido como indiano) e um genoma ressequenciado de um rinoceronte de Java ( R. sondaicus ).
O genoma do rinoceronte de Java foi recuperado de um espécime de museu
datado de 1838 e ressequenciado com alta cobertura (25×). Além disso,
sequenciamos os genomas de três espécies de rinocerontes extintos de
fósseis do Pleistoceno Superior que estão próximos ou além do limite de
datação por radiocarbono de ~50 mil anos atrás (kya), especificamente um
unicórnio siberiano, um rinoceronte da Merck e um lanudo rinoceronte,
sequenciado para cobertura de 9×, 12× e 35×, respectivamente ( Tabela S1 ).
Figura 1 Faixas das oito espécies de rinocerontes estudadas
Três
hipóteses foram propostas para explicar as relações filogenéticas
dentro dos Rhinocerotidae vivos: (1) a “hipótese do chifre”, que agrupa
as espécies de rinocerontes de dois chifres, especificamente colocando o
rinoceronte de Sumatra como irmão do Diceroti Africano (rinoceronte
preto e branco) e tem sido apoiado pela morfologia (
);
(2) a “hipótese geográfica”, que coloca as espécies asiáticas juntas,
com Sumatra como irmã dos maiores rinocerontes de um chifre e de Java, e
é baseada em evidências morfoanatômicas (
);
e (3) uma hipótese de que o rinoceronte de Sumatra é irmão do clado
que compreende as outras quatro espécies existentes, que foi apoiada por
uma análise mais recente de genomas mitocondriais completos (
).
Essas hipóteses conflitantes enfatizam as limitações do uso de
marcadores de baixa resolução na reconstrução de relações evolutivas
dentro de Rhinocerotidae e destacam o potencial de aplicação de
abordagens filogenômicas. Estudos anteriores também debateram a
colocação filogenética das três espécies extintas incluídas neste
estudo. Por exemplo, a relação dos rinocerontes lanudos e da Merck
entre si, o rinoceronte de Sumatra e os dois Diceroti africanos
permaneceu controversa devido a conclusões contrastantes extraídas de
evidências morfoanatômicas versus mitogenômicas e paleoproteômicas.
; Figuras S1 A e S1B), conduzimos alinhamentos de genoma completo para as oito espécies de rinocerontes usando o cavalo doméstico ( Equus caballus )
como grupo externo. Em seguida, inferimos uma árvore de espécies de
todo o genoma resumindo o sinal filogenético de árvores de genes
individuais com base em 22.066 janelas genômicas de 100 kb. Nossa
análise filogenômica identificou três clados principais dentro da
subfamília Rhinocerotinae e forneceu forte suporte para a hipótese
geográfica da evolução do rinoceronte. Um clado que compreende as duas
espécies africanas Diceros bicornis e Ceratotherium simum ,
o Diceroti, é a linhagem irmã dos demais rinocerontes em nosso conjunto
de dados (com exceção do unicórnio siberiano). Um segundo clado inclui
os rinocerontes de Sumatra, Merck e lanudos (doravante referido como o Dicerorhinus-Coelodonta-Stephanorhinus [ DCS ]), todos com faixas geográficas atuais ou passadas que incluem partes da Ásia. O terceiro clado inclui as duas rinocerontes espécies Figura 2 A).
Assim, a principal divergência entre as linhagens de rinocerontes está
relacionada à divisão geográfica entre espécies nos continentes africano
e euro-asiático.
Figure S1Phylogenetic relationship inferences, related to Figure 2
Nossas análises filogenômicas confirmam conclusões anteriores baseadas em evidências morfológicas e biomoleculares ( Figura 2 A) que colocam o extinto unicórnio siberiano como grupo externo à subfamília Rhinocerotinae (P.-OA, dados não publicados;
). Dentro do DCS ,
encontramos forte apoio ao rinoceronte de Sumatra como irmão do clado
que inclui os extintos Merck e rinocerontes lanudos. Um desafio restante
é entender as relações de espécies extintas mais antigas, para as quais
o DNA permanece irrecuperável. Como nossos achados sugerem que os
resultados baseados puramente na morfologia (a hipótese do chifre) não
são suportados, tentar preencher o resto da filogenia com base apenas na
morfologia de táxons extintos pode ser difícil.
Fluxo gênico entre espécies
Embora
tenhamos sido capazes de resolver uma árvore de espécies de
rinocerontes em todo o genoma, descobrimos discordância filogenética
significativa nos genomas de rinocerontes, sugerindo fluxo gênico ou
classificação de linhagem incompleta (ILS) entre os táxons. Embora essa
topologia represente o sinal dominante das relações de espécies em todo o
genoma, as análises de cromossomos individuais nem sempre recuperaram a
mesma topologia ( Figura S1 C). Mais proeminentemente, observamos que a posição da espécie-árvore do DCS foi
suportada por apenas ~45% das árvores individuais de janela deslizante,
o que é substancialmente menor do que o recuperado para outros nós na
filogenia ( Figura 2 B).
Como uma região genômica de 100 kb de comprimento pode conter vários
pontos de quebra de recombinação, também inferimos árvores de genes
usando alinhamentos de 5 kb aleatoriamente subamostrados de dentro de
cada janela deslizante de 100 kb. Os resultados corroboraram a
discordância filogenética descoberta no conjunto de dados inicial ( Figura S1 D).
Em seguida, simulamos a distribuição da árvore gênica esperada sob uma
hipótese de deriva genética com ILS e comparamos com os dados empíricos.
Encontramos discordância entre os dados simulados e empíricos,
sugestivos de ILS e fluxo gênico como a causa da diminuição do suporte
para a árvore de espécies. Encontramos nos dados empíricos um excesso de
topologias de árvores gênicas apoiando a colocação do rinoceronte de
Sumatra como irmão de outras espécies da subfamília Rhinocerotinae, como
observado anteriormente em algumas filogenias mitocondriais (
Para
explorar ainda mais as origens das discordâncias filogenômicas, usamos
análises de estatística D para diferenciar eventos de fluxo gênico
antigos de ILS (
).
O uso deste método pode ser problemático quando aplicado a espécies
relativamente divergentes devido tanto a possíveis violações em
suposições como taxas de mutação iguais e o modelo de sítios infinitos e
vieses derivados do mapeamento de dados resequenciados para um genoma
de referência ( Figuras S2 A
e S2B ). Apesar dessas fontes potenciais de erro, as estatísticas D são
congruentes com as análises filogenômicas ao sugerir que o fluxo gênico
e ILS ocorreram entre os ancestrais das espécies Diceroti e Rhinoceros ( Figuras 2 B e 2C). Esse fluxo gênico pode ter sido possibilitado pela origem eurasiana de ambas as espécies africanas (
). Our analyses also revealed an excess of shared derived alleles between the two extinct members of the DCS clade (Merck’s and woolly rhinoceroses) and both representatives of Rhinoceros,
suggesting gene flow between these two pairs of lineages. We found no
evidence of excess shared derived alleles between the Sumatran
rhinoceros and either Rhinoceros species (Figure S2D), despite their closer geographic proximity (Figure 1). This suggests either no gene flow or similar levels of gene flow between the Sumatran rhino and both Rhinoceros
species. These differential patterns of gene flow may explain the
discrepancy of the phylogenetic placement of the Sumatran rhinoceros as
sister to the genus Rhinoceros based on nuclear DNA versus sister to all other members of the subfamily Rhinocerotinae in some mitochondrial phylogenies (
Usamos dados fósseis para calibrar nossa filogenia e estimar os tempos de divergência de linhagem ( Figura 2 A).
Isso resultou em uma estimativa de ∼65 mya para o ancestral comum de
cavalos, antas e rinocerontes e uma estimativa de ∼36 mya para o
ancestral comum da extinta subfamília de rinocerontes Elasmotheriinae e
da subfamília existente Rhinocerotinae. Os três principais clados dentro
da subfamília Rhinocerotinae divergiram cerca de 16 milhões de anos ( Figura 2 A),
no final do início do Mioceno e por volta do período ideal climático do
Mioceno (17–14 milhões de anos), um período que foi de aproximadamente
3°C– 4°C mais quente do que o presente (
).
Nossa hipótese é que essa ponte terrestre permitiu eventos de
dispersão seguidos de vicariância, como está bem documentado com a
imigração para a África da Eurásia dos primeiros rinocerotídeos,
girafídeos, suídeos e viverrídeos e a emigração da África para a Eurásia
de macacos, deinotheres e elefantóides, entre outras (
).
Esses achados são consistentes com a observação de que todas as
espécies de rinocerontes existentes passaram por declínios recentes no
tamanho da população, embora algumas espécies (rinocerontes brancos e
maiores de um chifre) tenham se recuperado.
).
No entanto, a baixa diversidade genética também pode ser consequência
de características particulares da história de vida e/ou pequeno tamanho
populacional de longo prazo.
).
Para investigar isso, calculamos a heterozigosidade do genoma (GWH)
para todas as oito espécies de rinocerontes e comparamos essas
estimativas com GWH em uma variedade de outras espécies animais,
incluindo ruminantes e, mais amplamente, mamíferos. Avaliamos se os
níveis de GWH são mais baixos em genomas recuperados de animais atuais
(ou seja, preto, branco, rinoceronte de um chifre maior e rinocerontes
de Sumatra) em comparação com GWH em genomas recuperados de espécimes
que antecedem os declínios mediados por humanos durante o últimos 100
anos (ou seja, o genoma do rinoceronte de Java de quase 180 anos, bem
como os genomas das três espécies extintas).
Estimamos
GWH com base em transversões apenas para limitar a influência potencial
de danos no DNA nas estimativas dos genomas antigos e históricos. No
entanto, para comparabilidade com os resultados publicados para outros
táxons, que incorporam todos os locais variáveis, recalibramos nossas
estimativas com base na proporção esperada de transição/transversão
(consulte a Figura S3 A).
Nossos resultados mostraram que os genomas de rinocerontes atuais
exibem GWH significativamente menor em comparação com os genomas
históricos de Java e extintos (ANOVA de uma via, n = 8, F = 7,4, p =
0,04). Por outro lado, nossa comparação com uma ampla gama de animais
mostra que os rinocerontes em geral exibem níveis comparativamente
baixos de GWH, especialmente em relação não apenas ao conjunto de dados
combinado de todos os animais, mas também de ruminantes e outros grandes
herbívoros ( Figura 3 A). A única família de mamíferos que exibiu níveis médios mais baixos de GWH foi a Felidae ( Figura S3 B), o que não é inesperado, pois carnívoros/predadores são geralmente menos abundantes que herbívoros/presas (
Para
melhor contextualizar os níveis observados de GWH, caracterizamos os
níveis de endogamia em nossos genomas por meio de distribuições de
corridas de homozigose (ROH). Para avaliar a robustez de nossos
resultados, primeiro exploramos o efeito da exclusão de transições na
inferência ROH ( Figura S4 A).
Esta análise indicou que uma dependência apenas de transversões desloca
a distribuição de segmentos ROH para trechos mais longos, mas que isso é
apenas um problema para espécies com baixo GWH geral. Uma vez que todos
os genomas resequenciados (Javan, unicórnio siberiano, Merck e
rinoceronte lanudo) exibem maior GWH do que pelo menos três dos de novo (preto,
branco, Sumatra e rinoceronte de um chifre maior), uma dependência
apenas de transversões pois esses indivíduos podem inflar
artificialmente o comprimento dos segmentos ROH, mas não devem
influenciar nossas interpretações gerais.
Figura S4 Testes para ROH, PSMC e estimativas de efeito gênico, relacionadas às Figuras 3 , 4 e 5
Não
detectamos nenhum segmento ROH no unicórnio siberiano, o que pode
refletir sua distância filogenética excepcional ao genoma do rinoceronte
branco contra o qual foi mapeado, inflando artificialmente os sítios
heterozigotos ( Figura S3 C).
Em contraste, segmentos ROH > 2 Mb foram detectados em todas as
outras espécies de rinocerontes, onde todas as espécies, exceto o
rinoceronte lanudo, também exibiram trechos de até 5 Mb. No entanto,
observamos níveis de endogamia significativamente mais altos (ANOVA de
uma via, n = 7, F = 36,7, p = 0,002), que são proporcionais ao
comprimento total dos segmentos ROH, nos genomas de rinocerontes atuais
em comparação com os genomas dos históricos Javan e extintos Merck's e
rinocerontes lanudos ( Figura 3 B).
No
geral, as comparações de GWH e níveis de endogamia sugerem que
declínios populacionais recentes causados por forte pressão antrópica
no século 20 (por exemplo,
)
resultou em perdas acentuadas na diversidade genética, bem como no
aumento dos níveis de endogamia. No entanto, os genomas de espécies
históricas e extintas, que foram amostrados antes de seu recente colapso
populacional ou muitos milhares de anos antes de sua extinção, também
exibem baixos níveis de GWH quando comparados a outras espécies animais (
Figura 3 A).
Além disso, a observação de uma quantidade moderada de longos segmentos
ROH nos genomas dos rinocerontes Javan, Merck e lanudos é consistente
com a endogamia dessas espécies. Assim, levantamos a hipótese de que a
diversidade genética limitada e os níveis moderados de endogamia são
características intrínsecas da história de vida do rinoceronte, onde
baixas densidades populacionais e dispersão limitada resultam em aumento
da deriva genética, bem como acasalamento ocasional entre parentes.
Demografia e carga mutacional
Para
avaliar ainda mais o fundo genômico do baixo GWH geral e níveis
moderados de endogamia em Rhinocerotidae, modelamos mudanças no tamanho
efetivo da população (N e ) em todo o Pleistoceno usando o modelo coalescente sequencialmente markoviano (PSMC) em pares (
),
nossa análise combinada permite a exploração de respostas
compartilhadas e únicas ao longo do tempo. No geral, é impressionante
que todas as oito espécies apresentaram um decréscimo contínuo geral em N
e nos últimos dois milhões de anos ou um N e em longos períodos de tempo.
Figura 4 Trajetória demográfica das oito espécies de rinocerontes
Estudos
anteriores sugeriram que a manutenção de um tamanho populacional baixo
por longos períodos de tempo permite a eliminação de alelos deletérios,
mantendo baixos níveis de diversidade genética em todo o genoma.
). Nossa descoberta de que todas as espécies de rinocerontes tiveram um pequeno N e durante longos períodos de sua história poderia indicar um cenário semelhante.
Para
investigar como a carga mutacional em Rhinocerotidae se compara a
outras espécies, calculamos razões de perda de função (LoF; geralmente
altamente deletério) versus mutações sinônimas para sete das espécies de
rinocerontes e 30 espécies de mamíferos de diversos clados ( Tabela S4 ).
Os resultados mostram que os níveis de carga mutacional em rinocerontes
estão dentro da faixa observada entre outros mamíferos atuais ( Figura 5 ).
No entanto, os genomas de rinocerontes extintos e históricos (unicórnio
siberiano, rinoceronte lanoso e rinoceronte de Java) exibiram um número
significativamente maior de mutações LoF ( Figura 5 ;
ANOVA unidirecional, n = 7, F = 29,0, p = 0,003) em comparação com o
genomas de rinocerontes atuais (ou seja, rinocerontes pretos, brancos,
Sumatra e maiores de um chifre). Portanto, não encontramos evidências de
um acúmulo de carga mutacional nas últimas décadas para as espécies que
passaram por declínios populacionais recentes. Embora especulativo,
nós, portanto, hipotetizamos que os rinocerontes existentes podem ter
sofrido alguma purga de carga mutacional em conexão com seus declínios
demográficos nos últimos 100 anos. No entanto, essa hipótese requer mais
testes, por exemplo, por meio de comparações intra-específicas de
genomas históricos e modernos que abrangem esses declínios e, em alguns
casos, recuperações.
).
Enquanto isso, vale a pena notar que algumas das espécies usadas na
análise foram mapeadas em suas espécies intimamente relacionadas com
genomas de referência disponíveis, e as qualidades das montagens e
anotações do genoma também variam entre as espécies, o que pode
influenciar a precisão do gene. estimativa de efeito.
Figura 5 Efeito variante do genoma de uma ampla gama de espécies de mamíferos
Nosso
conjunto de dados de genoma de rinocerontes combinado representa um
recurso valioso para o estudo atual e futuro da evolução e biologia
dessas espécies, incluindo a caracterização da base genética dos
fenótipos de rinocerontes ( Tabela S5 ).
Por exemplo, descobrimos mutações de mudança de quadro no IFT43
(transporte intraflagelar 43) que podem contribuir para a deficiência
visual dos rinocerontes. O IFT43 está envolvido na formação e manutenção
dos cílios, que são importantes para o desenvolvimento e função do
tecido sensível à luz na parte posterior do olho (a retina) (
No
caso do rinoceronte de Javan e de um chifre maior, nossas sequências
genômicas também fornecem uma base para análises genéticas de
conservação de espécies específicas. Ao analisar esse conjunto de
dados, resolvemos um debate de longa data relacionado à história
evolutiva de rinocerontes vivos e recentemente extintos e fornecemos
evidências de que heterozigose genômica relativamente baixa e níveis
moderados de endogamia podem representar seu estado natural de longo
prazo. Esses achados sugerem que os baixos níveis de diversidade e alta
endogamia observados nos genomas de rinocerontes atuais podem ser
atribuídos apenas parcialmente a declínios recentes. Isso pode ser uma
notícia positiva para a conservação, pois implica que declínios recentes
podem ter tido menos impacto sobre os aspectos genéticos da viabilidade
populacional do que se pensava anteriormente. No entanto, os
rinocerontes existentes, sem dúvida, enfrentam enormes desafios no
futuro, principalmente devido aos efeitos antropogênicos e ambientais.
Uma das principais prioridades para a conservação dos rinocerontes será
deter a caça ilegal e garantir que haja capacidade de carga suficiente
para a recuperação da população. Nosso estudo destaca como a genômica
pode complementar essas ações, permitindo o monitoramento de mudanças
contínuas na variação genética, endogamia e carga mutacional.
Limitações do Estudo
Dada a natureza histórica e antiga dos espécimes de quatro das espécies estudadas, sua qualidade de DNA não era adequada para de novo montagem
assim, suas sequências genômicas foram recuperadas por meio de
mapeamento contra outras espécies. Esse processo pode introduzir vieses
nas análises a jusante que podem surgir devido a eficiências de
mapeamento diferencial influenciadas pela distância filogenética do
genoma de referência, danos no DNA antigo e comprimentos de leitura
curtos. Portanto, embora tenhamos tomado várias medidas para amenizar
tais influências, destacamos que isso deve ser lembrado. Além disso,
deve-se notar que a família dos rinocerontes já foi um grupo especioso, e
apenas uma pequena fração deles foi estudada aqui. Assim, dado que não
temos sequências genômicas da maioria do clado, claramente restará uma
enorme lacuna que precisa ser preenchida antes que possamos entender
completamente a história evolutiva da família dos rinocerontes.
Mais
informações e solicitações de recursos e reagentes devem ser
encaminhadas e serão atendidas pelo Contato Principal: Shanlin Liu ( shanlin.liu@cau.edu.cn ).
Disponibilidade de materiais
Este estudo não gerou novos reagentes exclusivos.
Modelo experimental e detalhes do assunto
Organismos de origem
O espécime do maior rinoceronte indiano de um chifre ( Rhinoceros unicornis )
deriva de uma cultura de células mantida no Zoológico de San Diego (ID =
KB14498, SB137) e originalmente deriva de um indivíduo feminino nascido
em cativeiro, que por sua vez foi derivado de um pais nascidos
(Dam-100288 e Sire-100289). O espécime de rinoceronte preto ( Diceros bicornis )
foi fornecido pela Zululand Rhino Reserve, África do Sul (ID = 46373), e
é detalhado no artigo original relatando seu genoma (
). The Sumatran rhinoceros (Dicerorhinus sumatrensis)
sample derives from blood sampled from an individual named Kertam by a
staff at the Sabah Wildlife Department in Borneo, Malaysia. Further
details on this specimen are detailed in the original paper that
released its genome (
). O genoma do rinoceronte de Java ( Rhinoceros sondaicus )
deriva de três subamostras de tecido mole seco (dois) e osso (um)
retirados de um crânio coletado em 1838 em Java, que atualmente se
encontra nas coleções do Museu de História Natural da Universidade de
Oslo (Museu de História Natural, Oso; ID do Museu de adesão: 734). O
espécime de rinoceronte lanudo ( Coelodonta antiquitatis )
(ID = ND036; um fêmur) foi coletado ao longo do rio Rakvachan (N69°
17,80' E167° 38,53'), na Península de Kyttyk, Chukotka, Rússia. A
amostra foi datada por radiocarbono duas vezes, resultando em
estimativas de idade por radiocarbono de 46200 ± 2300 14 C anos AP (OxA-36569) e 51980 ± 4900 14C anos AP (MAG-2095). O genoma do unicórnio siberiano ( Elasmotherium sibiricum )
foi gerado a partir de uma subamostra de raio de um espécime (IPAE
915/2804) originário de Tobolsk, Rússia (58°N 68°E) e tem uma idade de
radiocarbono > 49.200 14 C anos AP ( OxA-34900). O genoma do rinoceronte da Merck ( Stephanorhinus kirchbergensis )
deriva de uma raiz do primeiro molar (M1) que foi subamostrada de um
crânio completo (Aliança Nacional de Shidlovskiy “Ice Age”, Ice Age
Museum, Moscou; acesso F-4160) recuperado de o vale do rio Chondon em
Yakutia, Rússia (N70° 12′ E137°) e datado entre 48.000 e 70.000 anos BP (
O
DNA do rinoceronte de Java foi extraído e preparado para sequenciamento
nos antigos laboratórios de DNA do Instituto GLOBE da Universidade de
Copenhague, seguindo procedimentos padrão de laboratório limpo (
), e sequenciado na plataforma BGISeq500 na BGI Shenzhen, com estratégia de sequenciamento de 50 PE.
O
DNA foi extraído do espécime de rinoceronte lanudo no antigo
laboratório de DNA do Museu Sueco de História Natural a partir de 50 mg
de pó de osso coletado com uma broca Dremel. Em seguida, extraímos o
DNA usando uma versão modificada do protocolo C em
).
Libraries were amplified in a 50 μL reaction containing 5 U AmpliTaq
Gold polymerase (Applied Biosystems, Foster City, CA), 1× AmpliTaqGold
buffer, 2.5 mM MgCl2, 0.4 mg/mL bovine serum albumin (BSA), 0.2 mM each
dNTP, 0.2 μM BGI forward primer (
)
e 10 μL de modelo de DNA da biblioteca. As bibliotecas amplificadas
foram sequenciadas em uma plataforma BGISeq 500 na BGI Shenzhen com uma
estratégia de sequenciamento SE100.
Extraímos o DNA da raiz do dente de rinoceronte M1 da Merck, conforme relatado anteriormente por
.
Briefly, in addition to the DNA extract obtained in Kirillova et al., a
second DNA extraction was performed following the previously reported
methods (
)
no laboratório de Paleogenômica da Universidade da Califórnia em Santa
Cruz. Construímos quatro bibliotecas (single-indexed e double-stranded)
para cada extrato de DNA seguindo os métodos relatados por
).
O total de oito bibliotecas indexadas foi agrupado e enviado ao
SciLifeLab (Estocolmo, Suécia) para sequenciamento em duas pistas da
plataforma Illumina HiSeq-X (150 PE). Além disso, uma subamostra foi
processada nos antigos laboratórios de DNA do Instituto GLOBE da
Universidade de Copenhague, seguindo os mesmos protocolos descritos com o
mesmo método de construção de biblioteca para o rinoceronte de Java, e
sequenciado em três pistas de dados PE100 em um BGISeq 500 plataforma na
BGI Shenzhen.
Uma
subamostra foi retirada de um raio (IPAE 915/2804) do unicórnio
siberiano e o DNA foi extraído no Australian Centre for Ancient DNA
(Universidade de Adelaide) conforme relatado anteriormente por
.
A biblioteca foi dividida em 8 reações de PCR separadas para minimizar
o viés de PCR e manter a complexidade da biblioteca. Cada PCR de 25 μL
continha 1 × tampão HiFi, 2,5 mM MgSO4, 1 mM dNTPs, 0,5 mM cada primer
(contendo uma combinação única de 7-mer i5 e i7 índices), 0,1 U Platinum
Taq Hi-Fi polimerase e 3 μL de DNA . As condições de ciclagem foram
94°C por 6 min; 7 ciclos de 94°C por 30 s, 60°C por 30 s e 68°C por 40
s; seguido de 68°C por 10 min. Após a PCR, as réplicas foram agrupadas
e purificadas usando esferas magnéticas AxyPrep de 1,1x volume, eluídas
em 30 μL de tampão EB e quantificadas usando um TapeStation (Agilent
Technologies). A biblioteca foi sequenciada em três pistas de um
Illumina HiSeq X Ten no Garvan Institute of Medical Research (Sydney,
Austrália). 4 reações de PCR adicionais foram conduzidas em Estocolmo,
Suécia. Cada PCR de 25 μL continha 1x mistura de reação AccuPrime,
primer de amplificação IS4 0,3 μM, primer de indexação P7 0,3 μM,
polimerase AccuPrime Pfx (Thermo Scientific) 7 U. As condições de
ciclagem foram 95°C por 2 minutos, 14 ciclos a 95°C por 15 segundos,
60°C por 30 segundos e 68°C por 1 minuto. As réplicas de PCR foram
agrupadas e purificadas usando esferas Agencourt AMPure XP (Beckman
Coulter, Brea, CA, EUA), eluídas em 36 μL de tampão EB e quantificadas
usando um chip de DNA de alta sensibilidade em um Bioanalyzer 2100
(Agilent, Santa Clara, CA, EUA). A biblioteca foi posteriormente
sequenciada em uma pista Illumina HiSeqX com uma configuração de 2 × 151
bp no modo High Output no SciLifeLab (Estocolmo, Suécia).
Para
as amostras históricas/antigas de rinocerontes, embora várias
bibliotecas de sequenciamento tenham sido construídas e algumas tenham
sido sequenciadas com diferentes estratégias de comprimento de leitura,
os testes de comparação dos diferentes conjuntos de dados não
encontraram diferenças de viés (detalhados na Recursos adicionais ) e, portanto, nós os fundimos para as amostras subsequentes. análises.
DNA
de alto peso molecular foi extraído de uma amostra de cultura de
células do Zoológico de San Diego (ID = KB14498, SB137) para o
rinoceronte de um chifre maior usando um robô de extração Kingfisher duo
prime. Bibliotecas livres de PCR Truseq de extremidade pareada com
tamanho de inserção de 180 bp e 670 bp foram construídas e sequenciadas
na plataforma Illumina HiSeq X no SciLifeLab (Estocolmo, Suécia),
gerando aproximadamente 400 milhões de extremidade pareada (2x150 bp)
cada. Além disso, três bibliotecas mate-pair (3, 5 e 20 kb) de dois
espécimes, uma do Zoológico de San Diego (KB17733) e uma do Zoológico de
Rotterdam (IR_104724), foram construídas e sequenciadas para
aproximadamente 100 milhões de leituras pareadas (2x150bp ) cada um no
Illumina HiSeq X no SciLifeLab (Estocolmo, Suécia).
Montagem e anotação do genoma
Nós
mesclamos as leituras pareadas para todas as amostras de rinocerontes
antigas e históricas (unicórnio siberiano, Javan, Merck e rinoceronte
lanudo) usando uma versão modificada do AdapterRemoval (
)
que mascarou as bases de conflito que têm qualidades de sequenciamento
idênticas a Ns e removeu leituras colapsadas < 30 bp. Em seguida,
mapeamos as leituras curtas dessas espécies de rinocerontes em suas
referências de genoma correspondentes ( Tabela S2 ) e obtivemos seus genomas (sequências de consenso) usando o módulo doFasta (-doFasta 2) em ANGSD (versão 0.924) (
)
com um requisito mínimo de qualidade de mapeamento e qualidade de base
de 20. Uma profundidade mínima de 5 foi definida para o rinoceronte de
Java e lanudo, e a profundidade mínima foi definida como 3 para o
unicórnio siberiano e o rinoceronte da Merck devido às suas coberturas
relativamente menores ( ∼30× para o primeiro par, versus ∼10× para o
último par).
Para
o rinoceronte de um chifre maior, obtivemos seu genoma usando uma
montagem de par de parceiros. Como a qualidade da montagem pode variar
para diferentes conjuntos de dados, usamos três montadores diferentes e
avaliamos seu desempenho. Os seguintes montadores para dados de
sequência de leitura curta foram usados: ALLPATHS-LG v.52485 (HAPLOIDIFY
= True) (
).
Dos três montadores, ALLPATHS-LG foi selecionado para análises a
jusante, pois produziu a montagem mais completa de genes e a montagem
contígua (com um andaime N50 de 27,7 Mbp. A completude do gene foi
medida com BUSCO v.5.0.0 (
)
usando o conjunto de dados ortólogo “mammalia_odb10”, que mostrou um
baixo grau de genes ausentes, fragmentados e duplicados: “C:96,2%
[S:95,6%, D:0,6%], F:1,0%, M:2,8%, n :9226.”
A
anotação do genoma do rinoceronte branco é seu lançamento original com a
montagem do genoma. Como as anotações genômicas do rinoceronte preto e
de Sumatra não foram divulgadas com seus conjuntos de genoma, anotamos
os genomas do rinoceronte preto, de Sumatra e de um chifre maior da
seguinte forma. Primeiro, as repetições foram mascaradas usando
RepeatMasker (Smit, AFA, Hubley, R & Green, P. RepeatMasker
Open-4.0.2013-2015) com todas as espécies (“model_org=all”) sendo
incluídas na RepBase. Em seguida, mascaramos as proteínas do elemento
transponível usando RepeatRunner (
) for homolog prediction with its amino acid datasets including Sus scrofa, Tursiops truncatus, Bos taurus, Drosophila melanogaster, Vicugna pacos and Homo sapiens. De novo gene prediction was achieved with: a) Augustus (version 3.2.3) (
)
foi usado para pesar e mesclar diferentes evidências e obter conjuntos
de genes codificadores de proteínas para o rinoceronte de um chifre
preto, Sumatra e maior.
Alinhamento do genoma e inferência filogenética
Os quatro de novo e o genoma da anta ( Tapirus terrestris , GCA_004025025.1) foram alinhados ao genoma de referência do cavalo ( Equus caballus , GCF_000002305.2) usando LAST com parâmetros de -m 100 -E 0,05 (
),
e cada alinhamento de pares foi encadeado e compensado para formar
blocos de alta qualidade. Depois disso, as regiões não-sintênicas foram
filtradas de cada alinhamento. Finalmente, os alinhamentos locais aos
pares foram combinados para gerar um alinhamento final do genoma inteiro
multi-espécies (MWGA) usando MULTIZ sem referência fixa e com um raio
de 50 em programação dinâmica (
Após gerar o MWGA para todas as de novo ,
uma análise filogenética baseada em janela deslizante foi conduzida ao
longo do genoma do cavalo com um tamanho de janela de 100 kb. Um
conjunto de ferramentas do navegador de genoma da UCSC (
),
incluindo mafsInRegion, mafFilter, maf2fasta e vários scripts PERL
internos foram aplicados para dividir todo o alinhamento do genoma em
sub-regiões. Então, para cada sub-região, incluímos as sequências
genômicas das amostras de rinocerontes sequenciadas não de novo ,
por meio da extração das sequências correspondentes com base nas
informações de coordenadas da região em seus genomas de referência, e
realizamos o alinhamento de múltiplas sequências usando MAFFT (
).
Também removemos os alinhamentos com comprimento efetivo < 1.000 bp
e razão efetiva < 0,5, dos quais os sítios efetivos representam
sítios de nucleotídeos que não incluem informações faltantes (Ns) para
nenhum táxon no alinhamento de múltiplas sequências. Depois disso, o
modelo GTR+CAT do RaxML (
)
foi usado para construir árvores filogenéticas de máxima
verossimilhança (ML) para cada janela. Finalmente, a árvore de espécies
foi gerada usando o software baseado em modelo coalescente
multi-espécies ASTRAL III (
Devido
à baixa qualidade do DNA endógeno recuperado das amostras históricas e
antigas, suas sequências genômicas só puderam ser reconstruídas através
do mapeamento contra um genoma de referência. Para testar se a escolha
do genoma de referência desempenharia algum papel na formação da
sequência de consenso recuperada ou na inferência filogenética com base
nos dados, usamos as 100 leituras de PE geradas a partir do rinoceronte
lanudo e do unicórnio siberiano para examinar o viés de referência por
meio do alinhamento de suas leituras curtas em diferentes referências,
incluindo o cavalo ( Equus caballus ),
branco, maior de um chifre e rinoceronte de Sumatra, respectivamente.
Após o alinhamento do genoma, 82 regiões do genoma de comprimento >
20.000 pb foram selecionadas para inferir árvores filogenéticas ( Figura S1 A).
Essas regiões foram espalhadas aleatoriamente pelo genoma, tendo assim
poucas chances de serem encontradas nos mesmos blocos de recombinação.
Calculamos a frequência de três topologias em torno de cada ramo interno focal da árvore de espécies ( Figura 2 B) usando o DiscoVista (
),
para as árvores gênicas baseadas em janelas de 100 kb. Uma simulação
coalescente multi-espécies também foi aplicada para determinar as
distribuições de árvores de genes esperadas com base na árvore de
espécies datada usando o pacote Phybase seguindo
.
Em seguida, inspecionamos a congruência entre a frequência das três
topologias inferidas a partir de dados genômicos empíricos e aquela
gerada a partir da simulação para a linhagem Rhinocerotinae.
Para
validar a robustez da nossa árvore de espécies, também reconstruímos a
relação filogenética em cada cromossomo independentemente (referência
pelos cromossomos do cavalo) para todas as espécies de rinocerontes que
têm de novo e
dois grupos externos de anta e cavalo usando as janelas deslizantes de
100 kb mencionadas acima método baseado. Então, para cada cromossomo
inferimos uma árvore de espécies e calculamos a frequência da topologia
da árvore usando o DiscoVista (
Como
uma região genômica com comprimento de 100 kb pode conter vários pontos
de quebra de recombinação, amostramos um alinhamento curto com
comprimento de 5.000 bp dentro de cada janela deslizante de 100 kb para
inferir árvores gênicas usando RaxML (
)
com uma configuração de modelo de substituição de GTR+CAT e 100
réplicas de bootstrap. Em seguida, filtramos as árvores de genes com
nós de suporte de bootstrap < 85 para garantir sinais congruentes em
cada sub-região. Finalmente, a frequência de três topologias ao redor
do ramo de discordância filogenética obvertida com base em janelas
deslizantes de 100 kb foi calculada usando o DiscoVista (
Ortólogos das espécies com de novo foram
extraídos do antigo MWGA verificado por sintenia: 1) a localização do
gene e as regiões de exon correspondentes no arquivo de anotação do
genoma do cavalo foram usadas para extrair CDSs do alinhamento MWGA
pedindo uma cobertura ≥ 80%; 2) as sequências de aminoácidos obtidas do
genoma do cavalo servindo como consulta foram usadas para encontrar os
homólogos correspondentes para cada espécie usando o modelo
protein2genome em EXONERATE (
);
3) exons que não foram compartilhados por todas as espécies foram
removidos para melhorar a precisão do alinhamento gênico; 4) as
sequências de aminoácidos foram alinhadas usando MAFFT (
). Para as amostras sem de novo ,
obtivemos seus ortólogos de acordo com as informações de localização do
gene e do exon de seus genomas de referência. A fim de diminuir ainda
mais a influência potencial do viés de referência, obtivemos duas
sequências de genes para cada ortólogo mapeando suas leituras em dois
genomas de referência diferentes ( Tabela S2 ) e mesclamos as duas sequências de genes enquanto mascaramos conflitos como "N" (X para aminoácidos).
Inferimos
a escala de tempo evolutiva das linhagens de rinocerontes usando um
conjunto de 3.513 ortólogos do conjunto identificado na seção anterior
(8.820.642 nucleotídeos). O conjunto de ortólogos foi selecionado para
minimizar o possível viés nas taxas moleculares decorrentes de análises
de número finito de sítios ou discrepâncias excessivas nas taxas
moleculares entre linhagens em loci particulares (
).
Para selecionar os ortólogos, primeiro realizamos uma busca rápida em
árvore para cada ortólogo, usando apenas rearranjos de árvore NNI, sob
um modelo de substituição GTR+R4 (
).
Especificamente, os ortólogos retidos tinham árvores gênicas com
coeficientes de variação no comprimento da raiz à ponta (sem semelhança
de relógio) < 0,1 e distâncias de Robinson-Foulds para nossa árvore
de espécies inferida ≤ 2.
Nossas
análises incluíram calibrações de tempo em quatro divisões da árvore de
espécies, cada uma baseada em várias linhas de evidência do registro
fóssil. Os nós foram calibrados usando distribuições uniformes com
limites máximos suaves, colocando uma probabilidade de 0,025 em idades
mais avançadas. A colocação do limite máximo para um clado assume que
clados menos inclusivos não podem ser mais antigos que os fósseis mais
antigos de clados mais inclusivos. (i) Nós calibramos a divisão entre
Elasmotheriinae e Rhinocerotinae como ocorrendo entre 35 Ma e 44 Ma.
Este limite mínimo é suportado pelo registro mais antigo de
Rhinocerotinae, com Epiaceratherium naduongense , entre 35-39 Ma (
),
que é inequivocamente uma espécie aninhada dentro de Rhinocerotinae.
Evidência adicional para este limite mínimo é a espécie mais antiga
atribuída a Elasmotheriinae, Penetrigonas dakotensis , que aparece em ca. 38 Ma (
). (ii) A divisão entre Rhinoceros e Dicerorhinus foi
calibrada como ocorrendo entre 13 Ma e 23 Ma. A idade mínima é baseada
em restos de Siwaliks médios do Paquistão, datados de ca. 13 Ma e
inequivocamente atribuído a Dicerorhinus , sob o nome de D. aff. sumatrensis (
). Outros restos da mesma região e idade confirmam a ocorrência de Dicerorhinus já
no Mioceno médio (13,7-11,65 Ma; P.-OA, dados não publicados). O limite
máximo é informado pela primeira ocorrência atestada de Rhinocerotina
no registro fóssil (rinoceronte de um chifre Gaindatherium cf. browni ; Bugti Hills, Paquistão: 22,6 Ma;
). (iii) A divisão entre Rhinoceros unicornis e Rhinoceros sondaicus foi
calibrada como ocorrendo entre 1,9 Ma e 5,3 Ma. O limite mínimo é
suportado pela primeira ocorrência de ambas as espécies no registro
fóssil (
). A morphology-based phylogenetic analysis of Rhinocerotina, with a comprehensive sample within Rhinoceros, retrieves the following topology: (R. sondaicus,(R. sinensis,(R. unicornis,(R. kendengindicus, R. platyrhinus)))), with the first occurrence of Rhinoceros platyrhinus estimated at around the Pliocene–Pleistocene transition (2.58 Ma;
). A restrição de idade máxima coincide com a idade estimada mais precoce de Rhinoceros a partir das mesmas análises filogenéticas baseadas em morfologia. (iv) A divisão entre Ceratotherium simum e Diceros bicornis foi calibrada para ocorrer entre 5,3 Ma e 7,3 Ma. Este intervalo é consistente com registros de Diceros bicornis reconhecidos em depósitos do Mioceno superior (> 5,3 Ma) em Lothagam (Quênia, 6,54-5,2 Ma;
).
Por esta razão, realizamos análises que incluíram uma calibração do
quinto nó na idade da coroa de todos os Perissodactyla existentes. Esta
calibração foi um limite máximo suave em 66 Ma com uma probabilidade
anterior de 0,01 de uma idade mais avançada. A idade deste limite é
baseada na ausência de mamíferos placentários da coroa inequívoca antes
deste momento. Todas as análises foram repetidas após a exclusão desta
calibração para comparação ( Figura S5 A).
Figura S5 Análises de datação molecular e seleção de ferramentas de alinhamento, relacionadas à Figura 2 e Métodos STAR
Análises de datação molecular adicionais foram realizadas incluindo dados do genoma da anta ( Figura S5 A),
portanto, incluindo representantes de todas as famílias vivas de
Perissodactyla (Equidae, Tapiridae e Rhinocerotidae). A adição desses
dados foi seguida pela filtragem de loci para estimativas de taxa
tendenciosas conforme descrito acima, o que levou a um conjunto de dados
de tamanho semelhante (3.163 ortólogos com 7.325.631 nucleotídeos). A
topologia arbórea das espécies nestas análises aumentadas incluiu a anta
como irmã de Rhinocerotidae, enquanto o cavalo permaneceu como grupo
externo. Incluímos uma sexta calibração além das descritas acima, desta
vez sobre o momento da divisão entre Rhinocerotidae e Tapiridae. A
calibração teve um limite mínimo rígido e um limite máximo suave
(probabilidade prévia de 0,025 em idades mais avançadas), variando entre
54 Ma e 64 Ma. A idade mínima é baseada na primeira aparição de
Tapiroidea no registro fóssil logo após a transição Paleoceno-Eoceno,
por volta de 54 Ma, com Vastanolophus holbrooki e Cambaylophus vastanensis na Ásia (
), sugerindo, portanto, uma idade semelhante ou anterior para o caule Perissodactyla.
As
análises de datação bayesiana foram realizadas usando um modelo de
substituição GTR + Γ e um modelo de relógio relaxado -gama não
correlacionado, conforme implementado no MCMCtree, parte do PAML v4.8 (
).
We further addressed heterogeneity in molecular evolutionary processes
by partitioning the molecular clock and substitution models into each of
the three codon positions (three partition subsets). We improved the
efficiency of the analysis using approximate Bayesian computation (
). The posterior distribution was estimated using Markov chain Monte Carlo (MCMC) samples. After a burn-in phase of 105 MCMC steps, samples were drawn every 103 MCMC steps over a total of 107
steps. We verified convergence to the stationary distribution by
comparing parameter estimates from four independent runs. Effective
sample sizes were verified to be above 200 for all estimated parameters.
)
é comumente usado para alinhar essas leituras curtas geradas em estudos
de aDNA a genomas de referência, devido ao seu desempenho estável para
comprimento ultracurto (normalmente menor que 100 bp). No entanto, os
dados de simulação mostraram que a taxa de sucesso do mapeamento de
leitura das leituras relativamente mais longas (60 bp e 80 bp) caiu
cerca de três vezes para leituras de alta divergência (nível de
divergência de 3%) usando BWA-ALN (
), nos dados de sequenciamento obtidos para as quatro amostras históricas/antigas ( Figura S5 B).
Para BWA-ALN, desativamos a propagação de leitura (-l 1024) para
aumentar a tolerância a erros, enquanto marcamos acertos de divisão mais
curtos como alinhamentos secundários e os removemos das saídas para o
método BWA-MEM.
Gene flow
To
explore for potential gene flow between the different rhinoceros
species, we computed D-statistics that assesses genetic affinities
between taxa based on patterns of shared derived alleles (
).
Para uma determinada árvore de topologia (((H1, H2), H3), O), onde O
representa um grupo externo, sob a hipótese nula de nenhum fluxo gênico,
alelos derivados compartilhados entre H1 e H3, ou H2 e H3, só pode
derivam da classificação de linhagem incompleta (ILS) e espera-se que
sejam simétricas entre os dois pares. Portanto, o fluxo gênico antigo é
assumido entre um par no qual a agregação desequilibrada de alelos
derivados compartilhados é detectada. No entanto, devemos estar cientes
das limitações da análise da estatística D entre linhagens altamente
divergentes - certas suposições podem ser violadas em casos como
mutações repetidas ou independentes (
).
Mapeamos independentemente todas as leituras brutas de cada espécie de
rinoceronte e do cavalo para três genomas de referência diferentes
(rinoceronte de um chifre maior, rinoceronte branco e rinoceronte de
Sumatra) e, em seguida, calculamos as estatísticas D usando o módulo de
função doAbbababa em ANGSD (
)
especificando o cavalo como o alelo ancestral do grupo externo e os
seguintes parâmetros de filtragem: 1) use apenas sites onde as leituras
do grupo externo tenham a mesma base; 2) qualidade mínima de base e
qualidade de mapeamento de 20; 3) utilizar apenas os sítios de
transversão, todos os indivíduos possuem profundidade mínima de 3 e
máxima de 70; 4) um tamanho de bloco de 5 Mb para estimar os erros
padrão usando o procedimento jackknife.
Avaliamos
ainda se o mapeamento menos eficiente do grupo externo do cavalo para
os genomas de referência do rinoceronte pode estar conduzindo alguns de
nossos resultados conflitantes de estatísticas D que diferiram com base
na escolha do genoma de referência. Fizemos isso calculando a distância
em pares de todas as espécies de rinocerontes ao cavalo do grupo
externo três vezes usando todos os indivíduos mapeados para os três
genomas de referência diferentes. Calculamos distâncias aos pares em
janelas deslizantes de 1 Mb em todos os andaimes > 1 Mb de tamanho
usando uma abordagem de chamada de base de consenso (-doIBS 2) em ANGSD.
Além disso, aplicamos os seguintes filtros; incluir apenas sites que
tenham cobertura em todos os indivíduos, qualidade de base mínima e
qualidade de mapeamento de 20, e considerar apenas diferenças de
transversão.
Estimativa de heterozigosidade
Estimamos
a heterozigosidade em todo o genoma para todas as espécies de
rinocerontes com base em um Espectro de Frequência de Sítio (SFS), dos
quais um indivíduo diplóide gerará três estados alélicos: estado do
alelo ancestral homozigoto (AA), estado heterozigótico (AB) e estado do
alelo derivado de homozigoto (BB). Portanto, a taxa de heterozigosidade
no nível do genoma inteiro pode ser calculada como AB/(AA+AB+BB).
Aplicamos o módulo da função doSaf (-doSaf 1) em ANGSD (versão 0.924) (
)
para calcular a heterozigosidade em todo o genoma para cada espécie de
rinoceronte com parâmetros de: mapeamento único, uma qualidade mínima de
mapeamento de 20, uma qualidade de base mínima de 20, um valor de
profundidade mínimo e máximo de 1/3 e 2 vezes as profundidades médias do
genoma , respectivamente, para cada espécie. Para as amostras antigas e
históricas (Javan, Merck, rinoceronte lanudo e unicórnio siberiano), os
locais de transição foram removidos (-noTrans 1) para eliminar as
influências potenciais de danos no DNA derivados da desaminação de
citosina.
Inferência demográfica e estimativa de execuções de homozigose (ROH)
Aplicamos o método Pairwise Sequentially Markovian Coalescent (PSMC) (
)
para inferir a história das mudanças no tamanho da população nos
ancestrais de todas as oito espécies de rinocerontes. Para as espécies
para as quais os genomas foram de novo ,
alinhamos ∼30 × a cobertura do genoma das leituras de espingarda para
recuperar as informações de heterozigosidade do genoma diplóide com
filtros de profundidade de ≥ 1/3 e ≤ 2 × das profundidades médias. Em
seguida, o PSMC foi usado para estimar a distribuição do tempo para o
ancestral comum mais recente (TMRCA) entre os dois alelos em todos os
cromossomos usando as informações de densidade de sítios heterozigotos
em cada genoma diplóide. Mudanças no tamanho efetivo da população (N e ) foram inferidas assumindo uma taxa de substituição (μ) de 2,2 × 10 −8 substituições/local/geração e um tempo de geração (g) de 25 anos para os rinocerontes africanos ( Figura 3 A;
). A consistência dos resultados demográficos foi testada realizando 100 réplicas de bootstrap conforme mostrado na Figura 4 .
Os segmentos ROH foram registrados resumindo as regiões do genoma das
quais o TMRCA datava de um período de tempo recente (valor K de melhor
ajuste de ≤ 2) seguindo o método em
)
exigindo: profundidade mínima e máxima de 1/3 e 2x da profundidade
média; mapeamento e qualidade de base ≥ 20; qualidade da variância ≥
30; leia o número de suporte do alelo menor para ≥ 20% da profundidade
total. Depois disso, as classes funcionais das variâncias foram
estimadas usando SnpEFF (
)
with default settings. We trimmed 10 bp from the 5′ and 3′ ends of each
read for the Merck’s rhinoceros and Siberian unicorn to alleviate the
impact of DNA damages, because both the samples showed abnormal
transition/transversion ratios - as high as 5.367 without end trimming (Figure S4B).
However, as the transition/transversion ratio of the Merck’s rhinoceros
stayed abnormally high after trimming, which is consistent with
previous reports of its DNA damage pattern (Figure S4 in
Para
comparar a taxa de mutações missense e de perda de função em
rinocerontes com a de outros mamíferos, obtivemos dados publicados de
re-sequenciamento para 402 genomas de mamíferos de 30 espécies e
mapeamos estes para o genoma de referência filogeneticamente mais
próximo disponível para cada espécie (detalhado em Tabela S4 ) usando BWA-MEM v0.7.17 (
).
Em seguida, obtivemos e filtramos chamadas de variantes para cada
indivíduo usando o GATK HaplotypeCaller v3.8 seguindo as “diretrizes de
práticas recomendadas de descoberta de variantes curtas, incluindo
“filtragem difícil” (
).
Além disso, apenas retivemos os sítios bialélicos dentro da espécie e
removemos todos os indels e sítios encontrados em uma frequência menor
que um terço ou maior que três vezes a cobertura autossômica do genoma.
Para
investigar o suposto histórico genético de adaptações biológicas únicas
de rinocerontes, exploramos mutações de mudança de quadro
compartilhadas entre as linhagens de rinocerontes. Inspecionamos as
mutações de deslocamento de quadro nos resultados de alinhamento gerados
pela análise EXONERATE mencionada acima. Primeiro, todas as mutações de
mudança de quadro com suas informações de localização (IDs de genes e
IDs de éxons) foram extraídas para espécies de rinocerontes com de novo disponíveis
(rinocerontes preto, branco, Sumatra e maior de um chifre). Em seguida,
filtramos as mutações de mudança de quadro que compartilham os mesmos
locais e existem em todas as quatro espécies de rinocerontes e
registramos suas informações genéticas para exames adicionais.
Teste de heterozigosidade, estimativa de PSMC e ROH para as amostras de rinocerontes não modernos
Como
quatro dos genomas de rinocerontes foram gerados a partir de amostras
históricas e antigas, os dados só poderiam ser gerados a partir deles
por resequenciamento de leitura curta. Além disso, por representarem
amostras históricas ou antigas, espera-se que contenham DNA danificado
(principalmente desaminação de citosina (
).
Portanto, testamos a viabilidade de restringir algumas das análises
realizadas apenas às transversões, incluindo estimativa de
heterozigosidade, inferência demográfica histórica e estimativa de ROH (
Figuras S3 e S4 ).
Além disso, foram avaliadas as influências de outros fatores, como
seleção de referência e profundidade de sequenciamento. Para a
estimativa de ROH, aplicamos o método de inferência ROH para as quatro
espécies de rinocerontes com de novo montagens
de genoma Para a estimativa de PSMC, mapeamos leituras curtas
representando vários volumes de dados (diferentes coberturas do genoma,
11×, 17× e 35×) do rinoceronte preto no genoma do rinoceronte branco
para testar se é possível obter resultados precisos do histórico
demográfico usando ler dados de espécies que têm um genoma de referência
intimamente relacionado disponível.
Quantification and statistical analysis
Analyses
related to genome assembly, assembly quality evaluation, short read
alignment and evolutionary relationship inferences can be found in the Method details section.
Dados
brutos de sequenciamento e conjuntos de genoma podem ser acessados
nos bancos de dados do NCBI sob o número do projeto
BioProject:PJNA687817. Os scripts personalizados para análise de
alinhamento do genoma para o rinoceronte antigo e histórico foram
depositados em https://github.com/liushanlin/rhinoceros-comparative-genome .
Agradecimentos
Os
autores agradecem o apoio do Laboratório de Ciência para a Vida, do
Instituto Garvan de Pesquisa Médica, da Fundação Knut e Alice Wallenberg
e da Infraestrutura Nacional de Genômica, financiada pelo Conselho de
Pesquisa Sueco e pelo Centro Multidisciplinar de Uppsala para Ciência
Computacional Avançada, pela assistência com sequenciamento massivamente
paralelo. e acesso à infraestrutura computacional UPPMAX. Agradecemos
ao Museu de História Natural da Universidade de Oslo por fornecer a
amostra do rinoceronte de Java. Agradecemos ao Museu do Instituto de
Ecologia Vegetal e Animal (UB RAS, Ekaterinburg) por fornecer a amostra
de unicórnio siberiano. O MTPG foi apoiado pela concessão Consolidadora
681396 do Conselho Europeu de Pesquisa (ERC) (Extinction Genomics). A
EDL foi apoiada pela concessão 8021-00218B do Independent Research Fund
Denmark. AC foi apoiado por um Australian Research Council Laureate
Fellowship (FL140100260). O TMB é apoiado pelo financiamento do ERC no
âmbito do programa de pesquisa e inovação Horizonte 2020 da União
Europeia (convênio 864203), doação BFU2017-86471-P (MINECO /FEDER, UE),
“Unidad de Excelencia María de Maeztu” financiado pela AEI (
CEX2018-000792-M ), Howard Hughes International Early Career , e
Secretaria d'Universitats i Recerca e CERCA Program del Departament
d'Economia i Coneixement de la Generalitat de Catalunya ( GRC 2017 SGR
880 ). LD foi apoiado pelo Conselho de Pesquisa Sueco ( 2017-04647 ) e
Formas ( 2018-01640 ). Agradecemos a Dmitry Bogdanov e Roger Hall por
nos darem permissão para usar sua arte de rinoceronte.
Contribuições do autor
SL,
LD e MTPG conceberam o projeto e desenharam a pesquisa. M.-HSS, KJM,
SV, PK, IK, AC, BS e GZ forneceram trabalhos arqueológicos, logística
e/ou amostras e dados antigos. FS-B., YM, MB, TvdV, OR, CS e LGRB-vS
coordenaram a logística de e/ou forneceram amostras e dados modernos.
M.-HSS, ND, KJM, PDH, JDK, JvS, HH, CG, GM e CY realizaram trabalho de
laboratório. SL, RA-O., DAD, MVW e LC conduziram análises de dados com
entrada considerável de AM, TvdV, SG, PDH, TM-B., P.-OA, LD e MTPGSL,
MVW, ND, KJM, PDH, DAD, FS-B., AM, BDC, YM, KR, AL, TM-B., SG, EDL, RRD,
BS, P.-OA, LD e MTPG interpretaram os resultados e redigiram o artigo
com a contribuição de todos os outros autores.
Um
programa para anotar e prever os efeitos de polimorfismos de
nucleotídeo único, SnpEff: SNPs no genoma de Drosophila melanogaster
cepa w1118; iso-2; iso-3.
O gênero americano Penetrigonias Tanner & Martin, 1976 (Mammalia: Rhinocerotidae) como um grupo de tronco elasmother e ancestral de Menoceras Troxell, 1921.
A primeira imigração de rinocerontes lanudos ( Coelodonta tologoijensis , Rhinocerotidae, Mammalia) para a Europa e sua evolução adaptativa em faunas de mamíferos de estágio frio Paleártico.
The first find of Merck’s rhinoceros (Mammalia, Perissodactyla, Rhinocerotidae, Stephanorhinus kirchbergensis Jäger, 1839) remains in the Russian far east.
Uma
estrutura estatística para chamada de SNP, descoberta de mutações,
mapeamento de associação e estimativa de parâmetros genéticos
populacionais a partir de dados de sequenciamento.
A
estimativa precisa do comprimento do ramo em análises Bayesianas
particionadas requer acomodação da variação da taxa entre partições e
atenção aos comprimentos anteriores do ramo.
Mecanismos
de coexistência em diversas assembleias de herbívoros-carnívoros:
heterogeneidades demográficas, temporais e espaciais que afetam a
vulnerabilidade das presas.
Novos mapas representando a distribuição histórica e recente das espécies africanas de rinocerontes: Diceros bicornis, Ceratotherium simum e Ceratotherium cottoni .
Registro mais setentrional do rinoceronte Stephanorhinus kirchbergensis (Jäger) e status taxonômico de Coelodonta jacuticus Russanov (Mammalia, Rhinocerotidae).
Relações
filogenéticas das cinco espécies de rinocerontes existentes
(Rhinocerotidae, Perissodactyla) com base nos genes mitocondriais do
citocromo be 12S rRNA.
Sequências de proteínas do Pleistoceno Médio do gênero de rinocerontes Stephanorhinus e a filogenia de Rhinocerotidae existentes e extintos do Pleistoceno Médio/Final.
O
declínio prolongado e contínuo no tamanho efetivo da população resulta
em baixa diversidade genômica na espécie de hiena mais rara do mundo, a
hiena marrom.
Nenhum comentário:
Postar um comentário
Observação: somente um membro deste blog pode postar um comentário.