O fluxo gênico interespecífico moldou a evolução do gênero Canis
Resumo gráfico
Palavras-chave
Resultados e Discussão
O conjunto de dados do genoma analisado neste estudo contém 12 lobos cinzentos e 14 cães, escolhidos em regiões que se sobrepõem às áreas atuais dos outros canídeos basais incluídos neste estudo, cinco coiotes, um lobo etíope, três chacais dourados, seis lobos dourados africanos (originalmente Canis anthus , mas recentemente reclassificado como Canis lupaster [ 1 ]), dois dholes , quatro cães de caça africanos e uma raposa andina ( Lycalopex culpaeus ) ( Figura 1 ). O sequenciamento de leitura curta das amostras e o subsequente alinhamento com a montagem do genoma do lobo recentemente publicada [ 7 ] resultaram em coberturas de todo o genoma variando de 0,6 a 26,6 × (para detalhes, consulte Dados S1 ). em todo o genoma As estimativas de heterozigosidade ( Figura S1 ) mostram claramente níveis reduzidos no lobo etíope, no cão de caça africano e no dhole, uma observação que é consistente com o seu pequeno tamanho populacional . reconstruídas filogenéticas As relações dentro deste grupo de canídeos ( Figura 2 B) são de considerável relevância à luz do extenso debate anterior sobre as relações entre o lobo etíope, o chacal dourado e o lobo dourado africano [ 2 , 3 , 4 , 5 ]. Nossos resultados corroboram a proposição recente baseada em dados mitocondriais [ 2 , 3 ] e nucleares [ 4 , 6 ] de que o lobo dourado africano é evolutivamente distinto do chacal dourado ( Figura 2 C, painel rotulado 16), mas também que o etíope o lobo cai na base de ambos ( Figura 2 C, painel rotulado como 12) [ 5 ]. Por conveniência, doravante nos referimos a cinco espécies de canídeos, viz . o lobo etíope, o lobo dourado africano, o chacal dourado, o lobo cinzento e o coiote, como “o grupo da coroa”, a fim de distingui-los dos dholes mais básicos e dos cães de caça africanos.
A colocação do lobo etíope como grupo basal neste clado é consistente com topologias de árvores obtidas em análises filogenéticas anteriores baseadas em sequências genéticas concatenadas [ 5 ] e análises coalescentes multiespécies mais recentes [ 4 ] de conjuntos de dados que consistem em um subconjunto de exônicos e intrônicos sequências, mas difere da topologia baseada em análises concatenadas no último estudo. Notamos que esta filogenia baseada no ADN nuclear também coloca os cães como um clado irmão do clado europeu. lobos cinzentos .
No entanto, alertamos que esta colocação tem apenas suporte moderado (0,86 média de probabilidade local posterior); além disso, as frequências do quarteto da árvore genética de resoluções alternativas dentro dos ramos do lobo-cinzento são comparáveis àquelas recuperadas na árvore principal ( Figura 2 B, painel rotulado como 20-22) e, portanto, nenhuma conclusão pode ser tirada sobre qual população de lobo deu ascender aos cães. Na verdade, nossas descobertas não são incompatíveis com as hipóteses sugeridas anteriormente [ 9 ] de que (1) o cão foi domesticado a partir de uma população de lobos agora extinta e/ou (2) a diversidade genômica da população de lobos cinzentos da Eurásia foi reduzida desde o evento de domesticação.
Os genomas mitocondriais foram montados de novo a partir de todas as espécies estudadas, usando o MtArchitect [ 10 ], que é responsável pela presença de numts no genoma de referência. Uma filogenia de máxima verossimilhança baseada nesses genomas mitocondriais ( Figura 2 A) é amplamente consistente com aquela obtida a partir da análise do genoma nuclear , com uma exceção óbvia - os genomas mitocondriais do coiote ficam na base de todos os outros canídeos da coroa. Isso é consistente com os resultados de Koepfli e colegas [ 4 ] em genomas mitocondriais quase completos e, portanto, contradiz as descobertas de numerosos estudos anteriores que usaram sequências parciais de DNA mitocondrial e colocaram coiotes (1) como irmãos de lobos cinzentos [ 11 ], (2 ) em um clado não resolvido com lobos dourados africanos e lobos etíopes [ 2 , 3 ], (3) como irmã de lobos etíopes [ 1 , 2 , 12 , 13 ], ou, finalmente, (4) como irmã de um clado contendo lobos etíopes lobos e chacais dourados [ 14 ].
Posteriormente, exploramos o grau de fluxo gênico interespecífico entre as várias espécies. Muitas publicações relataram fluxo gênico interespécies entre membros do grupo da coroa canina (complexo cão-lobo cinzento, coiotes, lobos etíopes, chacais dourados e lobos dourados africanos) [ 4 , 5 , 9 , 13 , 15 , 16 , 17 , 18 , 19 ] – algo que talvez não seja surpreendente, dada a grande sobreposição geográfica de muitas das populações. Análises iniciais da estrutura genética entre esses canídeos usando NGSadmix [ 20 ] ( Figura S3 A) revelaram que os indivíduos se dividem de acordo com a estrutura esperada das espécies. No entanto, mais detalhes tornaram-se aparentes à medida que o número de clusters estimados (K) aumentou. Por exemplo, em valores mais elevados de K, os lobos cinzentos formam cinco grupos principais (México, Ellesmere-Groenlândia, Leste Asiático, Oriente Médio e o restante da Eurásia), enquanto os lobos dourados africanos são divididos em um clado Oriental e um Noroeste, como mostrado anteriormente [ 4 , 6 , 16 ].
Notamos que uma diferenciação populacional semelhante entre leste e oeste é observada para várias outras espécies de mamíferos africanos [ 21], thus pointing to a general trend that the African golden wolves follow. The NGSadmix analyses also suggest the presence of admixture between the different species. For example, we detected not only dog introgression in the gray wolves from Spain and Israel, but also, perhaps of greater interest, gene flow between African golden wolves, golden jackals, and gray wolves. One example is a highly admixed African golden wolf from the Egyptian Sinai Peninsula, whose genome contains contributions from both Middle Eastern gray wolves and dogs (Figure S3A).
Estudos anteriores que relataram mistura entre espécies de canídeos [ 9 ] e evidências mitocondriais de sobreposição do lobo cinzento, do lobo dourado africano e do chacal dourado no leste do Egito [ 4 ]. Isto aponta para a importância da Península do Sinai e do Sudoeste do Levante na evolução dos canídeos [ 4 , 9 ], presumivelmente devido ao seu papel como ponte terrestre entre os continentes africano e euro-asiático. Usamos TreeMix [ 22 ], D estatísticas [ 23 ] e gráficos de mistura [ 23 ] para examinar sinais de mistura entre essas espécies. Os resultados confirmaram que, em termos gerais, o nível de fluxo gênico entre as três espécies é alto, embora varie no espaço de maneira consistente com suas áreas naturais ( Figuras 3 B e S3 A – S3E). Por exemplo, o fluxo gênico entre chacais dourados e lobos cinzentos e entre lobos dourados africanos e lobos cinzentos é mais baixo quando os lobos cinzentos norte-americanos são considerados, um pouco mais alto para os lobos cinzentos asiáticos e europeus, e mais alto com os lobos cinzentos do Oriente Médio (por exemplo, , Israel, Síria e Arábia Saudita) ( Figura S3 E). Embora este último não seja surpreendente à luz da distribuição natural da espécie, a evidência da ancestralidade do chacal dourado nos lobos norte-americanos é intrigante. Uma possível explicação poderia ser que o fluxo gênico aconteceu antes da divergência dos lobos cinzentos norte-americanos e euro-asiáticos.
O fato de o fluxo gênico interespecífico ser consideravelmente maior no Oriente Médio do que em outros lobos cinzentos também pode explicar a distinção desta população. A estrutura entre os lobos dourados do noroeste e do leste da África pode ser explicada usando um argumento semelhante - os primeiros têm níveis mais elevados de mistura de chacal dourado e lobo cinzento ( Figuras 3 B, S3 A e S3B), enquanto os últimos apresentam níveis mais elevados de fluxo gênico. dos lobos etíopes. No geral, está claro que os indivíduos amostrados nesta região da ponte terrestre serão particularmente informativos para estudos futuros que desejem estudar a mistura de canídeos com mais detalhes.
Furthermore, D statistics were used to test for gene flow between the dhole and African hunting dog, using members of the crown group as ingroup and the Andean fox as outgroup. Although no gene flow was detected between species of the crown group and the African hunting dogs, the analyses provided strong evidence of gene flow between the African hunting dog and dhole (Figure S3C). This is a surprising finding, since the ranges of the two species do not overlap. However, it is well documented that the dhole existed as far west as Europe during the Pleistocene [24]. Thus, one possible explanation could be the presence of dholes in the Middle East in the past, from where they could have encountered and mixed with African hunting dogs in North Africa. It must, however, be stressed that given that there has never been any reported evidence of dholes in either the Middle East or North Africa, our hypothesis is purely speculative. The timing and location of this admixture event remain unresolved.
Embora tenha havido vários relatos de hibridização entre cães e lobos etíopes [ 13 , 15 ], a história genética do lobo etíope não foi investigada anteriormente usando dados genômicos nucleares. As análises baseadas na estatística D forneceram evidências do fluxo gênico entre lobos etíopes e não apenas lobos dourados africanos, mas também chacais dourados, lobos cinzentos e coiotes ( Figura S3 ). A descoberta de um fluxo genético considerável entre as linhagens do lobo dourado da Etiópia e da África Oriental não é surpreendente, dada a sua co-ocorrência geográfica em África. Também observamos consistentemente uma divisão Noroeste-Leste nos lobos dourados africanos e notamos que isto se correlaciona com a nossa descoberta de que o lobo etíope contribui com uma quantidade maior para os lobos dourados da África Oriental. Isto sugere que a mistura do lobo etíope pode ser um factor chave que contribui para a estrutura populacional do lobo dourado africano.
A presença de fluxo gênico entre o lobo etíope e as outras espécies de canídeos coroa é mais surpreendente, dada a falta de sobreposição de distribuição. No entanto, isso pode ser explicado através da extensa evidência relatada anteriormente de mistura entre lobos dourados africanos e lobos cinzentos, coiotes e chacais dourados [ 4 , 9 ]. Em suma, levantamos a hipótese de que o sinal da mistura do lobo etíope com outras espécies de canídeos da coroa é mediado pelos lobos dourados africanos. Um resumo de todos os eventos de mistura inferidos neste estudo é mostrado na Figura 3 A.
A localização incerta do lobo dourado africano ( Figura 2 C, painel rotulado 17), combinada com evidências de fluxo gênico do lobo etíope, levou-nos a investigar se o lobo dourado africano é uma espécie de origem híbrida, derivada de uma mistura entre lobos cinzentos e etíopes ou parentes próximos. As atuais áreas de distribuição dos lobos etíopes e cinzentos não se sobrepõem e, de fato, a distribuição histórica conhecida dos lobos etíopes está restrita às terras altas da Etiópia [ 15 ]. No entanto, o extenso fluxo gênico com outros canídeos, combinado com os dois níveis distintos de fluxo gênico do lobo etíope nas duas populações distintas de lobos dourados africanos, sugere que os lobos etíopes ou um parente próximo (agora extinto) tiveram, no passado, um distribuição muito maior na África e, portanto, maior oportunidade de mistura com outras espécies de canídeos. Além disso, análises mitocondriais de lobos dourados africanos, neste e em estudos anteriores, revelam que eles estão mais intimamente relacionados aos lobos cinzentos [ 2 , 3 , 4 , 25 ]. Além disso, os lobos dourados africanos são um clado irmão dos lobos cinzentos e coiotes na filogenia nuclear, enquanto são um grupo irmão dos lobos cinzentos do Médio Oriente na filogenia mitocondrial. Exploramos as relações entre o chacal dourado, o lobo etíope e o lobo dourado africano usando G-PhoCS [ 26 ] ( Tabela S1 ), que apoiou a descoberta do fluxo gênico do lobo dourado africano para o lobo etíope. Para explorar ainda mais a relação entre essas espécies e o lobo cinzento, usamos TreeMix [ 22 ] e gráficos de mistura [ 23 ] para obter árvores, que foram usadas para avaliar se o lobo dourado africano é uma espécie híbrida ( Figuras 4 B e 4C ) .
Inicialmente construímos um gráfico incluindo o coiote, o lobo etíope, o lobo cinzento e a raposa andina e avaliamos a posição mais provável para o lobo dourado africano neste gráfico. A colocação das duas populações de lobo dourado africano nesta árvore foi investigada posteriormente, modelando-as como irmãs de todos os nós possíveis e como populações misturadas que derivam a ancestralidade de dois nós possíveis. Finalmente, o modelo foi estendido para levar em conta a mistura do lobo dourado africano com o lobo etíope. Descobrimos que o o ancestral comum das populações de lobo dourado africano é melhor modelado como misturado entre um componente relacionado ao lobo etíope (∼28%) e outro relacionado ao lobo cinzento (∼72%) ( Z valor da estatística f de pior ajuste = −1,086; Figura 4 C). Finalmente, a população de lobos dourados do noroeste africano está mais intimamente relacionada com o lobo cinzento, o que é melhor explicado no nosso modelo através da mistura de lobos cinzentos.
Por último, nossa atenção foi atraída para o curioso resultado do fluxo gênico potencial entre a linhagem que representa o ancestral do coiote e dos lobos cinzentos e aquela que representa todas as outras espécies de canídeos, excluindo o cão de caça africano ( Figura S4 ), em todas D as análises estatísticas calculadas com o coiote ou lobo cinzento no grupo interno, nomeadamente na posição H2. Notavelmente, estes sinais desapareceram quando o clado irmão – H3 – foi substituído pelo cão de caça africano, levando-nos a levantar a hipótese de que os genomas do coiote e do lobo cinzento podem conter um componente ancestral basal derivado de uma espécie ainda não identificada que evoluiu após o divergência do ramo do cão de caça africano em relação às outras espécies de canídeos e que o sinal do fluxo gênico pode ser atribuído à atração externa da linhagem do coiote e do lobo cinzento. Observe que tal evento hipotético de mistura antiga também explicaria a posição inesperadamente basal do genoma mitocondrial do coiote - o coiote pode simplesmente ter retido o mitogenoma deste ancestral não identificado. Reconhecemos que a existência de um componente ancestral desconhecido seria controversa – análises anteriores de coiotes e do registros fósseis de seus ancestrais diretos argumentam que eles foram estritamente restritos à América do Norte por mais de um milhão de anos [ 27 , 28 ]. No entanto, na América do Norte, o coiote coexistiu ao lado de vários canídeos agora extintos, incluindo o dhole americano ( Cuon sp.) e o lobo terrível ( Canis dirus ) [ 29 ]. Embora o componente ancestral desconhecido não possa ser atribuído a nenhuma das espécies fósseis conhecidas neste momento, futuras análises paleogenómicas sobre tais materiais (se algum puder ser encontrado com ADN sobrevivente) podem fornecer possibilidades interessantes para testar a nossa hipótese.
In conclusion, our results highlight how interspecific gene flow has played an important role in shaping the species and population structure of gray wolves, coyotes, African golden wolves, golden jackals, and Ethiopian wolves and that African golden wolves, coyotes, and gray wolves may have been greatly affected by hybridization events. In particular, we conclude not only that African golden wolves arose through hybridization between a Ethiopian-wolf-like and gray-wolf-like ancestral population, but that subsequently the resulting northwestern and eastern African golden wolf populations underwent continuous admixture with modern gray and Ethiopian wolves, respectively. We furthermore argue that the common ancestor of gray wolves and coyotes differentiated from the lineage leading to golden jackals, in part by admixing with a dhole-like canid. Finally, the robust signal of gene flow observed between African hunting dogs and dholes testifies to an as-yet-undiscovered prehistoric overlap between the two lineages. This underscores how much remains to be discovered about the history of the wolf-like canids and how paleogenomic approaches may be required to advance our understanding of this group. Lastly, our study adds to the growing evidence for the importance of gene flow and hybridization in the evolution of mammalian species in general [23 , 30 , 31 , 32 ] e que, em vez de serem entidades isoladas que evoluem ao longo de filogenias semelhantes a árvores, estão interligadas e evoluem através de interações em topologias semelhantes a redes.
STAR★Methods
Key Resources Table
REAGENT or RESOURCE | SOURCE | IDENTIFIER |
---|---|---|
Biological Samples | ||
8 Canid blood or tissue samples | This paper | Data S1 |
Chemicals, Peptides, and Recombinant Proteins | ||
Proteinase K | Sigma-Aldrich | Gato#3115844001 |
Fenol | Bionordica | Cat# A0447,0500 |
Clorofórmio | Sigma-Aldrich | Cat# 288306-1L |
Ensaios Comerciais Críticos | ||
Kit de sangue e tecido DNeasy | QIAGEN | Gato#69506 |
Kit de purificação PCR MinElute | QIAGEN | Gato#28006 |
NEBNext DNA Sample Prep Master Mix Conjunto 2 | Biolabs da Nova Inglaterra | Cat# E6070 |
Dados Depositados | ||
10 canídeos genomas | [ 33 ] | Dados S1 |
2 canídeos genomas | [ 34 ] | Dados S1 |
3 canídeos genomas | [ 6 ] | Dados S1 |
5 canídeos genomas | [ 9 ] | Dados S1 |
1 Canídeos Genomas | [ 4 ] | Dados S1 |
4 canídeos genomas | [ 35 ] | Dados S1 |
2 canídeos genomas | [ 18 ] | Dados S1 |
1 Canid genomes | [36] | Data S1 |
5 Canid genomes | [37] | Data S1 |
1 African golden wolf | This article | NCBI SRA sample accession number: SAMN10199001 |
2 African hunting dogs | This article | NCBI SRA sample accession numbers: SAMN10180432, SAMN10180433 |
3 Coyotes | This article | NCBI SRA sample accession numbers: SAMN10180421, SAMN10180422, SAMN10180423 |
1 Dhole | This article | NCBI SRA sample accession number: SAMN10180424 |
1 Ethiopian wolf | This article | NCBI SRA sample accession number: SAMN10180425 |
2 Golden jackals | This article | NCBI SRA sample accession numbers: SAMN10180426, SAMN10180427 |
5 Gray wolves | This article | NCBI SRA sample accession numbers: SAMN10180428, SAMN10180429, SAMN10180430, SAMN10180431, SAMN10180511 |
Gray wolf reference genome | [7] | N/A |
Oligonucleotides | ||
Adaptadores compatíveis com Illumina | [ 38 ] | N / D |
Softwares e Algoritmos | ||
PALEOMIX | [ 39 ] | https://github.com/MikkelSchubert/paleomix |
; EU QUERO: SCR_015057 | ||
Remoção do Adaptador2 | [ 40 ] | https://github.com/MikkelSchubert/adapterremoval |
; EU QUERO: SCR_011834 | ||
bwa v0.7.10 | [ 41 ] | http://bio-bwa.sourceforge.net/ |
; EU QUERO: SCR_010910 | ||
Picard v1.128 | N / D | https://broadinstitute.github.io/picard |
; EU QUERO: SCR_006525 | ||
GATK v3.3.0 | [ 42 , 43 ] | https://broadinstitute.github.io/picard |
; EU QUERO: SCR_001876 | ||
ANGSD | [ 44 ] | https://github.com/ANGSD/angsd |
Samtools v1.2 | [ 41 ] | http://samtools.sourceforge.net/ |
; EU QUERO: SCR_002105 | ||
realSFS | [ 44 ] | https://github.com/ANGSD/angsd |
NGSadmix | [ 20 ] | http://www.popgen.dk/software/index.php/NgsAdmix |
; EU QUERO: SCR_003208 | ||
ASTRAL-II | [ 45 ] | https://github.com/smirarab/ASTRAL |
RAxML | [ 46 ] | https://sco.h-its.org/exelixis/software.html |
; EU QUERO: SCR_006086 | ||
trimal | [ 47 ] | http://trimal.cgenomics.org/ |
FastTree2 | [ 48 ] | http://www.microbesonline.org/fasttree/ |
; EU QUERO: SCR_015501 | ||
DiscoVista | [ 49 ] | https://github.com/esayyari/DiscoVista |
MtArquiteto | [ 10 ] | http://biologiaevolutiva.org/tmarques/mtarchitect/ |
MAFFT | [ 50 ] | https://mafft.cbrc.jp/alignment/software/ |
; EU QUERO: SCR_011811 | ||
Jalview | [ 51 ] | http://www.jalview.org/ |
; EU QUERO: SCR_006459 | ||
jmodeltest2 | [ 52 ] | https://github.com/ddarriba/jmodeltest2 |
; EU QUERO: SCR_015244 | ||
phyML | [ 53 ] | http://www.atgc-montpellier.fr/phyml/ |
; EU QUERO: SCR_014628 | ||
ADMIXTOOLS | [ 23 ] | https://github.com/DReichLab/AdmixTools |
ÁrvoreMix | [ 22 ] | https://bitbucket.org/nygcresearch/treemix/wiki/Home |
Contato para compartilhamento de reagentes e recursos
Mais informações e solicitações de recursos e reagentes devem ser direcionadas e serão atendidas pelo contato principal, Shyam Gopalakrishnan ( shyam@snm.ku.dk
).
Modelo Experimental e Detalhes do Assunto
O presente estudo utiliza dados de sequenciamento de leitura curta dos genomas completos de 47 canídeos abrangendo 8 espécies diferentes (quando o cão doméstico é considerado uma espécie diferente do lobo cinzento) da África, Eurásia e América do Norte, para abordar questões sobre as genéticas afinidades de essas espécies entre si e o papel do fluxo gênico interespecífico na formação da evolução do gênero Canis . Todas as informações conhecidas sobre o contexto e a cobertura do sequenciamento das amostras são fornecidas nos Dados S1 .
Detalhes do método
Sequenciamento do genoma completo
O DNA foi extraído de 10 amostras modernas de sangue ou tecido fresco usando o kit DNeasy Blood & Tissue (QIAGEN, Hilden, Alemanha) seguindo o protocolo do fabricante. Três amostras ('Cão de caça africano Quênia 1', 'Cão de caça africano Somália' e 'Chacal dourado Calcutá') são de peles de museus históricos e foram digeridas em um tampão contendo proteinase K após [ 54 ]; essas digestões foram posteriormente tratadas em uma etapa de fenol-clorofórmio após [ 55 ]. O sobrenadante foi então misturado 1:10 com um tampão de ligação seguindo [ 56 ] em um aparelho de ligação seguindo [ 57 ], incluindo uma coluna Minelute (QIAGEN, Hilden, Alemanha) que foi então lavada e o DNA foi eluído de acordo com as diretrizes do fabricante. Todos os extratos de fita dupla foram incorporados em bibliotecas de DNA construídas usando o NEBNext DNA Sample Prep Master Mix Set 2 (E6070 - New England Biolabs, Beverly, MA, EUA) seguindo o protocolo do fabricante e adaptadores compatíveis com Illumina [ 38 ]. As bibliotecas foram sequenciadas usando 50 pares de bases simples (chacal dourado Calcutá, cão de caça Quênia 1 e cão de caça Somália) ou 100 pares de bases emparelhadas (amostras restantes) lidas com química no Illumina HiSeq 2000 e 2500 (Illumina, San Diego, CA, EUA) plataformas.
Ler mapeamento
Os dados de leitura curta de cada amostra, incluindo amostras de publicações anteriores, foram processados usando o pipeline PALEOMIX [ 39 ]. Como primeira etapa do pipeline, bases ausentes e de baixa qualidade foram eliminadas das leituras, seguidas pela remoção dos adaptadores usando AdapterRemoval2 [ 40 ]. Além disso, todas as leituras finais emparelhadas em que as duas leituras se sobrepuseram por mais de 10 pares de bases foram mescladas em uma única leitura. Posteriormente, as leituras de cada amostra foram mapeadas para o genoma de referência do lobo [ 7 ] usando bwa (v0.7.10; algoritmo aln) [ 41 ]. As leituras mapeadas foram filtradas para PCR e duplicatas ópticas usando Picard (v1.128, https://broadinstitute.github.io/picard
) e leituras mapeadas para vários locais no genoma foram excluídas. GATK (v3.3.0) [ 42 , 43 ] foi usado para realizar uma etapa de realinhamento de indel para ajustar o aumento das taxas de erro no final de leituras curtas na presença de indels. Na ausência de um conjunto de dados com curadoria de indels em lobos, esta etapa contou com um conjunto de indels identificados na amostra específica que estava sendo processada. Após o mapeamento inicial e controle de qualidade , as coberturas das amostras variaram de 0,6 a 26,6x (para detalhes ver Dados S1 ).
Chamada de genótipo
As amostras neste estudo abrangem uma ampla gama de coberturas genômicas. Para evitar a introdução de vieses em várias análises resultantes da chamada de genótipos em amostras de baixa cobertura [ 58 ], a incerteza nos genótipos foi, em vez disso, propagada para análises a jusante usando probabilidades de genótipos. As probabilidades de genótipo em locais variantes foram calculadas em ANGSD [ 44 ] usando as leituras mapeadas, com o modelo para leituras usado por samtools (v1.2) [ 41 ]. Bases com qualidades de base inferiores a 20 e leituras com qualidade de mapeamento inferior a 20 foram descartadas. Apenas locais com dados presentes em pelo menos 46 das 48 amostras foram retidos. Todos os locais com frequências alélicas menores abaixo de 0,1 foram excluídos.
Quantificação e Análise Estatística
Heterozigosidade
A heterozigosidade para cada amostra foi calculada usando ANGSD, estimando o espectro de frequência de sítio dobrado (SFS) por amostra e usando a fração de singletons na amostra como medida de heterozigosidade. A variância da estimativa foi obtida inicializando os sites 100 vezes para obter 100 estimativas inicializadas do SFS. Resumidamente, para cada amostra, a frequência alélica do local para cada local foi estimada (“-doSaf 1 -fold 1”) usando o genoma de referência como ancestral, mantendo todos os outros parâmetros como acima. Posteriormente, o SFS e seus bootstraps correspondentes foram estimados para cada amostra usando realSFS e, para cada caso, foi calculada a fração de singletons. As heterozigosidades da amostra são mostradas na Figura S1 .
Admixture
Using the genotype likelihoods obtained from the ANGSD pipeline, the ancestry clusters and admixture proportions for 48 samples representing all species (for details see Data S1) were estimated using NGSadmix [20] based on 5.7 million SNPs. Admixture analyses were performed using only markers with minor allele frequency greater than 0.1. We used a range of values for the number of clusters (2-15), to explore the structure in the dataset. To avoid convergence to local optima, the admixture analysis was repeated at least 200 times with different random initial parameter values, and the replicate with the highest likelihood was chosen.
Nuclear genome phylogeny
Usando 28 indivíduos representando todas as espécies neste estudo (para detalhes, consulte Dados S1 do genoma nuclear ), a reconstrução filogenética baseada na coalescência de árvores genéticas foi realizada usando 100 árvores ASTRAL-II [ 45 ], e uma árvore de consenso de regra de maioria estendida foi feita com RAxML [ 46 ] usando parâmetros padrão. Cada árvore foi baseada em árvores genéticas inferidas de 5.000 regiões, cada uma com aproximadamente 10 kb de comprimento amostrada a partir de uma sequência de consenso do genoma por indivíduos gerados em ANGSD [ 44 ] usando a opção “-doFasta 1”. Regiões com dados faltantes foram excluídas usando trimal [ 47 ] sob os parâmetros “-gappyout -resoverlap 0.60 -seqoverlap 60”. Cada árvore genética foi gerada em FastTree2 [ 48 ] usando um modelo generalizado reversível no tempo para evolução de sequência. Um corte de no mínimo quatro amostras por árvore foi selecionado, antes da geração de árvores ASTRAL-II individuais. Probabilidades posteriores locais e frequências de quarteto para as três possíveis resoluções não enraizadas em torno de cada ramo interno foram calculadas usando ASTRAL [ 59 ] e visualizado usando DiscoVista [ 49 ]. Dois valores de suporte são calculados na árvore de consenso ASTRAL: i) frequência de cada ramo nas 100 réplicas e ii) médias da probabilidade posterior local nas 100 réplicas. A probabilidade posterior local é calculada como a probabilidade de que a proporção de árvores genéticas consistentes com a bipartição mostrada na filogenia completa seja superior a 0,33, sob um modelo multinomial com três resultados possíveis, cada um representando uma bipartição no ramo interior.
Como os comprimentos dos ramos na análise ASTRAL-II são em termos de unidades de tempo coalescentes, outra filogenia foi gerada para obter comprimentos de ramos proporcionais às distâncias evolutivas, a partir de 1.000 regiões de 1 kb amostradas aleatoriamente em todo o genoma usando uma análise concatenada em RaxML [ 46 ] , usando um modelo GTR-GAMMA de evolução de sequência.
Tempos divididos de espécies
Os tempos de divergência entre as diferentes espécies foram calculados usando o método dois mais dois (TT) [ 60 ], que usa um par de amostras e a distribuição de alelos derivados em todos os locais, para calcular o tempo dividido para uma população focal de um população de contraste. Especificamente, o método utiliza a contagem de locais no genoma onde as amostras se enquadram em uma das 9 configurações, ou seja, ambas as amostras carregam 0 alelos derivados, uma amostra carrega 1 alelo derivado e a outra carrega 0, e assim por diante, para obter um estimativa do tempo de qualquer amostra a partir do ancestral comum mais recente do par de amostras. O método fornece duas estimativas de tempos parciais para cada par de amostras, com uma amostra tratada como população focal e a outra como população de contraste. Uma das principais vantagens deste método é que ele não é afetado pela dinâmica do tamanho populacional das duas populações após a divisão, mas não assume nenhuma migração e tamanho populacional constante no ancestral das duas populações (antes da divisão).
A fim de reduzir o número de comparações neste modelo, escolhemos um representante de cada população para esta análise, a saber, dhole – Zoológico de Pequim, cão de caça africano – Quênia 1, chacal dourado – Síria, lobo dourado africano Noroeste – Marrocos, Lobo dourado africano Oriental – Quênia, lobo etíope – Etiópia, coiote – Califórnia, lobo cinzento europeu – Espanha, lobo cinzento asiático – Altai, lobo cinzento americano – Groenlândia e México 1, cão – Índia 1 e Catar 2. A estatística TT foi calculada para cada par de amostras, usando apenas andaimes maiores que 1 Mb (705 no total), excluindo locais com cobertura inferior a 5x em qualquer amostra. A estimativa bootstrap da estatística e sua variância foram obtidas tratando cada andaime como um único bloco [ 61 ].
Mitochondrial reconstruction using de novo assembly
Usamos o MtArchitect [ 10 ] para reconstruir de novo os genomas mitocondriais de 17 canídeos representando todas as espécies (para detalhes, ver Dados S1 ). Os genomas foram alinhados usando MAFFT [ 50 ] e curadoria com Jalview [ 51 ]. O MtArchitect foi projetado para lidar com a presença de numts, alinhando as leituras ao genoma mitocondrial e nuclear separadamente, e incluindo apenas pares de leitura (ou leituras de extremidade única), onde ambas as leituras do par mapeiam inequivocamente e com alta qualidade de mapeamento para o mitocôndrias. Testamos um total de 56 modelos filogenéticos com jmodeltest2 [ 52 ] e escolhemos HKY85 com variação distribuída gama na taxa de substituição e uma proporção fixa de locais invariáveis como o modelo mais adequado, que finalmente foi usado para construir árvore de máxima verossimilhança usando phyML [ 53 ]. Geralmente observamos uma pequena quantidade de locais indeterminados, mas os dois cães de caça africanos analisados apresentavam alinhamentos mais pobres e genomas menores. Isto é provavelmente devido aos vieses de reconstrução associados ao uso de uma referência distante e à falta de dados emparelhados para explorar o potencial máximo do MtArchitect.
A visualização do alinhamento e a inspeção das árvores das reconstruções confirmaram que o agrupamento filogenético estava em conformidade com os dados relatados anteriormente [ 4 ]. Observamos, no entanto, que o loop D foi particularmente enriquecido em locais indeterminados e alinhado notavelmente pior que a sequência restante. Dada a sua natureza potencialmente confusa e sua pequena contribuição para a reconstrução da filogenia quando o resto da sequência está bem resolvido [ 10 ], o D-loop, bem como as posições menores contendo a maioria das lacunas, foram descartadas manualmente, resultando em um alinhamento final de 15,435 pb.
Estatísticas D
Usamos estatísticas D baseadas em frequência alélica, conforme implementadas em ADMIXTOOLS [ 23 ] para avaliar o possível fluxo gênico entre as diferentes linhagens . As estatísticas D são baseadas na observação de que, se a topologia dada (((H1,H2), H3), Outgroup) estiver correta, então sob a hipótese nula de nenhum fluxo gênico entre qualquer uma das duas linhagens no ingroup (H1, H2) e a linhagem H3, o número de locais no genoma onde ocorrem os padrões de segregação ABBA e BABA deve ser igual em número, pois eles podem surgir apenas devido à classificação incompleta da linhagem. Mas a presença de fluxo gênico entre H1 e H3 levaria a um aumento no número de sítios BABA (H1 e H3 compartilham o mesmo alelo B), enquanto o fluxo gênico entre H2 e H3 levaria a um aumento no número de sítios ABBA (H2 e H3 compartilham o mesmo alelo B). A estatística D mede a disparidade entre o número de locais ABBA e BABA em todo o genoma para inferir o fluxo gênico.
Para explicar a profundidade variável de cobertura das amostras, usamos um alelo amostrado aleatoriamente por local, em vez de genótipos chamados. Leituras com qualidade de mapeamento inferior a 30, bases com qualidade inferior a 20 e locais com cobertura inferior a 3 foram descartados da análise. A significância de cada teste foi estimada usando um procedimento de bloco ponderado em blocos de 1 Mb. Desvios de D = 0 foram presumidos significativos quando o escore Z observado estava acima ou abaixo de 3,3 (|Z|>3,3). Para evitar aumentar a significância dos testes, apenas andaimes de 1 Mb ou mais (~70% do genoma) foram utilizados na análise. Os testes foram realizados com combinações de amostras como indivíduos e as amostras foram agrupadas em categorias representando os principais agrupamentos genéticos (para detalhes ver Dados S1 ).
ÁrvoreMix
TreeMix [ 22 ] foi usado para inferir possíveis bordas de mistura na filogenia. TreeMix modela a correlação de frequências alélicas em posições variáveis no genoma. As correlações que não se ajustam bem à árvore modelada são então corrigidas para usar eventos de migração. Usamos um alelo amostrado aleatoriamente para cada amostra e uma abordagem de filtragem semelhante à descrita para os D. testes estatísticos Os testes foram com combinações de amostras como indivíduos e amostras agrupadas em categorias representando os principais agrupamentos genéticos (para detalhes ver Dados S1 ). Foram mantidos locais com pelo menos um indivíduo com cobertura por grupo. O conjunto de dados final consistiu em um total de 834.537 locais de segregação. Executamos o TreeMix no conjunto de dados final assumindo de 0 a 4 arestas de migração (m = 0-4). Para cada valor de m, executamos 100 réplicas começando em diferentes valores de sementes e avaliamos a réplica com maior probabilidade. A Figura S3 B mostra a melhor réplica obtida para o gráfico modelado com quatro arestas de migração.
qpGraph
Usamos qpGraph do pacote ADMIXTOOLS [ 23 ] para avaliar as relações entre as diferentes espécies em nossas amostras. Em particular, abordámos a questão de saber se o lobo dourado africano pode ser modelado como uma espécie híbrida. qpGraph usa a correlação em todos os testes estatísticos f possíveis em um determinado gráfico de mistura para avaliar seu ajuste geral. O mesmo conjunto de dados e parâmetros de filtragem utilizados para os testes estatísticos D foram utilizados nesta análise. As amostras foram agrupadas em clusters representando as principais linhagens no gráfico de mistura conforme indicado nos Dados S1 . Primeiro, começamos com uma árvore que incluía o coiote, o lobo etíope, o lobo cinzento e a raposa andina e avaliamos o ponto de ramificação mais provável para o lobo dourado africano. Em seguida, modelamos o lobo dourado africano como um clado irmão para todos os possíveis nós internos e externos e como um grupo misto de todos os possíveis pares de nós. Finalmente, estendemos nosso modelo com um evento de mistura para explicar a mistura do lobo dourado africano com o lobo etíope ( Figura 4 ).
Disponibilidade de dados e software
O número de acesso do BioProject para as sequências de leitura curta usadas neste artigo está disponível no arquivo de leitura curta do NCBI sob o acesso PRJNA494815.
Agradecimentos
Os autores gostariam de agradecer a assistência do Centro Nacional Dinamarquês de Sequenciamento de Alto Rendimento pela assistência na geração de dados da Illumina. Também agradecemos ao Supercomputador Nacional Dinamarquês para Ciências da Vida, Computerome ( https://www.computerome.dk
), for the computational resources to perform the sequence analyses. For making sample material available, we would like to thank Jörns Fickel from Leibniz-Institut für Zoo- und Wildtierforschung and Kristian Gregersen from the Natural History Museum of Denmark. We also acknowledge the following for funding our research: the Qimmeq project funded by The Velux Foundations and Aage og Johanne Louis-Hansens Fond; Carlsbergfondet grant CF14–0995 and Marie Skłodowska-Curie Actions grant 655732-WhereWolf to S.G.; grant 676154-ArchSci2020 to J.N.; NSFC grant 91531303 to G.-D.W.; Danish National Research Foundation grant DNRF94, Lundbeckfonden grant R52–5062, and ERC Consolidator grant 681396-Extinction Genomics to M.T.P.G.; and the Universities of Oslo and Copenhagen for a PhD stipend awarded to M.-H.S.S. T.M.-B. is supported by MINECO/FEDER, UE, grant BFU2017-86471-P, NIMH grant U01 MH106874, a Howard Hughes Medical Institute International Early Career grant, Obra Social “La Caixa,” and Secretaria d’Universitats i Recerca and CERCA Programa do Departamento de Economia e Conhecimento do Governo da Catalunha.
Contribuições do autor
SG, M.-HSS, AJH e MTPG conceberam o estudo. M.-HSS e CC fizeram o trabalho de laboratório de DNA para sequenciamento de alto rendimento. SG, JR-M., JN, JASC, FGV, MdMM, LK, AS, VMG-B., Y.-HL e SM realizaram análises. CF, PG, K.-PK, JB, EKR, CS e MPH-J. contribuiu com a coleta de amostras. BP e TS-P. forneceu experiência e suporte em computação. LB, Ø.W., TM-B., AJH e MTPG supervisionaram o trabalho. SG, M.-HSS, JR-M. e MTPG escreveram o manuscrito. Todos os autores contribuíram para a preparação e edição do manuscrito final.
Declaração de Interesses
Os autores declaram não haver interesses conflitantes.
Informações Suplementares
Referências
- 1 Redescobrindo uma espécie de canídeo esquecidaBMC Zoologia , 2 ( 2017 ) , p. 6
Nenhum comentário:
Postar um comentário
Observação: somente um membro deste blog pode postar um comentário.