terça-feira, 16 de julho de 2024

 

Ancestrais neandertais-denisovanos cruzaram com um hominídeo distantemente relacionado

AVANÇOS DA CIÊNCIA
21 fev 2020
Vol 6 , Edição 8

Abstrato

Pesquisas anteriores mostraram que os eurasianos modernos cruzaram com seus predecessores neandertais e denisovanos. Mostramos aqui que centenas de milhares de anos antes, os ancestrais dos neandertais e denisovanos cruzaram com seus próprios predecessores eurasianos — membros de uma população "superarcaica" que se separou de outros humanos há cerca de 2 milhões de anos. A população superarcaica era grande, com um tamanho efetivo entre 20 e 50 mil indivíduos. Confirmamos descobertas anteriores de que (i) os denisovanos também cruzaram com superarcaicos, (ii) os neandertais e denisovanos se separaram no início do Pleistoceno médio, (iii) seus ancestrais sofreram um gargalo de tamanho populacional e (iv) a população neandertal era grande no início, mas depois diminuiu de tamanho. Fornecemos suporte qualificado para a visão de que (v) os neandertais cruzaram com os ancestrais dos humanos modernos.

INTRODUÇÃO

Durante a última década, aprendemos sobre o cruzamento entre populações de hominídeos após 50 mil anos (ka) atrás, quando os humanos modernos se expandiram para a Eurásia ( 1 – 3 ). Aqui, nos concentramos mais para trás no tempo, em eventos que ocorreram há mais de meio milhão de anos. Neste período anterior, os ancestrais dos humanos modernos se separaram daqueles dos neandertais e denisovanos. Um pouco mais tarde, os neandertais e os denisovanos se separaram uns dos outros. A paleontologia e a arqueologia deste período registram mudanças importantes, pois os hominídeos de cérebro grande aparecem na Europa e na Ásia e as ferramentas acheulianas aparecem na Europa ( 4 , 5 ). Não está claro, no entanto, como esses hominídeos de cérebro grande se relacionam com outras populações de humanos arcaicos ou modernos ( 6 – 9 ). Estudamos este período usando dados genéticos de africanos e europeus modernos e de duas populações arcaicas, os neandertais e os denisovanos.
A Figura 1 ilustra nossa notação. Letras maiúsculas referem-se a populações, e combinações como XY referem - se à população ancestral de X e Y. X representa uma população africana (os iorubás), Y é uma população europeia, N são os neandertais e D são os denisovanos. S é uma população “superarcaica” não amostrada que é distantemente relacionada a outros humanos. Letras minúsculas na parte inferior da Figura 1 rotulam “padrões de sítio de nucleotídeos”. Um sítio de nucleotídeos exibe o padrão de sítio xyn se nucleotídeos aleatórios das populações X , Y e N carregam o alelo derivado, mas aqueles amostrados de outras populações são ancestrais. As probabilidades do padrão de sítio podem ser calculadas a partir de modelos de histórico populacional, e suas frequências podem ser estimadas a partir de dados. Nosso software Legofit ( 10 ) estima parâmetros ajustando modelos a essas frequências relativas.
Fig. 1 Uma rede populacional incluindo quatro episódios de fluxo gênico, com uma genealogia genética incorporada.
Letras maiúsculas ( X , Y , N , D e S ) representam populações (África, Europa, Neandertal, Denisovano e superarchaico). Letras gregas rotulam episódios de mistura. d e xyn ilustram dois padrões de sítios de nucleotídeos, nos quais 0 e 1 representam os alelos ancestrais e derivados. Uma mutação no ramo vermelho geraria o padrão de sítio d . Uma no ramo azul geraria xyn . Para simplificar, esta figura se refere aos Neandertais com uma única letra. Em outros lugares, usamos duas letras para distinguir entre os Neandertais de Altai e Vindija.
ABRIR NO VISUALIZADOR
Os padrões de sítios de nucleotídeos contêm apenas uma parte das informações disponíveis nos dados de sequência do genoma. Essa parte, no entanto, é de particular relevância para o estudo da história populacional profunda. As frequências de padrões de sítios não são afetadas pela história populacional recente porque ignoram o componente de variação dentro da população ( 10 ). Isso reduz o número de parâmetros que devemos estimar e nos permite focar no passado distante.
Os dados atuais incluem dois genomas de Neandertal de alta cobertura: um das Montanhas Altai da Sibéria e o outro da Caverna Vindija na Croácia ( 11 ). Em vez de atribuir os dois fósseis de Neandertal a populações separadas, nosso modelo assume que eles habitaram a mesma população em épocas diferentes. Isso implica que nossas estimativas do tamanho da população de Neandertal se referirão à metapopulação de Neandertal em vez de a qualquer subpopulação individual.
Os neandertais de Altai e Vindija aparecem em rótulos de padrões de sítio como “ a ” e “ v ”. Assim, av é o padrão de sítio no qual o alelo derivado aparece apenas em nucleotídeos amostrados dos dois genomas neandertais. A Figura 2 mostra as frequências de padrões de sítio estudadas aqui. Em contraste com nossa análise anterior ( 12 ), a análise atual inclui padrões de sítio singleton, x , y , v , a e d , conforme defendido por Mafessoni e Prüfer ( 13 ). Uma tabulação mais simples, que exclui o genoma Vindija, é incluída como fig. S2.
Fig. 2 Frequências de padrões de locais observados.
O eixo horizontal mostra a frequência relativa de cada padrão de sítio em amostras aleatórias consistindo de um único genoma haploide de cada um dos X , Y , V , A e D , representando África, Europa, Neandertal de Vindija, Neandertal de Altai, Denisovano e superarchaico. As linhas horizontais (que parecem pontos) são intervalos de confiança de 95% estimados por um bootstrap de blocos móveis ( 35 ). Dados: Simons Genome Diversity Project (SGDP) ( 14 ) e Max Planck Institute for Evolutionary Anthropology ( 11 ).
ABRIR NO VISUALIZADOR
As letras gregas na Fig. 1 rotulam episódios de mistura. Rotulamos modelos concatenando letras gregas para indicar os episódios de mistura que eles incluem. Por exemplo, o modelo “αβ” inclui apenas os episódios α e β. Nosso modelo não inclui o fluxo gênico dos Denisovanos para os modernos porque há pouca evidência desse fluxo gênico para os europeus ( 14 , 15 ). Dois anos atrás, estudamos um modelo que incluía apenas um episódio de mistura: α, que se refere ao fluxo gênico dos Neandertais para os europeus ( 12 ). O painel esquerdo da Fig. 3 mostra os resíduos desse modelo, usando os novos dados. Vários estão longe de zero, sugerindo que algo está faltando no modelo ( 16 ).
Fig. 3 Resíduos dos modelos α e αβγδ.
Legenda: asteriscos vermelhos, dados reais; círculos azuis, 50 réplicas bootstrap.
ABRIR NO VISUALIZADOR
A literatura recente sugere algo do que pode estar faltando. Há evidências de mistura em Denisovanos de uma população superarcaica, que era distantemente relacionada a outros humanos ( 2 , 11 , 17 – 19 ), e também de mistura de modernos primitivos em Neandertais ( 19 ). Esses episódios de mistura aparecem como β e γ na Fig. 1. Adicionar β e/ou γ ao modelo melhorou o ajuste, mas nenhum dos modelos resultantes foi satisfatório. Por exemplo, o modelo αβγ implicava (implausivelmente) que os superarcaicos se separaram de outros hominídeos há 7 milhões de anos (Ma).
Para entender o que ainda pode estar faltando, considere o que sabemos sobre o início do Pleistoceno médio, por volta de 600 ka atrás. Nessa época, hominídeos de cérebro grande aparecem na Europa, junto com ferramentas de pedra acheulianas ( 4 , 5 ). Eles provavelmente eram imigrantes africanos, porque fósseis e ferramentas semelhantes ocorrem antes na África. De acordo com uma hipótese, esses primeiros europeus eram ancestrais neandertais ( 6 , 7 ). Um pouco antes — talvez 750 ka atrás [( 8 ), tabela S12.2] — os ancestrais “neandersovan” dos neandertais e denisovanos se separaram da linhagem que levou aos humanos modernos. Os neandersovans podem ter se separado de uma população africana e então se expandido para a Eurásia. Se assim for, então eles não estariam se expandindo para um continente vazio, pois a Eurásia era habitada desde 1,85 Ma atrás ( 20 ). Os imigrantes neandersovans podem ter conhecido a população indígena superarcaica da Eurásia. Isso sugere um quarto episódio de mistura, dos superarcaicos aos neandertais, que aparece como δ na Fig. 1 .

RESULTADOS

Consideramos oito modelos, todos os quais incluem α e incluindo todas as combinações de β, γ e/ou δ. Ao escolher entre modelos complexos, é importante evitar overfitting. Métodos convencionais como o critério de informação de Akaike ( 21 ) não estão disponíveis porque não temos acesso à função de verossimilhança completa. Em vez disso, usamos a estimativa bootstrap do erro preditivo (bepe) ( 10 , 22 , 23 ). O melhor modelo é aquele com o menor valor de bepe. Quando nenhum modelo é claramente superior, é melhor fazer a média entre vários do que escolher apenas um ( 24 ). Para esse propósito, usamos a média do modelo bootstrap (booma) ( 10 , 24 ). O peso booma do i -ésimo modelo é a fração de conjuntos de dados (incluindo os dados reais e 50 réplicas bootstrap) em que esse modelo “ganha”, ou seja, tem o menor valor de bepe. Os valores bepe e pesos booma de todos os modelos estão na Tabela 1 .
Tabela 1 valores de bepe e pesos de booma.
ABRIR NO VISUALIZADOR
O melhor modelo é αβγδ, que inclui todos os quatro episódios de mistura. Ele tem resíduos menores ( Fig. 3 , à direita), o menor valor de bepe e o maior peso de booma. Um outro modelo, αβδ, tem um peso de booma positivo, mas todos os outros têm peso zero. Para entender o que isso significa, lembre-se de que o bootstrap replica amostragem repetida aproximada do processo que gerou os dados. Os modelos com peso zero perdem em todas as réplicas, o que implica que sua desvantagem é grande em comparação com a variação na amostragem repetida. Com base nisso, podemos rejeitar esses modelos. Nenhum dos dois modelos restantes pode ser rejeitado. Esses resultados fornecem forte suporte para dois episódios de mistura (β e δ) e suporte qualificado para um terceiro (γ). Isso não apenas dá suporte a episódios de fluxo gênico relatados anteriormente, mas também revela um episódio muito mais antigo, no qual os neandersovans cruzaram com superarcaicos. As estimativas dos parâmetros com média do modelo, que usam os pesos da Tabela 1 , são representadas graficamente na Fig. 4 e listadas na tabela S1.
Fig. 4 Estimativas de parâmetros com média do modelo com intervalos de confiança de 95% estimados por blocos móveis bootstrap ( 35 ).
Legenda: α , fração de Y introgressada de N ; β , fração de D introgressada de S ; γ , fração de N introgressada de XY ; δ , fração de ND introgressada de S ; XYNDS , tempo de separação superarcaica; XY , tempo de separação de X e Y ; ND , tempo de separação de N e D ; 0 , fim da época inicial da história do Neandertal; A , idade do fóssil do Neandertal de Altai; V , idade do fóssil do Neandertal de Vindija; TD , idade do fóssil de Denisova; N S , tamanho da população superarcaica; XYND , tamanho das populações XYND e XYNDS ; XY , tamanho da população XY ; ND , tamanho da população ND ; 0 , tamanho da população inicial do Neandertal; 1 , tamanho da população Neanderthal tardia. Parâmetros que existem em apenas um modelo não são calculados como média.
ABRIR NO VISUALIZADOR
O episódio δ, que propõe o fluxo gênico de superarcaicos para neandersovans, é uma hipótese nova. Antes de aceitá-la, devemos perguntar se a evidência a seu favor poderia ser artefatual, refletindo um viés nas frequências de padrões de sítios causados ​​por erro de sequenciamento ou mutações somáticas. O erro de sequenciamento adiciona um viés positivo à frequência de cada padrão de sítio singleton proporcional à taxa de erro por nucleotídeo na população correspondente (veja os Materiais Suplementares). Mutações somáticas têm um efeito semelhante. Esses vieses podem explicar a evidência para o episódio δ, se fosse verdade que valores maiores de δ (a fração de mistura superarcaica em neandersovans) implicam frequências maiores de padrões de sítios singleton. No entanto, a Tabela 2 mostra que esse não é o caso. Não há tendência consistente para que as frequências singleton aumentem com δ . De fato, três delas diminuem. Consequentemente, a evidência de que δ > 0 não pode ser o resultado de um viés positivo nas frequências de padrões de sítios singleton. A evidência da mistura δ não pode ser um artefato de erro de sequenciamento ou mutações somáticas.
Tabela 2 Efeito nas frequências de padrões de sítios únicos do fluxo gênico ( δ ) de superarcaicos para neandertais.
A coluna 2 mostra frequências esperadas de padrões de sítio singleton em um modelo no qual δ = 0, e todos os outros parâmetros são ajustados sob o modelo αβγδ. Na coluna 3, todos os parâmetros incluindo δ são ajustados sob este modelo. A coluna 4 é obtida subtraindo a coluna 2 da coluna 3. As frequências esperadas de padrões de sítio foram estimadas usando legosim com 10 7 iterações.
ABRIR NO VISUALIZADOR
O tempo de separação superarcaica, XYNDS , tem uma estimativa pontual de 2,3 Ma atrás. Essa estimativa pode ser enviesada para cima porque nosso relógio molecular assume uma taxa de mutação bastante baixa de 0,38 × 10 −9 por sítio de nucleotídeo por ano. Outros autores preferem taxas ligeiramente mais altas ( 25 ). Embora essa taxa seja aparentemente insensível ao tempo de geração entre os grandes macacos, ela é sensível à idade da puberdade masculina. Se a idade média da puberdade durante os últimos 2 Ma estivesse na metade do caminho entre as dos humanos modernos e dos chimpanzés, a taxa de mutação anual seria próxima a 0,45 × 10 −9 [( 26 ), Fig. 2B ], e nossa estimativa de XYNDS cairia para 1,9 Ma, exatamente na origem do gênero Homo . Sob esse relógio, o intervalo de confiança de 95% é de 1,8 a 2,2 Ma.
Se os superarcaicos se separaram de uma população africana, então essa separação deve ter precedido a chegada dos superarcaicos na Eurásia. No entanto, nosso intervalo de 1,8 a 2,2 Ma inclui a data de 1,85 Ma dos primeiros vestígios arqueológicos eurasianos em Dmanisi ( 20 ). Assim, os superarcaicos podem descender da dispersão humana mais antiga na Eurásia, conforme representada pelos fósseis de Dmanisi. Por outro lado, alguns autores preferem uma taxa de mutação mais alta de 0,5 × 10 −9 por ano ( 2 ). Sob esse relógio, a extremidade inferior do nosso intervalo de confiança seria 1,6 Ma atrás. Assim, nossos resultados também são consistentes com a visão de que os superarcaicos entraram na Eurásia após os primeiros vestígios em Dmanisi.
O parâmetro S é o tamanho efetivo da população superarchaica. Este parâmetro pode ser estimado porque há duas fontes de DNA superarchaica em nossa amostra (β e δ), e isso implica que o tempo de coalescência dentro da população superarchaica afeta as frequências do padrão do local. Embora este parâmetro tenha um amplo intervalo de confiança, mesmo a extremidade inferior implica uma população razoavelmente grande de cerca de 20.000. Isso não requer um grande número de humanos superarchaicos, porque o tamanho efetivo pode ser inflado pela estrutura geográfica da população ( 27 ). Nossa grande estimativa pode significar que os neandersovans e os denisovanos receberam fluxo gênico de duas populações superarchaicas diferentes.
O parâmetro ND é o tempo de separação dos neandertais e dos denisovanos. Nossa estimativa pontual, 737 ka atrás, é notavelmente antiga. Além disso, a população neandersovan que precedeu essa divisão era notavelmente pequena: ND ≈ 500. Isso corrobora nossos resultados anteriores, que indicaram uma separação precoce dos neandertais e dos denisovanos e um gargalo entre seus ancestrais ( 12 ).
Como nossa análise inclui dois genomas neandertais, podemos estimar o tamanho efetivo da população neandertal em duas épocas separadas. A época inicial se estende de 0 = 455 ka a ND = 737 ka, e dentro desta época, o tamanho efetivo era grande: 0 ≈ 16.000. Era menor durante a época posterior: 1 ≈ 3.400. Esses resultados apoiam descobertas anteriores de que a população neandertal era grande no início, mas depois diminuiu em tamanho ( 2 , 11 ).

DISCUSSÃO

Este projeto começou com um quebra-cabeça. Argumentamos em 2017 que os neandertais e os denisovanos se separaram cedo, que seus ancestrais neandersovans sofreram um gargalo de tamanho populacional e que a população neandertal pós-separação era grande ( 12 ). Essa análise omitiu padrões de sítios singleton. Mafessoni e Prüfer ( 13 ) apontaram que a introdução de singletons levou a resultados diferentes. Em resposta, Rogers et al. ( 16 ) concordaram, mas também observaram que a análise com singleton implicava que o fóssil denisovano tinha apenas 4.000 anos — um resultado que está claramente errado. Além disso, uma análise residual mostrou que nenhum dos modelos em discussão em 2017 se ajustava muito bem aos dados ( 16 ). Aparentemente, algo estava faltando em ambos os modelos — mas o quê? O presente artigo fornece uma resposta a essa pergunta.
Nossos resultados lançam luz sobre a porção inicial do Pleistoceno médio, cerca de 600 ka atrás, quando hominídeos de cérebro grande aparecem no registro fóssil da Europa junto com ferramentas de pedra acheulianas. Há desacordo sobre como esses primeiros europeus devem ser interpretados. Alguns os veem como os ancestrais comuns dos humanos modernos e dos neandertais ( 28 ), outros como um beco sem saída evolucionário, mais tarde substituídos por imigrantes da África ( 29 , 30 ), e outros como os primeiros representantes da linhagem neandertal ( 6 , 7 ). Nossas estimativas são mais consistentes com a última dessas visões. Elas implicam que, há 600 ka atrás, os neandertais já eram uma linhagem distinta, separada não apenas da linhagem moderna, mas também dos denisovanos.
Esses resultados resolvem uma discrepância envolvendo fósseis humanos de Sima de los Huesos (SH). Esses fósseis foram datados de pelo menos 350 ka atrás e talvez 400 a 500 ka atrás ( 31 ). Evidências genéticas mostraram que eles eram de uma população ancestral dos neandertais e, portanto, mais recentes do que a separação dos neandertais e dos denisovanos ( 9 ). No entanto, evidências genéticas também indicaram que essa divisão ocorreu há cerca de 381 ka atrás [( 2 ), tabela S12.2]. Isso foi difícil de conciliar com a idade estimada dos fósseis de SH. Para piorar a situação, métodos de datação aprimorados mostraram posteriormente que os fósseis de SH são ainda mais antigos, cerca de 600 ka, e muito mais antigos do que a data molecular da divisão neandertal-denisovan ( 32 ). Nossas estimativas resolvem esse conflito porque empurram a data da divisão para bem além da idade dos fósseis de SH.
Nossa estimativa do tempo de separação Neanderthal-Denisovano entra em conflito com a estimativa de 381 ka atrás discutida acima ( 2 , 13 ). Essa discrepância resulta, em parte, de diferentes calibrações do relógio molecular. Sob nosso relógio, a data de 381 ka se torna 502 ka ( 12 ), mas isso ainda está longe de nossa própria estimativa de 737 ka. A discrepância restante pode refletir diferenças em nossos modelos de história. Modelos mal especificados frequentemente geram estimativas de parâmetros tendenciosas.
Nossos novos resultados sobre o tamanho da população neandertal diferem daqueles que publicamos em 2017 ( 12 ). Naquela época, argumentamos que a população neandertal era substancialmente maior do que outros haviam estimado. Nossas novas estimativas estão mais alinhadas com aquelas publicadas por outros ( 2 , 11 ). A diferença não resulta de nosso novo e mais elaborado modelo porque obtemos resultados semelhantes do modelo α, que (como em nosso modelo de 2017) permite apenas um episódio de fluxo gênico (tabela S2). Em vez disso, foi incluir o genoma neandertal de Vindija que fez a diferença. Sem esse genoma, ainda obtemos uma grande estimativa ( N 1 ≈ 11.000), mesmo usando o modelo αβγδ (tabela S3). Isso implica que os neandertais que contribuíram com DNA para os europeus modernos eram mais semelhantes ao neandertal de Vindija do que ao neandertal de Altai, como outros também mostraram ( 11 ).
Nossos resultados revisam a data em que os superarcaicos se separaram de outros humanos. Uma estimativa anterior colocou essa data entre 0,9 e 1,4 Ma [( 2 ), p. 47], o que implicava que os superarcaicos chegaram bem depois da dispersão humana inicial na Eurásia, por volta de 1,9 Ma. Isso exigiu uma série complexa de movimentos populacionais entre a África e a Eurásia [( 33 ), pp. 66 a 71]. Nossas novas estimativas não refutam essa reconstrução, mas permitem uma mais simples, que envolve apenas três expansões de humanos da África para a Eurásia: uma expansão do Homo primitivo há cerca de 1,9 Ma, uma expansão dos neandertais há cerca de 700 ka e uma expansão dos humanos modernos há cerca de 50 ka.
Nossos resultados indicam que os neandersovans cruzaram com os superarcaicos no início do Pleistoceno médio, logo após se expandirem para a Eurásia. Esta é a primeira mistura conhecida entre populações de hominídeos. Além disso, as duas populações envolvidas eram mais distantemente relacionadas do que qualquer par de populações humanas conhecidas anteriormente por cruzarem. De acordo com nossas estimativas, os neandersovans e os superarcaicos estavam separados há cerca de 1,2 Ma. Mais tarde, quando os superarcaicos trocaram genes com os denisovanos, as duas populações ficaram separadas por ainda mais tempo. Em comparação, os neandertais e os denisovanos que cruzaram com humanos modernos ficaram separados há menos de 0,7 Ma.
Parece provável que os superarchaicos descendam do assentamento humano inicial da Eurásia. Como discutido acima, o grande tamanho efetivo da população superarchaica sugere que ela compreendia pelo menos duas subpopulações profundamente divididas, das quais uma se misturou com neandersovans e outra com denisovanos. Sugerimos que por volta de 700 ka atrás, os neandersovans se expandiram da África para a Eurásia, suportaram um gargalo de tamanho populacional, cruzaram com eurasianos indígenas, os substituíram em grande parte e se separaram em subpopulações orientais e ocidentais — denisovanos e neandertais. Esses mesmos eventos se desenrolaram mais uma vez por volta de 50 ka atrás, quando os humanos modernos se expandiram da África para a Eurásia, substituindo em grande parte os neandertais e denisovanos.

MATERIAIS E MÉTODOS

Design de estudo

Nossa amostra de genomas modernos inclui europeus, mas não outros eurasianos. Isso nos permitiu evitar a modelagem do fluxo gênico de denisovanos porque não há evidências desse fluxo gênico para europeus. A precisão de nossas estimativas depende em grande parte do número de nucleotídeos estudados. Por esse motivo, usamos genomas inteiros de alta cobertura. O número de genomas amostrados por população tem pouco efeito em nossas análises, devido ao nosso foco no componente entre populações da variação genética, ou seja, nas frequências de padrões de sítio. No entanto, nossa amostra de genomas modernos para o iorubá, francês e inglês inclui todos aqueles disponíveis no Simons Genome Diversity Project (SGDP) ( 14 ), conforme detalhado nos Materiais Suplementares. Também incluímos todos os genomas arcaicos de alta cobertura disponíveis ( 11 ). Esses dados fornecem estimativas extremamente precisas das frequências de padrões de sítio, conforme indicado pelos pequenos intervalos de confiança na Fig. 2 . Os grandes intervalos de confiança para alguns parâmetros na Fig. 4 refletem problemas de identificabilidade (discutidos abaixo) e não seriam aliviados por um aumento no tamanho da amostra.

Controle de qualidade

Nosso pipeline de controle de qualidade (QC) para os genomas SGDP exclui genótipos nos quais um valor FL é igual a 0 ou N. Também excluímos cromossomos sexuais, normalizamos todas as variantes em um determinado sítio de nucleotídeo usando o genoma de referência humano, excluímos sítios dentro de sete bases da inserção-deleção mais próxima e incluímos sítios somente se fossem monomórficos ou fossem polimorfismos de nucleotídeo único bialélicos. Mais detalhes são fornecidos nos Materiais Suplementares. Todos os genomas antigos também foram filtrados em relação aos arquivos .bed, que identificam bases que passam pelos filtros QC do Max Planck. Esses arquivos .bed estão disponíveis em http://ftp.eva.mpg.de/neandertal/Vindija/FilterBed .

Calibração do relógio molecular

Assumimos uma taxa de mutação de 1,1 × 10 −8 por sítio por geração ( 34 ) e um tempo de geração de 29 anos — uma taxa anual de 0,38 × 10 −9 . Para calibrar o relógio molecular, assumimos que as linhagens modernas e neandersovan se separaram XYND = 25.920 gerações antes do presente ( 12 ). Isso se baseia em uma média de várias estimativas publicadas por Prüfer et al. [( 2 ), tabela S12.2]. A média de suas estimativas é 570,25 ka, assumindo uma taxa de mutação de 0,5 × 10 −9 /par de bases/ano. Sob nosso relógio, seu tempo de separação se torna 751,69 ka ou 25.920 gerações.

Análise estatística

Devido ao nosso foco na história profunda, baseamos análises estatísticas em frequências de padrões de sítios, usando o pacote estatístico Legofit ( 10 ). Este método ignora o componente intrapopulacional da variação genética e, portanto, não é afetado por mudanças recentes no tamanho da população. Por exemplo, os tamanhos das populações X , Y e D ( Fig. 1 ) não têm efeito, então não precisamos complicar nosso modelo com parâmetros que descrevem os históricos de tamanho dessas populações. Isso nos permite focar no passado distante.
No entanto, nossos modelos são bastante complexos. Por exemplo, o modelo αβγδ tem 17 parâmetros livres. Para escolher entre modelos dessa complexidade, precisamos de métodos de análise residual, seleção de modelos e média de modelos. Legofit fornece esses métodos, mas métodos alternativos geralmente não. Esses métodos são descritos em detalhes em outro lugar ( 10 ), então os resumimos apenas brevemente aqui.
Escolhemos entre modelos minimizando o bepe ( 22 , 23 ). Essa abordagem foi necessária porque não podíamos usar métodos, como o critério de informação de Akaike ( 21 ), que dependem da probabilidade. Bepe é análogo à validação cruzada, mas usa réplicas bootstrap em vez de partições dos dados. O modelo é ajustado a cada réplica bootstrap e então testado contra os dados reais, após aplicar uma correção para o viés bootstrap. Bepe estima a diferença quadrática média entre as frequências de padrões de local observadas e previstas, quando o modelo é ajustado a um conjunto de dados e testado contra outro.
Também usamos o booma ( 24 ), que atribui pesos a modelos individuais, com base em seus valores de bepe. Os parâmetros são estimados como a média ponderada das estimativas de modelos individuais. O peso booma do i -ésimo modelo é a fração de réplicas (incluindo os dados reais e 50 réplicas bootstrap) em que esse modelo vence, ou seja, tem o menor valor de bepe. Como as réplicas bootstrap aproximam a amostragem repetida do processo que gerou os dados, um modelo receberá peso zero se sua desvantagem (medida pelo bepe) for grande em comparação com a variação na amostragem repetida.
A Figura S3 ilustra um problema de identificabilidade estatística. Vários parâmetros são fortemente correlacionados com outros, indicando que nosso problema tem menos dimensões do que parâmetros. Isso não leva a estimativas incorretas, mas amplia os intervalos de confiança dos parâmetros envolvidos. O Legofit aborda esse problema usando análise de componentes principais para remover dimensões que respondem por menos de uma fração 0,001 da variância total. Isso estreita os intervalos de confiança e aumenta a precisão das estimativas de parâmetros.
As incertezas são estimadas por bootstrap de blocos móveis ( 35 ), usando um tamanho de bloco de 500 polimorfismos de nucleotídeo único. Nosso pipeline estatístico é detalhado nos Materiais Suplementares.

Agradecimentos

Agradecemos a R. Bohlender, E. Cashdan, F. Mafessoni, N. Rogers, J. Seger e T. Webster pelos comentários. Este projeto foi declarado isento (IRB_00093972) de revisão pelo Institutional Review Board da University of Utah em 13 de julho de 2016. Financiamento: Este trabalho foi apoiado por NSF BCS 1638840 (ARR), NSF GRF 1747505 (AAA) e pelo Center for High Performance Computing da University of Utah (ARR). Contribuições dos autores: ARR projetou o estudo, fez as análises estatísticas e escreveu o artigo. NSH e AAA desenvolveram e usaram o pipeline de QC. Interesses conflitantes: Os autores declaram que não têm interesses conflitantes. Disponibilidade de dados e materiais: Todos os dados necessários para avaliar as conclusões do artigo estão presentes no artigo, nos Materiais Suplementares ou em osf.io/vrwna. O software Legofit está disponível em https://github.com/alanrogers/legofit . Dados adicionais relacionados a este artigo podem ser solicitados aos autores.

Nenhum comentário:

Postar um comentário

Observação: somente um membro deste blog pode postar um comentário.