Principal

Os modelos para a expressão da complexidade do comportamento humano durante o Pleistoceno Superior (cerca de 125 a 12 mil anos atrás) frequentemente invocam mudanças demográficas. 1 , 2 Por volta de 50 mil anos atrás, inovações tecnológicas e comportamentos simbólicos (como ornamentos, ferramentas de osso, pigmentos e microlitos) que já estavam presentes no início da Idade da Pedra Média (MSA) passam a se expressar de forma mais consistente em toda a África subsaariana. 4 , 6 , 7 Os arqueólogos se referem a isso como a transição para a Idade da Pedra Posterior (LSA). 1 , 7 , 8 , 9 Por volta de 20 mil anos atrás, esses componentes da cultura material eram quase onipresentes, mas regionalmente diversos. Uma explicação é que as pessoas começaram a viver em grupos maiores e/ou mais conectados, com variações no tamanho da população e na conectividade impulsionando diferenças na cultura material ao longo do espaço e do tempo. Dada a variação morfológica entre os esqueletos do Pleistoceno Superior, as interações podem ter envolvido populações profundamente estruturadas. 2 , 10 , consistente com alguns modelos de história populacional baseados na genética 3 .

O advento da tecnologia de DNA antigo (aDNA) em todo o genoma promete uma melhor compreensão das principais mudanças na cultura material e das hipotéticas alterações demográficas entre os antigos povos caçadores-coletores africanos (Notas Suplementares 1 , 2 ). Em comparação com outras regiões, especialmente a Europa, houve pouca investigação genômica dos povos africanos antigos. Sequências de aDNA previamente disponíveis de contextos de caça e coleta na África subsaariana 11 , 12 , 13 , 14 Apesar de serem relativamente recentes (menos de cerca de 9 mil anos atrás), esses dados fornecem evidências de uma estrutura genética antiga que foi posteriormente alterada por transformações demográficas (como a expansão da produção de alimentos, bem como o colonialismo, o imperialismo, a escravidão e a reorganização sociopolítica moderna). A estrutura de populações antigas não pode ser reconstruída de forma robusta com base apenas em dados genéticos de pessoas da atualidade.

Apresentamos aqui novos dados de DNA antigo (aDNA) em todo o genoma e datações por radiocarbono de três indivíduos do Pleistoceno Superior e três do Holoceno inicial a médio, associados a tecnologias da Idade da Pedra Baixa (LSA) em cinco sítios no leste e centro-sul da África: os abrigos rochosos de Kisese II e Mlambalasi, na Tanzânia; os abrigos rochosos de Fingira e Hora 1, no Malawi; e o abrigo rochoso de Kalemba, na Zâmbia (Fig. 1a e Tabela de Dados Estendidos 1 ). As datações diretas e indiretas variam de cerca de 18 mil anos a 5 mil anos, dobrando a profundidade temporal do aDNA relatada na África subsaariana. Analisamos esses dados juntamente com as sequências publicadas de outros 28 indivíduos africanos antigos, recuperados de contextos que abrangem os últimos 8.000 anos e em grande parte associados à coleta de alimentos em 17 sítios no leste, centro e sul da África. Também fornecemos dados com maior cobertura para 15 desses indivíduos. A análise de dados antigos, juntamente com sequências de grupos atuais, auxiliada por novos métodos estatísticos, permite a reconstrução de mudanças nas estruturas populacionais em escala regional e continental entre pessoas que viveram antes das grandes transformações demográficas dos últimos 5.000 anos, aproximadamente. Também possibilita comparações da dinâmica populacional de caçadores-coletores do Pleistoceno entre os trópicos e regiões mais temperadas.

Figura 1: Localização dos indivíduos analisados ​​e análise de PCA.
figura 1

a , Localização dos indivíduos analisados ​​neste estudo. As formas e cores dos símbolos correspondem à ACP em b . 1, Shum Laka; 2, Caverna Mota; 3, Abrigo Rochoso Kakapel; 4, Abrigo Rochoso Nyarindi; 5, Abrigo Rochoso Jawuoyo; 6, White Rock Point; 7, Panga ya Saidi; 8, Caverna Makangale; 9, Caverna Kuumbi; 10, Caverna Gishimangeda; 11, Abrigo Rochoso Kisese II; 12, Abrigo Rochoso Mlambalasi; 13, Fingira; 14, Hora 1; 15, Chencherere II; 16, Abrigo Rochoso Kalemba; 17, Baía de Ballito; 18, Abrigo Rochoso Faraoskop; 19, Santa Helena. b , Resultados da ACP. Os eixos foram calculados usando grupos atuais do leste (pastores Dinka), sul (caçadores-coletores Juǀ'hoansi) e centro da África (caçadores-coletores Mbuti). Os pequenos círculos representam indivíduos atuais; outros símbolos representam indivíduos antigos (pontos maiores correspondem a indivíduos mais antigos e contornos pretos a indivíduos recentemente relatados). O indivíduo com menor cobertura (de Mlambalasi), mostrado com um asterisco, tem a posição mais incerta. O mapa base em a é do Natural Earth ( https://www.naturalearthdata.com ). L., leste.

The dataset

Das 31 amostras (Tabela Suplementar 1 ), cinco ossos petrosos e uma falange distal forneceram sequências de DNA antigo (aDNA) que, após a preparação de até seis bibliotecas a partir de cada amostra e enriquecimento para um painel de cerca de 1,2 milhão de polimorfismos de nucleotídeo único (SNPs), apresentaram cobertura variando de 0,001 a 3,2× (mediana de 0,06×) das posições de SNPs alvo em todo o genoma (Tabela de Dados Estendidos 1 e Tabela Suplementar 2 ). Informações arqueológicas e bioarqueológicas adicionais sobre esses indivíduos estão resumidas na Nota Suplementar 3 . 14 Tentativas de datação por carbono-14 foram feitas para os cinco ossos petrosos, mas apenas dois preservaram colágeno suficiente: Kalemba (I10726; 5.280–4.880 anos calibrados antes do presente (cal. a.p. ), PSUAMS-4764) e Kisese II (I18821; 7.240–6.985 cal. a.p. , PSUAMS-4718) (Tabela Suplementar 3 e Nota Suplementar 4 ). Além disso, uma nova datação foi gerada a partir do carbonato do esmalte para um indivíduo já publicado de Hora 1 (I2966; anteriormente estimado em torno de 8.100 a.p. , agora datado diretamente entre 9.090–8.770 cal. a.p. , PSUAMS-5145). Os indivíduos de Mlambalasi (I13976; cerca de 20–17 ka) e Hora 1 (I19528, I19529; 17–14 ka) são bem datados do Pleistoceno Superior com base em múltiplas datações indiretas (Tabela Suplementar 4 e Nota Suplementar 3 ). Um indivíduo de Fingira (I11019) é representado por uma falange distal que foi recuperada isoladamente perto da superfície durante a escavação. Esta amostra era muito pequena para ser datada e avaliada quanto ao DNA antigo; sua idade é estimada em torno de 6.200–2.300 anos cal. bp por associação com datações diretas de outros restos humanos do sítio. Os 15 indivíduos previamente publicados 11 , 13 , 15 , 16 (Nota Suplementar 3 ) para a qual aumentamos a cobertura da sequência, incluindo aproximadamente 26× de cobertura shotgun para o indivíduo da Caverna Mota, na Etiópia. 15 (I5950), permitindo a identificação confiável de genótipos diploides (Tabela de Dados Estendidos 1 , Métodos e Tabela Suplementar 2 ). A autenticidade dos novos dados de DNA antigo foi avaliada por meio de uma combinação de vários critérios; contaminação detectável foi observada em apenas duas amostras ( Métodos , Figura de Dados Estendidos 1a , Tabela Suplementar 2 e Nota Suplementar 5 ). Na Tabela Suplementar 5 e na Nota Suplementar 5 , relatamos genótipos em SNPs associados à persistência da lactase, ao traço falciforme e ao antígeno Duffy, com alelos derivados observados apenas no lócus DARC (Duffy) (quatro indivíduos publicados de Camarões).

Marcadores uniparentais

Todos os quatro indivíduos do sexo masculino recém-descritos são semelhantes à maioria dos antigos caçadores-coletores já publicados desta região da África, por possuírem o haplogrupo B2 do cromossomo Y, amplamente distribuído (Tabela de Dados Expandidos 1 ). Entre os 23 indivíduos em nosso conjunto de dados com haplogrupos de mtDNA conhecidos, até 14 — quase todos do Quênia e da Tanzânia — possuem haplogrupos que hoje são associados à África Oriental (Tabela de Dados Expandidos 1 e Tabela Suplementar 6 ). Oito indivíduos — todos do Malawi e da Zâmbia — possuem haplogrupos associados a alguns povos antigos e atuais da África Austral, especificamente grupos para os quais a coleta é o principal modo de subsistência. 17 , 18 , 19 , 20 Dois indivíduos do Malawi (I19529 de Hora 1, datado de cerca de 16 mil anos atrás e portador do haplogrupo L5b, e I4426 de Fingira, datado de cerca de 2,3 mil anos atrás e portador dos haplogrupos L0f/L0f3) possuem haplogrupos associados à África Oriental, enquanto um indivíduo diferente do Malawi (I2967 de Hora 1, datado de cerca de 8,2 mil anos atrás com L0a2/L0a2b) e possivelmente um do Quênia (I8930 de White Rock Point com L2a4) pertencem a linhagens características de grupos de caçadores-coletores da África Central contemporânea (como os Mbuti e Aka). Esses resultados demonstram que a África Oriental e Centro-Sul abrigava diversos grupos de caçadores-coletores ancestrais e era uma área de interação entre eles, e também que várias dessas linhagens de haplogrupos eram anteriormente mais disseminadas do que são hoje.

Cline triplo de ancestralidade genômica

Para a maior parte de nossas análises, utilizamos os dados de genótipo de todo o genoma para obter informações sobre a ancestralidade dos antigos indivíduos caçadores-coletores e suas conexões com outros grupos. Realizamos uma análise de componentes principais (PCA) supervisionada ( Métodos ) na qual utilizamos três grupos atuais — Juǀ'hoansi (San) do sul da África, Mbuti da África Central e Dinka do nordeste da África — para definir um plano bidimensional de variação e projetamos todos os outros indivíduos (antigos e atuais) nesse plano (Fig. 1b ). Consistente com estudos anteriores. 5 , 11 , 13 , 14 Observamos um antigo gradiente latitudinal de ancestralidade, representado em seu extremo norte por um indivíduo de cerca de 4,5 mil anos da Caverna Mota, na Etiópia, e em seu extremo sul por indivíduos de cerca de 2 mil anos da África do Sul. 

Os indivíduos recém-descritos geralmente se agrupam com seus vizinhos geográficos, mas ampliam a documentação do gradiente tanto geograficamente (sudoeste até Kalemba, no extremo correspondente na PCA) quanto temporalmente (até um máximo de aproximadamente 18-16 mil anos, sem subgrupos temporais aparentes). Além disso, encontramos complexidade no gradiente na forma de desvios de uma linha reta: (1) a principal direção de variação não se alinha com os antigos caçadores-coletores da África Austral; e (2) vários indivíduos parecem se deslocar na direção dos caçadores-coletores da África Central, tanto atuais quanto antigos. Ambas as observações podem indicar que alguns dos antigos indivíduos da África Oriental e Centro-Sul amostrados aqui traçam parte de sua ancestralidade a grupos relacionados aos caçadores-coletores que vivem atualmente na África Central. Além disso, (1) poderia indicar que a ancestralidade relacionada ao sul da África entre os indivíduos antigos está apenas distantemente relacionada aos Juǀ'hoansi atuais e aos antigos caçadores-coletores do sul da África.

Utilizamos testes de compartilhamento de alelos ( f estatísticas ) ( Métodos ) para investigar mais a fundo quais indivíduos diferiam em seu grau de parentesco com os antigos caçadores-coletores sul-africanos (AncSA) (Tabela de Dados Estendidos 1 ), o indivíduo de Mota ou o Mbuti atual. De acordo com a PCA, a maioria dos pares de indivíduos da mesma região (incluindo de diferentes períodos de tempo) apresentava ancestralidade quase simétrica (| Z | < 3) (Tabela Suplementar 7 ). As exceções foram: (1) afinidade excessiva entre Mbuti e KPL001 (Kakapel; Z máximo máximo = 5,1); (2) afinidade excessiva entre AncSA e I0589 (Caverna Kuumbi; Z máximo = 4,1); e (3) diferenças modestas dentro do Malawi e da Zâmbia ( Z = 3,8). Em contraste, as estatísticas inter-regionais com alta potência estatística foram significativamente diferentes de zero, por exemplo, f 4 (I8808 (Jawuoyo), I8821 (Kisese II); Mota, AncSA) > 0, Z = 7,8. Também utilizamos o programa qpWave do ADMIXTOOLS para combinar múltiplos sinais baseados na estatística f em um teste para o número de componentes distintos de ancestralidade (em relação a um conjunto de grupos externos especificado) presentes entre os indivíduos caçadores-coletores antigos (amostrados). Métodos ). Descobrimos que são necessárias pelo menos três fontes ( P = 6,4 × 10 −14 para rejeitar um modelo de duas fontes), mas, curiosamente (com o poder estatístico disponível), três fontes também são suficientes ( P = 0,73; quatro versus três fontes P = 0,15), mesmo com Mota, San (aqui, tanto Juǀ'hoansi quanto ǂKhomani) e Mbuti entre os grupos externos. Quando adicionamos o indivíduo Mota ao conjunto de teste, encontramos evidências adicionais para uma quarta fonte, apesar dos grupos externos menos rigorosos ( P = 0,07; quatro versus três fontes P = 0,019) ( Métodos ). Esse resultado pode refletir um componente ancestral altamente divergente que contribui para o indivíduo Mota, inferido em trabalhos anteriores. 16 ; linhagens adicionais também podem ter estado presentes entre indivíduos antigos ainda não amostrados dessas regiões.

We attempted to estimate the dates of admixture (potentially involving any distinct sources of ancestry) for the ancient foragers using DATES21. With the caveat that our power is limited by data availability, we obtained only two robust estimates (Supplementary Table 8), both for previously published individuals, and both (given the additional results below) are probably connected to admixture from food producers: for I4421 (Chencherere II, no direct age, past approximately 5,000 years), a date of 10 ± 2 generations before the individual lived; and for I1048 (Makangale Cave, direct age, past approximately 1,500 years), 79 ± 24 generations before the individual lived.

Inter- and intraregional relationships

Em seguida, modelamos a ancestralidade dos antigos caçadores-coletores em um modelo de grafo de mistura genética para testar hipóteses adicionais sobre seus relacionamentos, auxiliados por uma nova metodologia para aumentar as informações disponíveis a partir de dados de baixa cobertura (Figs. 2 e 3 , Métodos , Notas Suplementares 6 e 7 e Figuras de Dados Estendidos 2–5 ). No modelo 1, juntamente com outras populações, incluímos três indivíduos antigos do leste e centro-sul da África , geograficamente e geneticamente diversos , com alta cobertura de sequenciamento: I4426 (Fingira, cerca de 2,5 mil anos atrás), I8821 (Kisese II) e I8808 (Jawuoyo). Com base nos resultados da seção anterior, formulamos a hipótese de que eles poderiam ser ajustados com misturas de três componentes ancestrais: um relacionado ao indivíduo Mota (representando um antigo grupo de caçadores-coletores da parte norte da África Oriental), um relacionado a caçadores-coletores da África Central (representado pelos atuais Mbuti) e um relacionado a caçadores-coletores da África Austral (representado por quatro indivíduos ancestrais da África do Sul). De fato, obtivemos um bom ajuste aos dados no modelo 1 (resíduo máximo). Z = 2,0), mesmo especificando fontes idênticas para todos os três indivíduos, e as proporções relativas de ancestralidade foram as esperadas: a ancestralidade relacionada a Mota diminuiu de norte a sul, e Jawuoyo (I8808) apresentou a maior proporção de ancestralidade relacionada à África Central em relação à ancestralidade relacionada à África Austral. A omissão de qualquer um dos três componentes para qualquer um dos indivíduos resulta em um ajuste ruim ( Z ≥ 4,0) (Nota Suplementar 6 ). Como na ref. 16 Além disso, estimamos cerca de 30% de um componente ancestral "fantasma" separado e profundamente divergente no indivíduo Mota (replicado aqui usando novos dados de genoma completo diploide com maior cobertura).

Figura 2: Esquema dos resultados do gráfico de mistura.
figura 2

Os comprimentos dos ramos não estão em escala. As setas indicam eventos de mistura genética, com os três componentes principais da ancestralidade representados por setas tracejadas e outros fluxos gênicos inferidos representados por pequenas setas sólidas (com cores correspondentes a grupos relacionados). Subgrupos de antigos caçadores-coletores do leste e centro-sul da África refletem os casos inferidos de excesso de parentesco entre os indivíduos, com os comprimentos dos ramos internos mostrados em unidades de deriva genética. As proporções da mistura são mostradas na Figura 3 e na Tabela Suplementar 9 , e os resultados completos são mostrados na Figura 4 dos Dados Estendidos. Os números de laboratório individuais são mostrados na parte inferior (Tabela 1 dos Dados Estendidos ). N., norte; O., oeste.

Figura 3: Distribuição dos principais componentes de ancestralidade.
figura 3

Kriged distribution of the proportions of each of the three main ancestry components (summing to 1) found in ancient eastern and south-central African foragers analysed in this study (details are provided in Supplementary Table 9). The approximate present-day Mbuti home region is from ref. 41. Individuals from the same site were included using locations that differed by 0.000001 decimal degrees latitude to ensure representation in the interpolation. Scale bars, 250 km. Topographical data are from the Shuttle Radar Topography Mission (SRTM)42. SA, southern African.

Ao adicionarmos mais indivíduos para criar os modelos 2 e 3 (resíduos máximos Z = 3,0 e Z = 3,7), descobrimos que a estrutura geral inferida e os parâmetros eram semelhantes aos do modelo 1 (Tabelas Suplementares 9 e 10 ; veja abaixo os indivíduos e regiões específicos). As fontes de ancestralidade relacionadas a Mota e à África Austral são inferidas como tendo se dividido profundamente ao longo de suas respectivas linhagens, o que significa que, de certa forma, representam populações "fantasmas" (sem representantes amostrados intimamente relacionados). O componente relacionado à África Central é inferido como sendo mais próximo de Mbuti (incluindo um evento de mistura ancestral; Nota Suplementar 6 ) do que de Aka e, portanto, não se dividindo tão profundamente em relação à divergência inicial da linhagem de caçadores-coletores da África Central. Quase todos os sinais adicionais significativos de compartilhamento de alelos que observamos além daqueles no modelo 1 podem ser atribuídos a uma das três causas a seguir (Tabela Suplementar 11 ): (1) excesso de parentesco em escalas de curta distância (veja abaixo); (2) mistura genética proveniente de pastores e/ou agricultores mais recente do que o nosso período de foco (quatro indivíduos); ou (3) contaminação (dois indivíduos). Nestes casos, ajustamos o nosso modelo final (1) permitindo uma história compartilhada (isto é, deriva genética) entre os indivíduos relevantes; (2) adicionando os eventos de mistura genética inferidos; ou (3) incorporando mistura genética extra para representar a fonte de contaminação (Nota Suplementar). 6 ).

For sites in western Kenya, we found that all three individuals in model 3 have excess relatedness beyond the baseline expectation (Fig. 2). The individuals from Jawuoyo (I8808) and Nyarindi (NYA002/NYA003) are the closest, and they can be modelled with Mota-related, central-African-related and southern-African-related ancestry in respective proportions of about 62%, 19% and 19%, while the individual from Kakapel (KPL001) is inferred to have around 12% additional central-African-related ancestry (s.e. of approximately 2–4% with some assumptions) (Fig. 3 and Supplementary Note 6). For north-central Tanzanian sites, again all four individuals have signals of mutual excess allele sharing, with the three individuals from Gishimangeda (I13763, I13982 and I13983) being the closest. One of the three (I13763) shows excess relatedness to non-African individuals, which we interpret as evidence of a small proportion of contamination (Supplementary Notes 5 and 6); otherwise, all four can be fit as a clade with 54%, 12% and 34% Mota-related, central-African-related and southern-African-related ancestry, respectively. Similarly, the three island and coastal individuals (Makangale Cave I1048, Kuumbi Cave I10589, Panga ya Saidi I0595) display excess relatedness, with those from Kuumbi Cave and Panga ya Saidi closest to one another, and with 49% Mota-related, 12% central-African-related and 39% southern-African-related ancestry. These individuals also have ancestry admixed from populations that are associated with food production: Agaw-related for all three, plus western-African-related for Panga ya Saidi (I0595) (Supplementary Note 6 ).

In contrast to Kenya and Tanzania, we did not observe widespread signals of excess relatedness in Malawi and Zambia. After adjusting for ancestry proportions, most individuals within this geographical cluster are no more related to one another than they are to individuals from Kenya and Tanzania. The only notable exceptions that we found among those in model 3 (Supplementary Note 6) were as follows: (1) among individuals from Fingira (I4426, I4427 and I4468), in particular, two dating to about 6.1 ka; and (2) between the individuals from 9–8 ka from Hora 1 (I2966 and I2967). However, other individuals separated by as little as 100–150 km (Fingira-Hora 1 and Chencherere II-Kalemba) can be fit well with independent mixtures of the same ancestry sources used across the entire study region, including some individuals around 700–1,500 km away. At the same time, the inferred ancestry proportions for the individuals from Malawi and Zambia are quite similar (about 20–30% Mota-related, 5–10% central-African-related and 60–70% southern-African-related), with significant (but small) differences observed for I4426 from Fingira (approximately 11% additional central-African-related ancestry), I4421 from Chencherere (approximately 4% ancestry related to pastoralists), I10726 from Kalemba (approximately 5% less Mota-related ancestry than in Malawi) and I2966 from Hora 1 (a small amount of contamination). We also built an alternative version of our model in which we specified the Malawi individuals as forming a clade descended from a shared three-way admixture event (plus small proportions of additional admixture for the aforementioned individuals) that had only a slightly worsefit—confirming the very similar ancestry proportions among the individuals—but that featured zero shared drift at the base of the clade and almost none on the internal branches (Supplementary Note 6 e Figura de Dados Estendidos 6 ).

Examinamos a relação entre distância geográfica e parentesco genético usando uma nova abordagem baseada nos resíduos de um modelo que assume que não há excesso de deriva genética compartilhada — ou seja, observamos a similaridade de genótipos entre pares de indivíduos em relação àquela prevista apenas pelas proporções diferenciais das três fontes de ancestralidade ( Métodos ). Usando pares de indivíduos do Quênia e da Tanzânia, ou do Malawi e da Zâmbia, juntamente com pares inter-regionais para plotar os resíduos em função da distância, encontramos maior parentesco em distâncias curtas, mas com diferentes escalas de comprimento para o decaimento das curvas ajustadas (cerca de 60 km e cerca de 3 km, respectivamente) (Figura Suplementar 7a ). Padrões semelhantes também são observados se omitirmos pares de indivíduos que foram enterrados no mesmo local (Figura Suplementar 7b ). Assim, com as ressalvas de que nossa amostragem não é uniforme e que nem todos os indivíduos viveram contemporaneamente, descobrimos em média que (1) indivíduos do mesmo local ou de locais próximos são mais intimamente relacionados do que o previsto com base apenas na ampla estrutura genética regional, mas (2) esse parentesco se estende apenas por curtas distâncias, particularmente dentro do Malawi e da Zâmbia.

Para uma perspectiva comparativa de antigos caçadores-coletores contemporâneos em ambientes temperados, onde existem dados disponíveis mais extensos, realizamos análises semelhantes para indivíduos da Europa Mesolítica ( n = 36, cerca de 12–7 mil anos atrás) ( Métodos , Tabela Suplementar 12 e Figura de Dados Estendidos 7c, d ). Tanto a Europa Ocidental quanto a Oriental/Norte também mostram um padrão de maior parentesco em distâncias menores; a Europa Ocidental é semelhante ao Malawi e à Zâmbia, pois quase todo o sinal provém de pares do mesmo sítio, mas a Europa Oriental/Norte apresenta uma escala de decaimento geográfico substancialmente maior.

Por fim, comparamos os indivíduos ancestrais aos grupos Sandawe e Hadza da Tanzânia, que historicamente ou recentemente praticaram modos de vida de caçadores-coletores. Estudos anteriores mostraram que os Hadza e Sandawe possuem ancestralidade distinta de seus vizinhos, com proporções excepcionalmente altas de ancestralidade relacionada a antigos caçadores-coletores africanos. 11 , 13 , 14 , 22 Construímos uma versão estendida do modelo 2 incluindo ambos os grupos (Figura de Dados Estendidos 8 e Nota Suplementar 6 ). Ao contrário do padrão geral para indivíduos antigos, não conseguimos enquadrar os Hadza e Sandawe em um clado regional simples, mesmo após considerar a mistura recente que provavelmente está relacionada a pastores e agricultores recém-chegados (contribuindo com um total de cerca de 41% e cerca de 62% de ancestralidade para esses indivíduos Hadza e Sandawe, respectivamente). Em particular, inferimos que ambos compartilham uma linhagem mais próxima de antigos caçadores-coletores do centro-norte da Tanzânia, mas os Hadza apresentaram excesso de compartilhamento de alelos com o indivíduo Mota, enquanto os Sandawe apresentaram excesso de compartilhamento de alelos com caçadores-coletores da África Austral.

Effective population sizes

Inferimos os tamanhos populacionais efetivos ancestrais recentes (até cerca de 500 anos antes do nascimento do indivíduo) ( N <sub>e</sub> ) para os indivíduos antigos com maior cobertura genômica, buscando longos trechos de homozigose (ROH), que se espera estarem presentes nos genomas de indivíduos de populações pequenas ou cujos pais têm parentesco (este último resultando em ROH especialmente longos) ( Métodos e Figura Suplementar 9 ). O cálculo de N <sub>e</sub> depende de vários fatores além do tamanho populacional censitário; em particular, N<sub> e</sub> é uma função tanto da densidade populacional quanto da escala de distância das interações sociais que levam à reprodução. Inferimos que todos os indivíduos antigos possuem pelo menos um ROH longo (> 4 centimorgans (cM)), o que está de acordo com as amplas tendências mundiais de redução do tamanho populacional em sociedades mais antigas. 23 No entanto, as estimativas de N <sub>e</sub> variam em uma ordem de magnitude, desde indivíduos com ROH mínimo, sugerindo tamanhos populacionais relativamente maiores (I5950 (Mota): N <sub>e</sub> = 5.470, intervalo de confiança (IC) de 95% = 1.237 a ilimitado; I8821 (Kisese II): N <sub>e</sub> = 2.640, IC de 95% = 881–16.424) até aqueles com um ROH superior a 100 cM, indicando tamanhos populacionais muito menores (por exemplo, I8808 (Jawuoyo): N<sub> e</sub> = 377, IC de 95% = 229–678). No geral, a variação é semelhante à de muitos grupos de caçadores-coletores africanos atuais ( N <sub>e</sub> , em torno de 500–1.500). 24 e na extremidade inferior quando comparadas com os tamanhos populacionais atuais em todo o mundo. 23 .

Discussão

In contrast to previous studies, our results show that a two-way clinal model extending latitudinally from eastern to southern Africa is insufficient to explain observed patterns of genetic variation in ancient sub-Saharan African foragers. Here we demonstrate that central-African-related ancestry (closest to present-day Mbuti among sampled populations), along with Mota-related and southern African-related ancestry, was ubiquitous (in varying proportions) from southwestern Kenya to southeastern Zambia (Fig. 3), with all three components present by at least about 7 ka in Tanzania and about 16 ka in Malawi. Furthermore, when considering ancient African foragers from a wide range of time periods, ecological contexts and archaeological associations, geographical proximity remains the strongest predictor of genetic similarity5,11. Such a pattern may indicate that long-range migrations were rare in the terminal Pleistocene and Holocene, when these individuals lived. This hypothesis is supported by the signals in our admixture graphs of excess genetic relatedness at subregional scales but not at longer-distance scales. Although it is not possible at present to estimate when and how quickly this three-way cline emerged, it must have post-dated both the emergence of the Mota-related lineage around 80–60 ka12,16 and, with respect to the central-African-related ancestry, the split between Aka and Mbuti less than around 50 ka25,26.

Embora o gradiente de ancestralidade observado tenha permanecido estável por milhares de anos, propomos que ele tenha surgido inicialmente mais próximo desse período de divisão do que do Pleistoceno terminal, e sob padrões qualitativamente diferentes de mobilidade e miscigenação do que após seu estabelecimento. Dispersões, interações e extensa miscigenação no leste e centro-sul da África antes de cerca de 16 mil anos atrás são evidenciadas por proporções substanciais de ancestralidade relacionada ao indivíduo de Mota (Etiópia) tão ao sul quanto a Zâmbia, e ancestralidade relacionada a caçadores-coletores da África Austral tão ao norte quanto o Quênia, em combinação com um alto grau de homogeneidade de ancestralidade em cada sub-região após esse período. Se os padrões de mobilidade e interações sociais tivessem permanecido consistentes ao longo do Pleistoceno Superior e do Holoceno, esperaríamos encontrar ampla evidência de conexões de ancestralidade de longo alcance dentro do leste e centro-sul da África e além, mas observamos apenas dois casos plausíveis significativos entre os indivíduos amostrados (envolvendo ancestralidade extra-central-africana em um indivíduo do Quênia e outro do Malawi).

Contudo, dentro da estrutura populacional tripartida, observamos trajetórias regionais distintas. Indivíduos do Quênia e da Tanzânia formam três grupos (oeste do Quênia, centro-norte da Tanzânia e litoral/ilha), com indivíduos no mesmo grupo apresentando compartilhamento excessivo de alelos, mesmo além do que seria esperado considerando proporções ancestrais semelhantes. Isso sugere um fluxo gênico elevado dentro de cada sub-região, em uma escala de distância estimada em aproximadamente 0–100 km. Em contraste, os únicos sinais de parentesco elevado detectados para indivíduos do Malawi e da Zâmbia envolvem aqueles enterrados no mesmo sítio arqueológico e podem abranger de 1.000 a 3.600 anos (por exemplo, em Fingira). Esse padrão é melhor explicado pelas baixas distâncias médias de dispersão/interação humana durante grande parte do Pleistoceno Superior e do Holoceno, com o estabelecimento do gradiente ancestral em larga escala seguido, em média, por interações mais locais que diferiam por região. Observamos um padrão semelhante em antigos caçadores-coletores da Europa Ocidental, enquanto aqueles do norte e leste da Europa mostram escalas de distância de parentesco mais longas. Isso fornece evidências genéticas de que as distâncias médias entre onde as pessoas viviam e onde seus ancestrais viviam (e, portanto, as distâncias médias de deslocamento humano, especialmente em relação aos parceiros reprodutivos) diferiam entre os grupos de caçadores-coletores em diferentes regiões.

Nossos resultados genéticos oferecem novas perspectivas sobre os processos demográficos do Pleistoceno Superior ao Holoceno, que foram previamente estudados utilizando evidências bioarqueológicas, arqueológicas e linguísticas. A partir de aproximadamente 300 mil anos atrás, evidências arqueológicas atestam o transporte de longa distância de materiais como a obsidiana, presumivelmente facilitado por redes sociais. 27. Exchange intensified through the Late Pleistocene to become a hallmark of the LSA, culminating in elaborate transport networks and shared material culture traditions by the Early Holocene1,4,28,29No entanto, a extensão em que as pessoas se deslocavam com objetos permanece uma questão em aberto. Nossos resultados genéticos apoiam um cenário no qual a mobilidade humana e o fluxo gênico de longo alcance ocorreram com o desenvolvimento e a elaboração de redes de longa distância há aproximadamente 80-20 mil anos, contribuindo para a formação de uma estrutura populacional que persistiu por dezenas de milhares de anos durante um período em que as pessoas viviam em comunidades locais.

As evidências genéticas também reforçam os argumentos a favor da mudança nas esferas de interação do Pleistoceno Superior, com fluxo gênico limitado acompanhando mudanças no comportamento e, possivelmente, nas fronteiras linguísticas. No entanto, neste momento, não podemos avaliar as hipotéticas mudanças na densidade populacional, com base nas fortes evidências de expressão simbólica em sítios da Idade da Pedra Tardia e no aparecimento e desaparecimento de tipos específicos de artefatos. 8 , 9 , 30 , 31 , 32 Nossas estimativas genéticas do tamanho efetivo recente da população são consistentes com as de pelo menos alguns grupos de caçadores-coletores africanos da atualidade. 24 mas não são bons parâmetros de comparação devido às pressões demográficas recentes exercidas sobre esses grupos. 33 Além disso, pequenas subpopulações com fluxo gênico limitado podem resultar em tamanhos populacionais ancestrais efetivos baixos, mesmo que a população total da região seja alta. A preservação da diversidade genética por meio da existência de muitas subpopulações ao longo de longos períodos de tempo também pode contribuir para os altos níveis de diversidade genética observados na maioria dos grupos da África subsaariana contemporânea.

O registro arqueológico da Idade da Pedra Inferior atesta o surgimento de tradições de cultura material bem definidas, delimitadas temporal e espacialmente. 34 , 35 , um fenômeno que às vezes é chamado de regionalização. Dados faunísticos indicam intensificação da subsistência após cerca de 20 mil anos atrás. 36 , 37 Os dados linguísticos também sugerem mudanças em direção a interações locais, refletidas no fato de que, hoje, comunidades que estão atual ou historicamente associadas à coleta de alimentos na África central, oriental e meridional falam línguas de famílias diferentes (na África central, adotadas de imigrantes recentes). Ao mesmo tempo, a conectividade regional e os empréstimos linguísticos no passado eram tais que os linguistas anteriormente caracterizavam as línguas com cliques como uma única família, e o agrupamento proposto de Khoe-Kwadi-Sandawe reforça as evidências de laços de longa distância entre a África oriental e meridional. 38,39Nossos resultados genéticos confirmam que as tendências de regionalização se estenderam à estrutura da população humana, sugerindo que a diminuição do fluxo gênico acompanhou mudanças no comportamento e possivelmente na linguagem.

Conclusões

As transformações demográficas dos últimos 5.000 anos alteraram fundamentalmente as estruturas populacionais regionais e praticamente eliminaram o que, no Pleistoceno Superior, era um gradiente bem estabelecido de ancestralidade relacionada à África Oriental, Meridional e Central, que se estendia por toda a África Oriental e Centro-Sul. Grupos que historicamente praticavam a caça e a coleta de alimentos foram frequentemente empurrados para ambientes marginais e sofreram mudanças demográficas transformadoras, dificultando a compreensão da história profunda a partir do DNA atual. Hoje, a África abriga a maior diversidade genética humana, mas a subamostragem de indivíduos vivos e antigos obscurece as origens dessa diversidade. 40 Demonstramos que o DNA antigo da África tropical pode sobreviver desde o Pleistoceno e revelar padrões que não poderiam ser inferidos de populações que viveram mesmo alguns milênios depois, ressaltando a amplitude da diversidade genética africana e a importância da África oriental e centro-sul como reservatórios de longo prazo de interação e inovação humana.

Methods

Skeletal samples

Os restos mortais coletados neste estudo estão sob a guarda do Museu Nacional do Quênia (Kisese II), do Museu Nacional da Tanzânia (Mlambalasi), do Departamento de Museus e Monumentos do Malawi (Hora 1 e Fingira) e do Museu Livingstone (Kalemba). As permissões e os protocolos de coleta de amostras estão descritos na Nota Suplementar 3. Os indivíduos foram selecionados com base em seus contextos arqueológicos da Idade da Pedra Recente, e as amostras de esqueletos foram escolhidas para maximizar a probabilidade de obtenção de DNA antigo autêntico e minimizar danos. A falange de Fingira foi um achado isolado em um contexto de escavação mista e era pequena demais para fornecer DNA antigo e datação direta. Uma lista das amostras bem-sucedidas e das que não foram obtidas está disponível na Tabela Suplementar 1. A datação direta por radiocarbono foi tentada em cinco dos seis indivíduos bem-sucedidos no Laboratório de Radiocarbono da Universidade Estadual da Pensilvânia, utilizando métodos estabelecidos e medidas de controle de qualidade para purificação de colágeno. 43,44antes da análise por espectrometria de massa com acelerador (Nota Suplementar 4 ). Uma lista das datas diretas e dos resultados de isótopos estáveis ​​para os dois indivíduos datados com sucesso, e datas indiretas, quando disponíveis, para os demais indivíduos, é fornecida nas Tabelas Suplementares 3 e 4. Todas as datas foram calibradas usando o OxCal (v.4.4). 45 , com uma distribuição a priori uniforme (U(0,100)) para modelar uma mistura de duas curvas: IntCal20 (ref. 46 ) e SHCal20 (ref. 47 ).

trabalho de laboratório de DNA

Geramos com sucesso dados de DNA antigo (aDNA) em todo o genoma a partir de um total de seis elementos esqueléticos humanos: cinco ossos petrosos e uma falange. Processamos outros seis ossos petrosos, oito dentes e 11 outros ossos da mesma maneira, mas não obtivemos DNA utilizável (Tabela Suplementar 1 ). Em instalações de sala limpa na Harvard Medical School, limpamos as superfícies externas das amostras e, em seguida, realizamos jateamento de areia (ossos petrosos). 48 ou perfurados (outros ossos e dentes) para obtenção de pó (informações adicionais para as 15 amostras previamente publicadas relatadas aqui com maior abrangência podem ser encontradas nas referências). 11 , 13 , 15 , 16 Extraímos o DNA. 49 , 50 , 51 e prepararam bibliotecas de sequenciamento com código de barras (entre uma e seis bibliotecas para os seis indivíduos recém-relatados e entre uma e oito bibliotecas adicionais para os indivíduos relatados anteriormente): da Caverna Mota, na Etiópia. 15 (I5950); White Rock Point no Quênia 13 (I8930); Caverna Gishimangeda na Tanzânia 13 (I13763, I13982 e I13983); Chencherere II (I4421 e I4422), Fingira (I4426, I4427 e I4468) e Hora 1 (I2967) no Malawi 11 ; e Shum Laka em Camarões 16 (I10871, I10872, I10873 e I10874), tratando em quase todos os casos com uracil-DNA-glicosilase (UDG) para reduzir artefatos de danos ao DNA antigo. 52,53,54. We used two rounds of targeted in-solution hybridization to enrich the libraries for molecules from the mitochondrial genome and overlapping a set of around 1.2 million nuclear SNPs55,56,57,58e sequenciadas em pools nas máquinas Illumina NextSeq 500 e HiSeqX10 com leituras pareadas de 76 pb ou 101 pb. Mais detalhes sobre cada biblioteca são fornecidos na Tabela Suplementar 2. Para o indivíduo Mota (I5950), também geramos dados de sequenciamento shotgun de genoma completo, usando a mesma biblioteca (pré-enriquecida), com sete canais com leituras pareadas de 101 pb (em máquinas Illumina HiSeq X Ten), resultando em uma cobertura de aproximadamente 26× (1.176.635 sítios cobertos a partir do conjunto de SNPs de captura).

Bioinformatics procedures

A partir dos dados brutos de sequenciamento, utilizamos informações de código de barras para atribuir as leituras às bibliotecas apropriadas (permitindo no máximo uma incompatibilidade por par de leituras). Unimos as leituras sobrepostas (com pelo menos 15 bases), removemos as sequências de código de barras e adaptadores das extremidades e mapeamos para o genoma de referência do mtDNA RSRS. 59e o genoma de referência humano hg19 usando BWA (v.0.6.1) 60 Após o alinhamento, removemos as leituras duplicadas e as leituras com qualidade de mapeamento inferior a 10 (30 para dados de sequenciamento shotgun) ou com comprimento inferior a 30 bases. Para preparar os dados para análise, descartamos as bases terminais das leituras (2 para bibliotecas tratadas com UDG e 5 para não tratadas, para eliminar a maioria dos erros induzidos por danos), mesclamos os arquivos .bam de todas as bibliotecas de cada indivíduo e determinamos os genótipos pseudohaploides (um alelo escolhido aleatoriamente entre as leituras alinhadas em cada SNP). A alta cobertura dos dados de sequenciamento shotgun do genoma completo de Mota nos permitiu determinar os genótipos diploides; utilizamos o procedimento da referência [inserir número da referência]. 26 , incluindo o armazenamento dos genótipos em um formato estilo FASTA, que é facilmente acessível através dos softwares cascertain e cTools. O código para as ferramentas de bioinformática e fluxos de trabalho de dados está disponível no GitHub ( https://github.com/DReichLab/ADNA-Tools e https://github.com/DReichLab/adna-workflow ).

Marcadores uniparentais e autenticação

Determinamos o sexo genético de cada indivíduo de acordo com a proporção de fragmentos de DNA mapeados nos cromossomos X e Y. 61 . Identificamos os haplogrupos do mtDNA usando o HaploGrep2 (ref. 62 ), comparando posições informativas com PhyloTree Build 17 (ref. 63 (Tabela Suplementar 6 ). Para quatro indivíduos (I2967, I4422, I4426 e I19528) com evidências de haplogrupos que se dividiram parcialmente, mas não completamente, ao longo de linhagens mais específicas, usamos a notação [chamada HaploGrep2]/[direção do subclado] (por exemplo, L0f/L0f3 para uma divisão na linhagem que leva a L0f3, mas não dentro de L0f3). Para os homens, identificamos os haplogrupos do cromossomo Y comparando suas mutações derivadas com a filogenia do cromossomo Y fornecida pelo YFull ( https://yfull.com ).

We evaluated the authenticity of the data first by measuring the rate of characteristic aDNA damage-induced errors at the ends of sequenced molecules. We next searched directly for possible contamination by examining (1) the X/Y ratio mentioned above (in case of contamination by sequences from the opposite sex), (2) the consistency of mtDNA-mapped sequences with the haplogroup call for each individual64 and (3) the heterozygosity rate at variable sites on the X chromosome (for males only)65Dois indivíduos (I2966 de Hora 1 e I13763 da Caverna Gishimangeda) apresentaram evidências não negligenciáveis ​​de contaminação a partir dessas métricas e também demonstraram compartilhamento excessivo de alelos com não africanos na análise do gráfico de mistura genética; conseguimos incluí-los no modelo final após permitir a mistura genética "artificial" de uma fonte relacionada à Europa (6% e 9%, respectivamente). Também restringimos nossa análise a leituras danificadas na determinação do haplogrupo de mtDNA para I2966. Mais detalhes são fornecidos na Tabela Suplementar 2 e na Nota Suplementar 5 .

Parentes familiares

Buscamos parentes próximos calculando, para cada par de indivíduos, a proporção de alelos correspondentes (de todos os SNPs alvo) ao amostrar uma leitura aleatória por local de cada um. Em seguida, comparamos essas proporções com as taxas obtidas ao amostrar dois alelos do mesmo indivíduo — espera-se que as incompatibilidades sejam duas vezes mais comuns para indivíduos não relacionados do que para comparações dentro do mesmo indivíduo, com parentes da mesma família apresentando taxas intermediárias. Encontramos um possível caso entre os dois indivíduos de White Rock Point (aproximadamente parentes de segundo grau, mas incerto devido à baixa cobertura) (Figura Suplementar 1b ).

Conjunto de dados para análises genômicas abrangentes

Combinamos nossos dados recém-gerados com dados publicados de indivíduos antigos e atuais. 11 , 12 , 13 , 14 , 16 , 25 , 26 , 66 , 67 Realizamos nossas análises genômicas utilizando o conjunto de SNPs autossômicos do nosso enriquecimento alvo (cerca de 1,1 milhão).

PCA

We performed a supervised PCA using the smartpca software68, using three populations (Juǀ'hoansi, Mbuti and Dinka; four individuals each, from ref. 26, were chosen to create a broad separation in the PCA between highly divergent ancestral lineages from southern, central and eastern Africa) to define a two-dimensional plane of variation, and projected all other present-day and ancient individuals (using the lsqproject and shrinkmode options). This procedure captures the genetic structure of the projected individuals in relation to the groups used to create the axes, reducing the effects of population-specific genetic drift in determining the positions of the individuals shown in the plot, as well as bias due to missing data for the ancient individuals.

f Estatísticas

Calculamos as estatísticas f no ADMIXTOOLS. 69 , com erros padrão estimados por jackknife em bloco. Para facilitar o uso de dados com baixa cobertura, utilizamos um novo programa, qpfstats (incluído no pacote ADMIXTOOLS), juntamente com a opção 'allsnps: YES', tanto para estatísticas f4 independentes quanto para estatísticas para uso em qpWave e qpGraph (veja abaixo). Resumidamente, o qpfstats resolve um sistema de equações baseado em identidades de estatísticas f para permitir a estimativa de um conjunto consistente de estatísticas, maximizando a cobertura disponível e reduzindo o ruído na presença de dados faltantes; detalhes completos são fornecidos na Nota Suplementar 7 . Calculamos estatísticas da forma f 4 (Ind1, Ind2; Ref1, Ref2), onde Ind1 e Ind2 são indivíduos antigos do Quênia, Tanzânia ou Malawi/Zâmbia, e Ref1 e Ref2 são antigos caçadores-coletores da África Austral (AncSA, listados na Tabela de Dados Estendidos 1 ), o indivíduo Mota ou Mbuti da atualidade. Esses grupos foram escolhidos à luz dos nossos resultados de PCA e das evidências anteriores de ancestralidade relacionada a alguns ou a todos eles entre antigos caçadores-coletores da África Oriental e Centro-Sul. 5 , 11 , 14 .

Análise qpWave

O software qpWave 70 A estimativa de quantas fontes distintas de ancestralidade (de 1 até o tamanho do conjunto de teste) são necessárias para explicar as relações de compartilhamento de alelos entre as populações de teste especificadas e os grupos externos (onde 'distintas' significa diferentes pontos de divisão filogenética em relação aos grupos externos). Cada teste retorna resultados para diferentes níveis da matriz de compartilhamento de alelos, onde o nível k implica k + 1 fontes de ancestralidade. Para a qualidade absoluta do ajuste, fornecemos o valor P da 'cauda' , onde um valor mais alto indica um melhor ajuste. Também fornecemos os valores P da 'diferença da cauda' como medidas relativas comparando níveis consecutivos, onde um valor mais alto indica menor melhoria no ajuste ao adicionar outra fonte de ancestralidade. Como nosso conjunto de teste base, usamos os 12 indivíduos antigos de caçadores-coletores do leste e centro-sul da África (3 do Quênia, 3 da Tanzânia, 5 do Malawi e 1 da Zâmbia) do nosso modelo gráfico de mistura 3, que não apresentavam evidências de mistura com produtores de alimentos ou contaminação. Também comparamos os resultados ao adicionar o indivíduo de Mota ao conjunto de teste. Como grupos externos, utilizamos os Neandertais de Altai, os Mota e os seguintes oito grupos atuais: Juǀ'hoansi, ǂKhomani, Mbuti, Aka, Iorubá, Franceses, Agaw e Aari, sendo os dois últimos (assim como os Mota) omitidos quando transferimos os Mota para o conjunto de teste.

Dates of admixture

Inferimos as datas de mistura genética usando o software DATES. 21 Utilizamos uma distância genética mínima de 0,6 cM, uma máxima de 1 cM e um tamanho de intervalo de 0,1 cM. Como populações de referência, utilizamos antigos caçadores-coletores do sul da África juntamente com indivíduos de uma das seguintes etnias: Mota, Dinka, Luhya, Yoruba ou euro-americanos (os três últimos provenientes do projeto 1000 Genomes: LWK, YRI e CEU). Os resultados assumem um intervalo médio de geração de 28 anos, e os erros padrão foram estimados pelo método jackknife em blocos.

Ajuste do gráfico de mistura

Construímos gráficos de mistura genética usando o software qpGraph do pacote ADMIXTOOLS. 69 Optamos por analisar cada indivíduo forrageador do leste e do centro-sul separadamente, em vez de formar subgrupos (por exemplo, por local ou período de tempo), para estudar a estrutura em larga e pequena escala (por meio de relações entre indivíduos com graus de similaridade ancestral baixos e altos). Embora essa abordagem tenha sido facilitada pelo tamanho relativamente pequeno de nossas amostras, ela também dependeu da capacidade de calcular as estatísticas f com nossa metodologia qpfstats (mais detalhes são fornecidos na Nota Suplementar 7 e na seção 'estatísticas f ' acima) para utilizar todos os SNPs disponíveis para indivíduos com dados de baixa cobertura. Para todos os modelos, usamos as opções 'outpop: NULL', 'lambdascale: 1' e 'diag: 0.0001'. Também especificamos valores maiores para o parâmetro 'initmix' para explorar o espaço de parâmetros do grafo de forma mais completa: 100.000, 150.000 e 200.000 para os modelos 1 a 3 (e modelos adicionais construídos a partir deles), respectivamente.

Começamos com uma versão do gráfico de mistura da ref. 16, ao qual adicionamos três indivíduos antigos de caçadores-coletores com alta cobertura (de Jawuoyo, Kisese II e Fingira) para criar o modelo 1. Em seguida, expandimos nosso modelo para mais indivíduos. Utilizamos um procedimento no qual (1) adicionamos cada indivíduo antigo, um por vez, ao modelo 1 e avaliamos o ajuste; (2) construímos um modelo 2 de tamanho intermediário, incluindo um total de 11 caçadores-coletores geograficamente diversos do leste e centro-sul da África; (3) adicionamos os indivíduos restantes, um por vez, ao modelo 2; e (4) construímos nosso modelo final 3 com todos os 18 indivíduos acima de um limiar de cobertura de 0,05× (Nota Suplementar 6 ). Nas etapas (1) e (3), como ponto de partida, assumimos uma forma simples de mistura (como no modelo 1), em que todos os indivíduos do leste e centro-sul da África derivaram sua ancestralidade exatamente das mesmas três fontes (em proporções variáveis). Caso constatássemos que um indivíduo não se encaixava bem quando adicionado dessa maneira, anotávamos a(s) violação(ões) específica(s) para determinar se a(s) causa(s) provável(eis) era(m) parentesco excessivo com certos outros indivíduos, fonte(s) distinta(s) para a mistura tripla, mistura de outras populações, contaminação ou outros artefatos. Para os dois indivíduos (um de Hora 1 e um de Gishimangeda) com evidências de contaminação apreciável, incluímos eventos de mistura fictícios que contribuíam com ancestralidade não relacionada à África. Detalhes completos sobre nossos procedimentos de ajuste são fornecidos na Nota Suplementar. 6 .

Análise de parentesco excessivo

To study excess relatedness between individuals after correcting for different proportions of Mota-related, central-African-related and southern-African-related ancestry, we built an admixture graph similar to our main model 3, but in which each forager individual is descended from an independent mixture of the three ancestry components, without accounting for excess shared genetic drift. We also included four additional individuals with lower coverage (three from Kenya and one from Chencherere II in Malawi), but excluded the two early individuals from Hora 1 due to their much greater time depth compared with other individuals in the model. Finally, for individuals modelled with admixture beyond the primary three sources (that is, pastoralist-related ancestry for four individuals, western-African-related ancestry for the Panga ya Saidi individual and the excess central-African-related ancestry for the Kakapel individual, plus dummy admixture for contamination), we locked the relevant branch lengths and mixture proportions at their values from model 3 to prevent compensation for the inaccuracies in the model by these parameters. We next used the residuals (fitted minus observed values) of each outgroup f3 A estatística (Neandertal; X, Y) quantifica o excesso de parentesco entre os indivíduos X e Y que não é explicado pelo modelo. Em outras palavras, ajustamos cada indivíduo como fizemos durante a fase de adição de um do procedimento principal de inferência do grafo de mistura (exceto que aqui todos simultaneamente), mas agora, em vez de usar as violações do modelo para orientar a construção de um modelo com bom ajuste, usamos essas violações diretamente como resultado da análise.

Plotamos os resíduos de parentesco excessivo para cada par de indivíduos em função da distância ortodrômica entre os locais, calculada usando a fórmula de haversine (adicionando também um valor fictício de 0,001 km a cada distância). Ajustamos curvas aos dados com a forma funcional 1/ mx , permitindo adicionalmente a translação (equação completa: y = 1/( mx + a ) + b , onde y é o parentesco excessivo, x é a distância e m , a e b são constantes ajustadas) por meio de mínimos quadrados ponderados pela variância inversa. Também omitimos o ponto correspondente ao par de indivíduos de White Rock Point (Quênia) devido à evidência de parentesco familiar próximo (ver acima). Finalmente, calculamos uma escala de decaimento para as curvas dada pela fórmula ( e – 1) × a / m (onde e é o número de Euler). Observamos que um valor residual (isto é, no eixo y ) igual a zero não tem significado especial nos gráficos.

Para a Europa Mesolítica, realizamos duas análises análogas, uma para a parte ocidental do continente e outra para a parte oriental e setentrional. Na primeira análise, selecionamos indivíduos com ancestralidade predominantemente relacionada a caçadores-coletores ocidentais (WHG), enquanto na segunda análise, selecionamos indivíduos que poderiam ser modelados como tendo ancestralidade mista, tanto de WHG quanto de caçadores-coletores orientais (EHG) (Tabela Suplementar 12 ). Em ambos os casos, construímos modelos simples de grafos de mistura para estimar os resíduos. Para a Europa Ocidental, utilizamos o indivíduo Ust'-Ishim do Paleolítico Superior da Rússia. 71 como grupo externo e consideramos que todos os indivíduos do teste descendem de uma única linhagem ancestral. Para o leste e norte da Europa, usamos Ust'-Ishim como grupo externo e Mal'ta 1 da Sibéria. 72 para um representante da ancestralidade da Eurásia setentrional antiga, Villabruna da Itália 73 para WHG, Carélia da Rússia 56 , 58 , 73 para EHG (misturado com ancestralidade relacionada a Mal'ta e a Villabruna) e, finalmente, os indivíduos de teste, cada um com misturas independentes de ancestralidade relacionada a WHG e EHG em proporções variáveis.

Inferência do tamanho efetivo da população

Realizamos a chamada de ROH a partir da contagem de leituras para cada alelo no conjunto de SNPs alvo (em vez de nossos dados de genótipo pseudohaploide), que convertemos em verossimilhanças normalizadas em escala Phred. A chamada foi feita utilizando o BCFtools/RoH. 74O método é capaz de lidar com dados não faseados e com cobertura relativamente baixa (pelo menos para a identificação de ROHs longos) e não depende de um painel de haplótipos de referência. Ele também é robusto a taxas modestas de erro de genotipagem, como as que poderiam ocorrer neste caso devido a danos ou contaminação do DNA antigo, embora recomendemos cautela na interpretação dos resultados para I2966 (Hora 1) e I0589 (Caverna Kuumbi; para esta análise específica, utilizamos a versão dos dados publicados com as bibliotecas UDG-minus incluídas, totalizando uma cobertura média de aproximadamente 2×). Observamos ainda que a natureza de qualquer possível efeito sobre as inferências finais é incerta; erros podem reduzir as estimativas do tamanho populacional ao fragmentar ROHs, mas também podem dividir ROHs muito longos em blocos menores, porém ainda longos, que têm a maior influência nas estimativas do tamanho populacional. Na ausência de dados em nível populacional de grupos relacionados, especificamos uma única frequência alélica padrão ('--AF-dflt 0.4') e nenhum mapa genético (embora posteriormente tenhamos convertido posições físicas em distâncias genéticas usando a ref. 75 , que esperamos ser razoavelmente precisos nas escalas de comprimento que nos interessam). Para nossas análises, retivemos blocos ROH com comprimento >4 cM. Em três casos, unimos blocos com uma lacuna <0,5 cM e, no máximo, dois sítios heterozigotos aparentes entre eles.

A partir dos resultados do ROH, aplicamos a abordagem de máxima verossimilhança da ref. 23 para estimar os tamanhos populacionais efetivos ancestrais recentes ( N e ). Usamos todos os blocos de ROH com mais de 4 cM, exceto para três indivíduos (KPL001 de Kakapel, no Quênia, I9028 de Santa Helena, África do Sul, e I9133 de Faraoskop, África do Sul) com altas proporções de ROH muito longos (um sinal de parentesco familiar entre os pais — aproximadamente no nível de primos em primeiro grau nesses casos — em vez de um tamanho populacional baixo a longo prazo), para os quais usamos apenas blocos de 4 a 8 cM.

Observamos que, mesmo dentro de uma população com acasalamento aleatório, o número e a extensão das regiões de homozigose (ROH) podem variar substancialmente entre os indivíduos, o que se reflete nos grandes erros padrão das Ne estimativas de para tamanhos de amostra pequenos. Observamos também que a mistura genética recente pode influenciar as ROH (e, portanto, Ne as estimativas de ) ao tornar a coalescência entre os dois cromossomos de um indivíduo menos provável, mas, com base nos demais resultados do nosso estudo, não esperamos um efeito substancial para esses indivíduos.

Resumo do relatório

Informações adicionais sobre o desenho da pesquisa estão disponíveis no Resumo do Relatório de Pesquisa da Nature, cujo link está vinculado a este artigo.