Amostragem de dados e taxas de erro em alguns relatórios do Audience Manager data-sampling-and-error-rates-in-selected-audience-manager-reports

Um resumo da metodologia de amostragem usada para alguns relatórios, taxas de erro de amostragem e uma lista de relatórios que retornam informações com base em dados de amostra.

Taxa de amostragem de dados data-sampling-ratio

Alguns Audience Manager Os relatórios do exibem resultados com base em um conjunto de amostras da quantidade total de dados disponíveis. A proporção de dados amostrados é de 1:54. Para relatórios que usam dados de amostra, isso significa que os resultados se baseiam em um registro de cada conjunto de 54 registros.

Esses relatórios usam dados de amostragem estatística porque precisam de uma enorme capacidade de computação para gerar resultados. A amostragem ajuda a obter um equilíbrio entre demandas computacionais reduzidas, mantendo o desempenho do sistema e fornecendo resultados precisos.

Taxas de erro error-rates

Erros podem ocorrer em relatórios que geram dados de sobreposição. Um erro é definido como a porcentagem de registros que:

  • Não deveria ter sido incluído em um relatório, mas foi adicionado mesmo assim.
  • Deveria ter sido incluído em um relatório, mas foi deixado de fora.

É importante observar que nossos testes e modelos mostram que a taxa de erro diminui em uma proporção inversa ao número de registros em seu conjunto de dados. Os conjuntos de dados que têm muitos registros geram menos erros do que conjuntos com um pequeno número de registros. Vamos analisar essa asserção de uma maneira mais quantitativa. Conforme mostrado na tabela a seguir, para um número definido de registros, 95% dos resultados do relatório estarão abaixo de uma taxa de erro específica.

Número de registros
Taxa de erro
500 - 1,000
95% estão abaixo de uma taxa de erro de 42%.
1,000 - 1,500
95% estão abaixo de uma taxa de erro de 34%.
10,000 - 50,000
95% estão abaixo de uma taxa de erro de 14%.
50.000
95% estão abaixo de uma taxa de erro de 6%.
100,000
95% estão abaixo de uma taxa de erro de 4%.
500.000 (ou mais)
95% estão abaixo de uma taxa de erro de 2%.

Utilização da Metodologia de amostragem Minhash minhash

Com base no Minhash metodologia de amostragem, o Audience Manager usa um novo método para calcular estimadores de características e segmentos sobre um esboço de dados de Hash de uma única permutação. Este novo método produz uma variação menor que o estimador padrão para similaridade de Jaccard. Consulte a seção abaixo para obter os relatórios que usam essa metodologia.

Relatórios que usam dados de amostra reports-using-sampled-data

A variável Audience Manager Os relatórios que utilizam dados estatísticos amostrados e a metodologia de amostragem Minhash incluem:

Amostragem estatística
Metodologia de amostragem de Minhash
Público-alvo endereçável dados (dados a nível de cliente e segmento).
Relatórios de sobreposição (característica-a-característica, segmento-a-característica e segmento-a-segmento)
A variável Total de dispositivos métrica para um Profile Merge Rule.
Recomendações de característica
Data Explorer usa dados de amostra no Search e qualquer Saved Searches
Audience Marketplace Recommendations
recommendation-more-help
de293fbf-b489-49b0-8daa-51ed303af695