Amostragem de dados e taxas de erro em alguns relatórios do Audience Manager data-sampling-and-error-rates-in-selected-audience-manager-reports
Um resumo da metodologia de amostragem usada para alguns relatórios, taxas de erro de amostragem e uma lista de relatórios que retornam informações com base em dados de amostra.
Taxa de amostragem de dados data-sampling-ratio
Alguns Audience Manager Os relatórios do exibem resultados com base em um conjunto de amostras da quantidade total de dados disponíveis. A proporção de dados amostrados é de 1:54. Para relatórios que usam dados de amostra, isso significa que os resultados se baseiam em um registro de cada conjunto de 54 registros.
Esses relatórios usam dados de amostragem estatística porque precisam de uma enorme capacidade de computação para gerar resultados. A amostragem ajuda a obter um equilíbrio entre demandas computacionais reduzidas, mantendo o desempenho do sistema e fornecendo resultados precisos.
Taxas de erro error-rates
Erros podem ocorrer em relatórios que geram dados de sobreposição. Um erro é definido como a porcentagem de registros que:
- Não deveria ter sido incluído em um relatório, mas foi adicionado mesmo assim.
- Deveria ter sido incluído em um relatório, mas foi deixado de fora.
É importante observar que nossos testes e modelos mostram que a taxa de erro diminui em uma proporção inversa ao número de registros em seu conjunto de dados. Os conjuntos de dados que têm muitos registros geram menos erros do que conjuntos com um pequeno número de registros. Vamos analisar essa asserção de uma maneira mais quantitativa. Conforme mostrado na tabela a seguir, para um número definido de registros, 95% dos resultados do relatório estarão abaixo de uma taxa de erro específica.
Utilização da Metodologia de amostragem Minhash minhash
Com base no Minhash metodologia de amostragem, o Audience Manager usa um novo método para calcular estimadores de características e segmentos sobre um esboço de dados de Hash de uma única permutação. Este novo método produz uma variação menor que o estimador padrão para similaridade de Jaccard. Consulte a seção abaixo para obter os relatórios que usam essa metodologia.
Relatórios que usam dados de amostra reports-using-sampled-data
A variável Audience Manager Os relatórios que utilizam dados estatísticos amostrados e a metodologia de amostragem Minhash incluem: