Échantillonnage de données et taux d’erreur dans les rapports Audience Manager sélectionnés data-sampling-and-error-rates-in-selected-audience-manager-reports

Résumé de la méthodologie d’échantillonnage utilisée pour certains rapports, taux d’erreur d’échantillonnage et liste des rapports qui renvoient des informations sur la base de données échantillonnées.

Rapport d’échantillonnage de données data-sampling-ratio

Certains rapports Audience Manager affichent les résultats en fonction d’un échantillon de la quantité totale de données disponibles. Le rapport de données échantillonné est de 1:54. Pour les rapports qui utilisent des données échantillonnées, cela signifie que vos résultats sont basés sur 1 enregistrement sur chaque ensemble de 54 enregistrements.

Ces rapports utilisent des données échantillonnées statistiques, car ils ont besoin d’une puissance de calcul considérable pour générer des résultats. L’échantillonnage permet d’établir un équilibre entre la réduction des exigences de calcul, la conservation des performances du système et la fourniture de résultats précis.

Taux d’erreur error-rates

Des erreurs peuvent se produire dans les rapports qui génèrent des données de chevauchement. Une erreur est définie en tant que pourcentage d'enregistrements qui :

  • N’aurait pas dû être inclus dans un rapport, mais a été ajouté de toute façon.
  • Aurait dû être inclus dans un rapport, mais il a été exclu.

Il est important de noter que nos tests et modèles montrent que le taux d’erreur diminue dans une proportion inverse par rapport au nombre d’enregistrements dans votre jeu de données. Les jeux de données comportant de nombreux enregistrements génèrent moins d’erreurs que les jeux comportant un petit nombre d’enregistrements. Regardons cette assertion d'une manière plus quantitative. Comme illustré dans le tableau suivant, pour un nombre d’enregistrements défini, 95 % des résultats du rapport seront inférieurs à un taux d’erreur spécifique.

Nombre d’enregistrements
Taux d’erreur
500 à 1 000
95 % sont sous un taux d’erreur de 42 %.
1 000 à 1 500
95 % sont sous un taux d’erreur de 34 %.
10 000 à 50 000
95 % sont sous un taux d’erreur de 14 %.
50 000
95 % sont sous un taux d’erreur de 6 %.
100 000
95 % sont sous un taux d’erreur de 4 %.
500 000 (ou plus)
95 % sont sous un taux d’erreur de 2 %.

Utilisation de la méthodologie d’échantillonnage de hachage minhash

Sur la base de la méthodologie d’échantillonnage Minhash, l’Audience Manager utilise une nouvelle méthode pour calculer les estimateurs de caractéristiques et de segments au-dessus d’une esquisse de données de hachage à une permutation. Cette nouvelle méthode produit une variance inférieure à celle de l’estimateur standard pour la similarité de Jaccard. Consultez la section ci-dessous pour connaître les rapports qui utilisent cette méthodologie.

Rapports qui utilisent des données échantillonnées reports-using-sampled-data

Les Audience Manager rapports qui utilisent des données échantillonnées statistiques et la méthodologie d’échantillonnage de l’empreinte digitale incluent :

Tirage statistique
Méthodologie d’échantillonnage par hachage
Donnéesd’audience adressables (données au niveau du client et du segment).
Rapports de chevauchement (caractéristique à caractéristique, segment à caractéristique et segment à segment)
Mesure Total des appareils pour une Profile Merge Rule.
Recommandations de caractéristiques
DataExplorer utilise des données échantillonnées dans l’ Search onglet et tout Saved Searches
Audience Marketplace Recommendations
recommendation-more-help
de293fbf-b489-49b0-8daa-51ed303af695