Show Menu
主题×

计算倾向评分

对倾向评分的统计计算进行了定义。
在概念上,针对每个访客计算的评分表示指定事件(由目标过滤器定义)可能发生的估计概率。因此,评分值的范围介于 0% 到 100% 之间。评分过程使用现有采样作为培训数据来查找事件概率与所选独立感兴趣变量之间的关系。
在数学上,此类关系反映在每个独立变量的每个关联数量值中。这些值称为模型系数。ScoreDim 目前使用迭代重复加权最小二乘 (IRLS) 算法估算模型系数。IRLS 多次遍历获取的采样,直至当前传递与上一传递之间的系数差小于 1.0e-6,此时称为​ 已聚合 。但是,根据数据的具体情况,IRLS 可能无法实现聚合。
对于这种情况,模型培训迭代将在下列情况下终止:
  • 系数差变大,而不是变小;
  • 达到 1,000 次传递;或者
  • 由于数学错误而导致无法继续迭代。
如果 IRLS 不聚合,将使用称为随机梯度下降 (SGD) 的备用算法。SGD 也将多次遍历培训采样。但与 IRLS 不同的是,SGD 模型系数将受到控制,这样迭代间的差值将始终以指数方式下降。同样,在系数差低于 1.0e-6 或达到 100,000 次传递时,SGD 将终止。IRLS 的失败和 SGD 的采用将记录在跟踪日志中。
这两种算法都不会将所有采样全部输入模型培训中。目前我们使用 80% 的采样来培训模型。培训模型后,将使用剩余 20% 的采样,根据从混淆矩阵中计算的正确率、查全率和查准率来评估模型强度。越接近 100%,评分模型的效果越好。