Show Menu
主题×

常见机器人签名

在数据集中识别机器人程序时,根据环境的不同,有几种常用的识别机器人程序的方法。

每次访问的页面视图数很高

您可以提取具有IP地址、页面Data warehouse和唯一访客的视图报告。 然后,在Excel​中为每次访​问的页面视图创建计算,并从最高到最低排序。 机器人程序每次访问的页面视图数通常很多(数百到数千个)。 进入实际流量时,您将看到急剧的下降。

无推荐人

机器人程序通常没有引用URL。 在分段中,可以将其筛选为 Referring Domain equals Typed/Bookmarked

奇怪的用户代理

机器人程序通常使用未在浏览器维度中分类或显示为标准浏览器版 unknown 本的自定义用户代理。 未知的Safari和未知的Opera极有可能成为机器人。

Linux或“未指定”操作系统

我们并不是想贬低这个强大的开源Linux操作系统,但显然机器人会喜欢将它设置为他们的操作系统。 但是,请注意排除来自Linux用户的合法通信。 机器人程序还喜欢不设置操作系统,该操作系统可以分段为 Operating System ​equals Not Specified

页面视图=访问=唯一访客

这尤其适用于用户代理报告。 正如您在下面的屏幕截图中所看到的,这些浏览器的“未知版本”的访客数与唯一访客数几乎相同(页面视图数几乎相同)。 这可以通过为或构建包含 容器 ,在细分 Single Page Visits equals Enabled 中隔离 Hit Depth is less than 2

访问次数1

机器人程序通常在每次执行时都获得新的访客ID,因此每次只能进行一次访问,其所有流量将包含访问次数1。

更低的显示器分辨率

现代用户的分辨率监视器比过去要高得多。 使用下列分辨率的点击对于机器人程序似乎非常受欢迎:
  • 1024 x 768​​
  • 1366 x 768
  • 1600 x 864
  • 800 x 600
  • 1600 x 1200
  • 未指定
  • 1024 x 667

国家/地区+时区不匹配

发起国和时区之间将存在不匹配。 例如,美国的一个位置,但有GMT时区。

未登录

用户在访问中的任何时间都不登录,并且他们的用户标识eVar不会从以前的访问中持续。 虽然某些机器人程序可以设置为进行身份验证,但大多数机器人并不那么聪明。

访问中没有KPI

机器人程序通常不会将产品添加到购物车或注销。 大多数情况下,他们不会提交潜在客户表单或其他成功事件,但某些机器人程序确实会提交简单的HTML表单。​

存在特定查询字符串

有时,机器人程序会尝试通过点击不存在的格式错误的URL或URL(如典型的LAMP或Wordpress管理页面)或附加特定的查询字符串来破坏缓存或中断站点。

源自分布式计算平台的IP地址

Web托管服务(如AmazonWeb服务或Google Cloud)可能会被滥用为机器人农场。 这些IP地址极有可能成为机器人程序:​