总的来说,由于这些爬虫程序的做法很好,心,但由于访问我们的爬虫程序可能有很多,因此它们所有访问的累积效应可能非常显著。
幸运的是,google analytics 提供了一种过滤这些访问的机制,通过以下步骤:
从 google analytics 顶部菜单中选择“管理”标签。
选择您想要过滤跟踪器访问的帐户、属性和网站视图。
选择所选视图列下的“视图设置”选项。
选中“排除所有已知机器人和蜘蛛命中”选项,然后按“保存”按钮。
如何在 google analytics 中过滤已知跟踪器
然而,并非所有追踪者都如此“仁慈”,他们也同样有其阴暗的一面。
互联网上有大量恶意爬虫,它们当然不会“体贴”地遵守“良好礼仪”规则 奥地利 WhatsApp 数据 或 robots.txt 文件。
爬虫引荐垃圾邮件会真实访问网站,并且不遵守服务器的 robots.txt 文件中的指令。
举个例子,提到他们的一些不良行为,他们可以抓取网页和网站来查找安全漏洞并对其进行黑客攻击,或者解析内容来寻找电子邮件地址、电话号码或其他联系信息,以进行滥用营销活动。
► 来自 ghost spam
我们上面看到的两种类型的垃圾邮件有一个共同点:它们会产生对网站的“真实”访问。