遥想当年,我的第一份实习工作,还就是做的爬虫呢。不知不觉7年过去了,如今首例利用爬虫技术非法盗抓数据案都已经被判违法了。我记得我第一份实习工作,就是做的爬虫,利用爬虫技术,去爬取各种论坛和网站,然后要 ...
![]() 遥想当年,我的第一份实习工作,还就是做的爬虫呢。不知不觉 7 年过去了,如今首例利用爬虫技术非法盗抓数据案都已经被判违法了。 我记得我第一份实习工作,就是做的爬虫,利用爬虫技术,去爬取各种论坛和网站,然后要做到记录到每个论坛帖子的发帖时间,在论坛的板块,页数,发帖时间,发帖 ID ,然后存储起来,可以做到搜索关键字快速定位到哪个论坛的那一页,哪个帖子。而且这个爬虫技术基本上要做到可以适配几乎所有,可以说很多网站和论坛。 随便放一个论坛的首页网址进去,就可以快速爬虫论坛里的所有内容了。当时,感觉还是挺好玩的,当然越小的网站和论坛越容易爬虫,越大的论坛和越大科技公司做的网站等就越难爬,因为他们都做了反爬虫的处理,好像百度贴吧当时就很难爬虫。 如今呢?现在爬虫都犯法了,今天早上醒来,看到大家都在微博转发,尤其是技术圈里的人,都在说这件事。
其实小公司,小网站,没有做反爬虫的技术处理,爬虫代码就简单多了,这个没有什么技术含量。而这个案例中被告人使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制进行爬虫说明是违背了内容提供者意愿的。 说实话,做过爬虫的都知道,常用的反爬虫手段基本上都是这样的,限制 IP 的访问次数,检查判断是否有同一个设备在频繁不断请求(也就是检查 device_id) 。 说白了最常见的反爬虫手段有三种:
对于爬虫者来讲,可以非常方便的获取别人辛辛苦苦收集和整理的信息,内容等,但是大量的爬虫也可能会给内容提供者的网站和服务器造成重大的压力,因为有些暴力爬虫者,不管三七二十一,频繁请求别人的服务器,导致服务器压力过大。 我们一起来看看爬虫和反爬虫的攻与防,以及给别人的服务器带来的压力和损失。 ![]() 图片来自网络,侵删 所以,作为技术人来讲,爬虫要讲究规则和方法的,一定要善用爬虫,慎用爬虫,爬虫虽好,但是一定不要侵权,尤其是盗取别人的原创内容和知识,更不要传播具有版权的内容和产品。 在这起案件中,法官认为:
所以这起案件给我们的提示和警醒就是:
尤其是利用爬虫技术获取信息去获利,去商用的人和企业,尤其是同行之间竞争的人,要小心了,一旦被抓到,这个案例就是一个很好的例子。 你们大家认为爬虫违法么?认为如何正确使用爬虫呢?认为爬虫什么不会违法?欢迎大家在文章底下留言,一起交流自己的看法和观点。 |
2019-05-24
2019-05-24
2019-04-04
2019-04-03
2019-04-03
请发表评论