游客您好
第三方账号登陆
  • 点击联系客服

    在线时间:8:00-16:00

    客服电话

    020-85534346

    电子邮件

    81058337@qq.com
  • 码云社APP

    随时掌握码云社动态

  • 扫描二维码

    关注砺锋微信公众号

资讯
1696 20 0 2019-4-3 17:30

友情提示:爬虫犯法

遥想当年,我的第一份实习工作,还就是做的爬虫呢。不知不觉7年过去了,如今首例利用爬虫技术非法盗抓数据案都已经被判违法了。我记得我第一份实习工作,就是做的爬虫,利用爬虫技术,去爬取各种论坛和网站,然后要 ...

友情提示:爬虫犯法

遥想当年,我的第一份实习工作,还就是做的爬虫呢。不知不觉 7 年过去了,如今首例利用爬虫技术非法盗抓数据案都已经被判违法了。

我记得我第一份实习工作,就是做的爬虫,利用爬虫技术,去爬取各种论坛和网站,然后要做到记录到每个论坛帖子的发帖时间,在论坛的板块,页数,发帖时间,发帖 ID ,然后存储起来,可以做到搜索关键字快速定位到哪个论坛的那一页,哪个帖子。而且这个爬虫技术基本上要做到可以适配几乎所有,可以说很多网站和论坛。

随便放一个论坛的首页网址进去,就可以快速爬虫论坛里的所有内容了。当时,感觉还是挺好玩的,当然越小的网站和论坛越容易爬虫,越大的论坛和越大科技公司做的网站等就越难爬,因为他们都做了反爬虫的处理,好像百度贴吧当时就很难爬虫。

如今呢?现在爬虫都犯法了,今天早上醒来,看到大家都在微博转发,尤其是技术圈里的人,都在说这件事。

据海淀法院官网消息, 近期,海淀法院审结了一起利用 “爬虫” 技术侵入计算机信息系统抓取数据的刑事案件。该案系全国首例利用 “爬虫” 技术非法入侵其他公司服务器抓取数据,进而实施复制被害单位视频资源的案件。

大概事情是这样的:使用爬虫技术的公司于 2016 年至 2017 年间采用技术手段抓取被害单位北京某网络技术有限公司服务器中存储的视频数据,并由被告人破解北京某网络技术有限公司的防抓取措施,使用 “tt_spider” 文件实施视频数据抓取行为,造成被害单位北京某网络技术有限公司损失技术服务费人民币 2 万元。

经鉴定,“tt_spider” 文件中包含通过分类视频列表、相关视频及评论等接口对被害单位服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制

其实小公司,小网站,没有做反爬虫的技术处理,爬虫代码就简单多了,这个没有什么技术含量。而这个案例中被告人使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制进行爬虫说明是违背了内容提供者意愿的。

说实话,做过爬虫的都知道,常用的反爬虫手段基本上都是这样的,限制 IP 的访问次数,检查判断是否有同一个设备在频繁不断请求(也就是检查 device_id) 。

说白了最常见的反爬虫手段有三种:

  • 通过分析用户请求的 Headers 信息进行反爬虫。
  • 通过判断同一个 IP 或者同一个设备,在短时间内是否频繁访问对应网站等进行分析;
  • 通过动态页面增加爬取的难度,达到反爬虫的目的。

对于爬虫者来讲,可以非常方便的获取别人辛辛苦苦收集和整理的信息,内容等,但是大量的爬虫也可能会给内容提供者的网站和服务器造成重大的压力,因为有些暴力爬虫者,不管三七二十一,频繁请求别人的服务器,导致服务器压力过大。

我们一起来看看爬虫和反爬虫的攻与防,以及给别人的服务器带来的压力和损失。

友情提示:爬虫犯法

图片来自网络,侵删

所以,作为技术人来讲,爬虫要讲究规则和方法的,一定要善用爬虫,慎用爬虫,爬虫虽好,但是一定不要侵权,尤其是盗取别人的原创内容和知识,更不要传播具有版权的内容和产品。

在这起案件中,法官认为:

在信息时代,“爬虫” 技术是一种常见的数据抓取技术,最常用的领域是搜索引擎,该技术的有效使用有利于数据的共享和分析、造就了互联网生态的繁荣,但并不意味该技术的使用没有边界。法官在此提醒互联网行业的从业人员,必须在法律的框架之内合理使用该技术,违反法律规定利用该技术非法获取数据可能构成犯罪。

所以这起案件给我们的提示和警醒就是:

  1. 要善用爬虫,不要爬虫具有版权和原创的知识,内容,产品,更不要传播。
  2. 要慎用爬虫,不要使用爬虫技术去获取违背内容提供者意愿的信息。
  3. 要对用爬虫,不要暴力使用爬虫技术,给别人的服务器造成压力和损害。

尤其是利用爬虫技术获取信息去获利,去商用的人和企业,尤其是同行之间竞争的人,要小心了,一旦被抓到,这个案例就是一个很好的例子。

你们大家认为爬虫违法么?认为如何正确使用爬虫呢?认为爬虫什么不会违法?欢迎大家在文章底下留言,一起交流自己的看法和观点。

该文章已有20人参与评论

请发表评论

全部评论

  • 华士阿斯顿 2019-4-3 17:28
    挂个代理,爬了入库自己欣赏,咋了?
  • lijian33333 2019-4-3 17:25
    爬虫就是攻于防前端各种验证爬虫各种破解
  • 我的阿曼 2019-4-3 17:22
    搞笑了!百度蜘蛛天天24小时不停的爬
  • 苏深情 2019-4-3 17:19
    恶意爬虫,当然了。
  • 汪老实 2019-4-3 17:16
    爬爬就变成dddos了 小网站经不起几个同时爬[呲牙]
  • 我的阿曼 2019-4-3 17:13
    哪里有爬,只是很快速的看完你这个网站
  • 619505038 2019-4-3 17:10
    真要爬数据你知道个毛 连Google都一样拿 批量代理IP几万个 验证码自动识别 更何况国内的网站[抠鼻]
  • 河之源兮 2019-4-3 17:06
    第一个把百度抓起来
  • 七里香LA 2019-4-3 17:04
    真是个令人忧伤的事情,以后抓取不要太过频繁,尽量抓取有用的数据…
  • 范二的年代 2019-4-3 17:01
    搜索引擎底层就是个爬虫,百度岂不是要关门了?
  • 永哥138 2019-4-3 16:58
    真心不敢学派丧,哪里知道做到哪是犯法了呢?[捂脸]
  • 苹果专卖店 2019-4-3 16:55
    只要不爬人家收费内容,禁止转载的版权内容就行了,还有命令禁止的内容
  • sorry_浅唱 2019-4-3 16:52
    技术无罪,有罪的是人心
  • kkpp350 2019-4-3 16:49
    法律上,只要网站声明不得利用爬虫技术抓取网页内容,就不应该进行。有个robots.txt指令。爬虫技术有没有犯法,取决于是否违背网站意愿。更别说这种故意钻漏洞强行抓取的。
  • MadLabVer3_14 2019-4-3 16:46
    知乎貌似最难
  • 日月光辉 2019-4-3 16:43
    公开资源是可以爬的哇,爬人家隐私不就是黑客了。几年前有做紫砂的朋友花了万把块钱弄到了紫砂论坛壶友个人信息,估计就是爬的~还说什么呢……当时真希望自己是那种厉害的黑客
  • pengli6051 2019-4-3 16:40
    有点搞笑,意思是这样理解 偷看不能偷拍,偷拍不能告诉别人,即使告诉别人,也不能传播,如果真的要传播,必须要打码,大概就这个意思[耶]
  • dobd6327 2019-4-3 16:37
    微信登录了电脑,和朋友聊了关于爬虫的事情。这就给我推送了?
  • 苟莱驴谕 2019-4-3 16:34
    我用爬虫爬了酷我几千首歌,没啥用,都删了,有谁能合作不
  • SagittariusYW 2019-4-3 16:31
    百度属于通用爬虫,那些网站已经授权给百度可以抓取了,有个机器人协议的。

查看全部评论>>

阅读排行RANKLIST
  • 日排行
  • 周排行
  • 月排行
CODESEEDING(码云社)一家致力于程序员成长、以内容为核心、以提问为引导的多元化成长社区。我们在线上为技术爱好者提供了一个优质的交流氛围环境,在线下同样和众多高校联合开办了技术沙龙品牌。
020-85534346
关注我们
  • 访问移动H5版
  • 官方微信公众号

码云社 - CODESEEDING 2.0© 2018-2019 码云社. TOOBUG ( 粤ICP备16114193号-3 )