最近我学习和实践网络爬虫,总想着在这儿抓点数据在那儿抓点数据,浑然不知爬虫的底线和基本规则,我默认认为只要是在互联网上公开的数据,并且没有侵犯个人隐私的数据就可以被抓取和使用。
但不知为什么,抓取别人网站数据时,总会产生莫名恐慌,抓我自己博客数据时就特别坦然。
所以我想现在这个时候,非常有必要仔细研究一下有关网络爬虫的规则和底线。以下内容摘自多位博主。
CSDN“DT数据技术博文”博主:
我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外,如百度知道、百科等),所以网络爬虫作为一门技术,技术本身是不违法的。
哪些情况下网络爬虫采集数据后具备法律风险?
- 当采集的站点有声明禁止爬虫采集或者转载商业化时;
比如淘宝网,大家来看淘宝的声明。
- 当网站声明了rebots协议时
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉爬虫哪些页面可以抓取,哪些页面不能抓取。
robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
如何查看采集的内容是的有rebots协议?
其实方法很简单。你想查看的话就在IE上打http://你的网址/robots.txt要是说查看分析robots的话有专业的相关工具 站长工具就可以!
搜狐号“千锋编程部落”:
爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。
举个例子:像谷歌这样的搜索引擎爬虫,每隔几天