分享一个有趣的小发现

2016-04-20 02:03:33 +08:00
 SlipStupig
只要在 github 搜索 spider 、 crawler 、 scrapy 、 scrapper 等一些跟数据抓取相关的项目基本上都是中国人写的,好像国内对数据抓取都特别狂热,特别 python 都已经变成了爬虫工具了,跟一些不了解 python 的朋友说 python ,一些朋友反映就是写爬虫的那个工具是吧!
6260 次点击
所在节点    程序员
34 条回复
fifuygg
2016-04-20 16:04:35 +08:00
@zonghua python3 + ubuntu 没有遇到过编码问题了

就像你第一个 web 应用基本都是 博客 而不是 商城 一样
wy315700
2016-04-20 16:42:22 +08:00
国外版权管的紧,
爬数据理论上是侵犯版权的事情。
yumijie
2016-04-20 17:03:43 +08:00
国外(西方发达国家)扒别人的数据要负法律责任的概率远远大于国内吧,而且惩罚很重.国内?国内大企业带头盗窃数据!要不那么多手机短信垃圾什么的怎么来的?
penjianfeng
2016-04-20 19:22:41 +08:00
我想起了开源中国的红薯之前收到过一个老外的邮件:说他想抓取一下开源中国的数据,然后还问他数据结构还是什么来着-_-||
SlipStupig
2016-04-20 20:37:52 +08:00
@yumijie 很多都是你自己留下的
kirisetsz
2016-04-21 00:38:58 +08:00
@zonghua 没有 HTTP Header 没有 <meta/> 还有 chardet 呀 (笑)

@loading @wy315700 @yumijie 搜索引擎爬取页面算不算侵犯版权呢 (笑)

爬虫框架很 OK 啊,永远不嫌少,语法越甜越好。小爬虫外国人写的也多,只是不放到 GitHub 上罢了 curl awk sed 解决的事情为什么用 Python 然后放到 GitHub 上去呢?
wy315700
2016-04-21 00:45:00 +08:00
@kirisetsz 搜索引擎只能爬公开内容吧,你看 facebook 里面的内容哪个搜索引擎能搜到
Slienc7
2016-04-21 01:37:32 +08:00
@kirisetsz 有可能算,比如 360 被告过不遵守 robots.txt ,当然这个问题不在爬取阶段。
针对某一站点爬取频率过高完全可以看作攻击,这种情况可以起诉。
dapang1221
2016-04-21 02:20:49 +08:00
学会 Python 后第一件事准是写爬虫,写爬虫爬的第一个网站准是豆瓣……这都是套路(笑)
kirisetsz
2016-04-21 09:27:56 +08:00
@wy315700 @Slienc7 所以只要遵守 robot 就可以了,不过我不认为这是楼主想谈论的问题,爬虫为什么国人的多这个原因不应该扯上版权问题…
wy315700
2016-04-21 09:52:58 +08:00
@kirisetsz 不就是喜欢爬别人数据然后自己做个站吗,或者是爬别人数据做分析
Slienc7
2016-04-21 10:38:30 +08:00
@kirisetsz 我很少见到有私人爬虫遵守 Robots.txt 的。某些不可直接被索引的页面,网站所有人可能默认不会被爬取,因为正常搜索引擎爬虫不会这么做,但是私人爬虫爬取往往会针对某一网站进行不友善的抓取,例如注册大量账号,使用大量代理 IP ,还有部分可能会先在某网站为账号购买收费服务,然后再抓取某些不应被抓取的部分,这可能就会侵犯权利人权利了。
爬虫的泛滥客观上简化了许多所谓个人站长盗版其他网站的过程,这个应该是主要的潜在版权问题。
jy02201949
2016-04-21 11:00:51 +08:00
就跟很多学完 php 用来撸博客一样
1 、不仅有现成的轮子,也有从零教你 XXX 的教程,容易上手
2 、撸的过程中能学到很多其他的东西,博客要怎么部署到 vps 上,爬虫怎么构造请求怎么识别验证码等等
3 、有实用性,弄完可以自己用,写博客、爬小说漫画
jy02201949
2016-04-21 11:02:07 +08:00
。。。本来想回复某一层的,结果忘记 @了,导致回复文不对题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/272416

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX