分享一个有趣的小发现

2016-04-20 02:03:33 +08:00
 SlipStupig
只要在 github 搜索 spider 、 crawler 、 scrapy 、 scrapper 等一些跟数据抓取相关的项目基本上都是中国人写的,好像国内对数据抓取都特别狂热,特别 python 都已经变成了爬虫工具了,跟一些不了解 python 的朋友说 python ,一些朋友反映就是写爬虫的那个工具是吧!
6248 次点击
所在节点    程序员
34 条回复
loading
2016-04-20 04:55:11 +08:00
楼主,听说过版权吗?
markocen
2016-04-20 05:24:35 +08:00
这是为什么呢
hansnow
2016-04-20 07:39:37 +08:00
因为国内很多做数据科学方面的人(尤其是学生)很喜欢用吧,大多数人学完 Python 的基本语法之后干的第一件事儿就是写个爬虫
murmur
2016-04-20 07:46:33 +08:00
nutch 是啥东西呢?
于是说版权 国内研究 到不说国内看不起 java 的多吧?
aksoft
2016-04-20 08:19:43 +08:00
只能说明大部分人在追风,看书,没有创新能力
murmur
2016-04-20 08:21:41 +08:00
scrapy 这个怎么看也不像国人做的项目。。
mkeith
2016-04-20 08:28:46 +08:00
这也能扯到国内国外啊...
hechaqu
2016-04-20 09:19:10 +08:00
那这说明什么呢?
Mark24
2016-04-20 09:26:11 +08:00
大部分的入门教程都是以爬虫吸引眼球的
dibage
2016-04-20 09:30:49 +08:00
怎么说呢,国内用 py 的大部分分为两种:写正常脚本的,如机器学习、网站建设;写黑客脚本的,如扫描、爬虫。。当然,后者比较容易入门
hxndg
2016-04-20 11:15:36 +08:00
我感觉是主要是因为 python 写的很快。。。。
虽然我也在学 c++,但是直接上手用 c++写爬虫还是挺难的。。。。毕竟我夹生。。。
Wangxf
2016-04-20 11:22:57 +08:00
爬虫很容易获得成就感,就跟第一次接触到前端的人一样,而且在外人看来也很装逼,“爬虫”一词让外行不明觉厉
Surfer
2016-04-20 11:43:36 +08:00
@markocen 喜欢这个像素头像!
SlipStupig
2016-04-20 12:28:49 +08:00
@murmur 我说的是基本,代表很多,而不是全部,你非要找出例外出来,我只能告诉你里面还有事基于其中还有很大一部分是基于 scrapy 开发的,你可以继续找例外出来
menc
2016-04-20 12:38:45 +08:00
@SlipStupig 你这个有偏颇啊
最大的爬虫项目 scrapy 是外国人写的
外国人还不满足,成立了一个爬虫项目的联盟叫 scraping hub ,你可以看看,很多 python 下名气很大的爬虫框架加入。
外国人还专门写书, Oreilly 的新书 web scraping with python 可以看看,各种爬虫的奇淫巧计都有,甚至还包括了用 nlp 领域的知识来做更厉害的爬虫。
allan888
2016-04-20 12:50:09 +08:00
@SlipStupig 你看到了表面而已。
事实是数据大家都需要,不存在国内就更狂热。
只是国外的大网站 API 更开放,又或者有些网站提供数据直接下载,没必要自己爬而已。
在深层次就是国外开放了也没人能超过你,国内公司危机意识强点。
非要说国别的区别的话,我感觉国内那种看见点表面就扯国别的人要比国外多倒是真的。
@hansnow 你对比过?你可以去 kaggle 看看国外是不是也用 Python 。
murmur
2016-04-20 13:58:12 +08:00
@SlipStupig 万物基于米 ui 开发 所以是中国人搞的多
yangzj1992
2016-04-20 14:03:11 +08:00
我也认为国外公司 API 确实更开放是一个原因
zonghua
2016-04-20 14:36:29 +08:00
Python 的编码这么痛心,真不知道你们是怎么处理的。
sensui7
2016-04-20 15:12:18 +08:00
其实我早就发现国内网上很多 php, python 爬虫的文章, 而英文资料就没有这么多.
举个例子, 很多新手, 想做点东西, 往往会爬豆瓣, 虾米这类的站点玩玩. 你说他有需求吗? 有啥需求, 就是玩玩. 玩什么不行, 但是可能爬取别人数据这样有意思.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/272416

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX