大家如何看待爬虫和爬虫教程近日被推到风口浪尖这种现象?

2017-04-18 22:54:50 +08:00
 Miksztowi

最近发现关于爬虫的教程和实战如雨后春笋一样疯狂涌现。但据我了解,首先爬虫这个技术是几年前甚至更早以前就已经出现了,而且爬虫本身的技术天花板并没有多高把,但是为何最近开始这么热门? 同时又有一些技术大 V 的回答和专栏中对爬虫的评价并不友好,是厌恶爬虫还是厌恶这种技术被捧到风口浪尖? 题主也有过一些简单操作爬虫的经验,看到爬虫在风口浪尖上,想到这样的行为会不会使互联网公司开始加大反爬虫的力度,有没有可能做到彻底的禁止爬虫行为呢? 希望大家可以不吝赐教,非常感谢。

7328 次点击
所在节点    Python
43 条回复
renyijiu
2017-04-19 08:39:37 +08:00
个人觉得教程是一件好事,对于我这种新手是一个吸引和引导,
但是这个好多都是什么爬妹子图教程就很尴尬, 23333
est
2017-04-19 09:13:23 +08:00
所以现在市面上有 websockets/SSE/http2 的爬虫了吗?
murmur
2017-04-19 09:22:24 +08:00
@Miksztowi 不让用 headless 用真的浏览器+selenium 能搞定不。。
yanzixuan
2017-04-19 09:24:35 +08:00
@gouchaoer 请教一下,遇到变态验证码你们是用打码平台还是自己搞智能识别。
如果自己搞智能识别,爬虫还要涵盖机器学习和人工神经网络了。
yohole
2017-04-19 09:25:31 +08:00
爬虫是一个技术工具,关键是爬虫背后的业务是否畸形,包括盗版、版权、知识、道德等一系列问题
yanzixuan
2017-04-19 09:26:28 +08:00
@murmur 效率不行。你爬少量数据还行,要是要求高并发高速爬就堪忧了。
dsg001
2017-04-19 09:41:39 +08:00
爬虫门槛低,又能扯上大数据,有有噱头,各种自媒体都可以快速上手忽悠
chenwen
2017-04-19 09:45:40 +08:00
大部分只是个入门,真的没啥
gamecreating
2017-04-19 10:01:40 +08:00
python 唯一优势 是它开发快......遁
shiina
2017-04-19 10:14:21 +08:00
以前有人说, 他们写的根本不是爬虫, 顶多就是个网页下载器
usenix
2017-04-19 10:22:56 +08:00
@binux 说的在理,其实我也做过配模版的活(逃
linzhi
2017-04-19 10:49:45 +08:00
感觉每年都有很多教程 这块适合学习 最近也在写着玩
nomemo
2017-04-19 11:27:33 +08:00
爬虫后面的数据处理与应用更有意思..
brucedone
2017-04-19 11:57:57 +08:00
===足够的吸引力===
拿别人的代码跑一下,就可以拿到种子,妹子图,或者生成标准的 excel ,你说对于一个从来没有接触过编程语言的人,够不够吸引力呢?我想大多数刚接触语言的人应该都不会拒绝吧,特别是非科班出身的人

===数据时代的兴起===
目前的噱头,都天天喊着大数据,有些公司或者企业,本身不生产数据,那怎么办呢?买数据,或者爬数据,这点对于“爬虫”这个行业的兴起是密不可分的

===入门容易深入难===
懂一般的 http 请求,了解 xpath ,正则,玩一两个框架,就可以定制一些数据了,那真这么简单吗?当然不是,你玩爬虫你得知道别人反爬虫的常用技巧吧, js 渲染, api 加密,封 IP ,出验证码,还有你的数据层面的存储,清洗,爬虫的整体执行效率,每一个细节都可以延伸的技术细节,所以你入门是容易的,但是想要精进,是需要花时间的

===乱象===
现在网上对于爬虫的需求是饱和或者上升的,但是舆论风气很不好,贴一两段代码,然后取个什么标题,他们从来不会跟你讲 html dom 元素, javascript ,http 请求这些基本的理论知识,更别谈数据库,语言的基础知识了,只要你会用,这点我看来不怎么好
Tunar
2017-04-19 12:02:26 +08:00
搞得现在小学生那样的都能写个爬虫然后给自己贴上一个 py 工程师的标签。。这东西还得结合数据挖掘神马的才能上一个台阶,和自我感觉良好的小学生拉开距离
oyosc
2017-04-19 12:29:36 +08:00
不好意思说话了,前不久我领导就让我去爬豆瓣所有的电影跟微博的数据,用来进行机器学习...
exoticknight
2017-04-19 12:35:48 +08:00
三四月爬虫,哈哈
不过又是圈粉圈钱的又一个手段罢了
Miksztowi
2017-04-19 12:53:10 +08:00
@actto 大数据分析所用的数据爬虫爬来的可以用吗?我觉得爬虫爬到的有价值的数据很少啊
Miksztowi
2017-04-19 12:53:39 +08:00
@oyosc 爬虫爬到的数据可以机器学习吗?
duan602728596
2017-04-19 13:19:37 +08:00
反正最近写了个工具,主要是爬某团体的网站,获取地址,下载视频流.......

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/355750

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX