scrapy 这个爬虫框架 有什么快速上手的方法么 适合 Python 新手么

2017-08-03 20:12:13 +08:00
 glouhao

装了个这个框架,WIN10 上花了我 1 个多小时真麻烦,晚上在研究。 我有个疑问,如果抓取些比较简单的东西,会不会是脱裤子放屁了? 再一个,phython 语法还么看完,php 也是搞下逻辑处理,调用,是不是很难上手?

4106 次点击
所在节点    Python
17 条回复
cdwyd
2017-08-03 20:41:06 +08:00
requests 能满足大多数个人需求
mmixxia
2017-08-03 20:56:47 +08:00
既然用 php,那就用 php 自带 curl 就好啦
Hstar
2017-08-03 21:05:40 +08:00
赞同楼上意见, 用 requests 就好了. 如果你不知道一个东西有什么用, 那么说明你不需要它.
wellsc
2017-08-03 21:07:56 +08:00
这框架就是给新手用的
glouhao
2017-08-03 21:17:26 +08:00
你们众说纷纭 我只是不知道哪个框架更好入手
lxml
2017-08-03 21:26:47 +08:00
scapy 是速度快,然后会自动处理容错等一系列特性,如果你只抓取很少很少信息的话,建议你去浏览器上用开发者工具获取到 curl。

然后 去这个网站,直接把 curl 输入进去 https://curl.trillworks.com/#python,可以自动替你生成 Python 代码,把 cookie url header 什么都弄好了,你稍微再改改,加加循环什么的大概就能用了。

当然,如果你对 PHP 更熟悉的话,往下看,有选项也可以生成 PHP 的代码。
Ehco1996
2017-08-03 22:51:41 +08:00
我在知乎写了一个爬虫入门专栏
有那么三四篇文章是是说 scrapy 的基础用法的

有兴趣的话可以看看

http://zhuanlan.zhihu.com/Ehco-python
inflationaaron
2017-08-04 01:59:17 +08:00
scrapy 用了不少 Python 的高级特性,如果不了解的话很容易踩坑。先熟悉 requests 吧
OldPanda
2017-08-04 06:02:10 +08:00
chengxiao
2017-08-04 07:08:20 +08:00
我之前也跟楼主状态差不多,scrapy 上手还是比较快的,只抓简单的网站就是熟悉下 xpath/css 选择器这些东西和 pipeline 处理流程 还有就是数据库的存写 就能抓很多网站了
slideclick
2017-08-04 07:31:33 +08:00
@lxml
860670496
2017-08-04 08:52:17 +08:00
@wellsc #4 不能更同意
scrapy 比自己从头造轮子方便多了,就是要理解几个概念和他的工作流程,剩下的基本就是写 xpath 和改参数,好些 class 你自己 override 一下后写别的爬虫也能复用
真要出现了新手解决不了的问题,也有各种 middleware 给你折腾,比如换头换代理什么的
xylsmmmmmmmm3
2017-08-04 09:34:26 +08:00
如果自己不太用,就偶尔用一次建议自己造轮子。如果大于三次使用爬虫,建议好好学习下框架。看着官方文档走把。
superlead
2017-08-04 17:28:52 +08:00
简单的 没必要用这框架了
Miy4mori
2017-08-05 00:54:10 +08:00
这框架适合新手,有编程基础一会儿就能抓网站了。
hcnhcn012
2017-08-05 10:29:40 +08:00
看官方文档啊,讲的蛮详细的,基础(spider,selector,item,itemloader & processor,pipeline,settings,request & response)搞清楚就可以写简单的爬虫啦,更客制化一些就去看他的 api 和各种中间件
hcnhcn012
2017-08-05 10:31:32 +08:00
如果对 python 还不够熟悉,那就 php 吧,要大致上理解 scrapy 还是要扎实 python 基础的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/380239

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX