开源一个 python 脚本驱动的定向爬虫

2014-03-09 16:53:56 +08:00
 binux
python爬虫绝大多数都是定向抓取,并进行一定程度的结构化解析

这套爬虫设计采用python脚本驱动抓取动作,适用于各类页面(要实现通用爬虫也没问题)
经过实践证明好用的更新调度机制,以及灵活稳定的抓取环模型
辅以 WEB 化的脚本编写、调试、监控,看图你就懂了:



这套爬虫是我一年多前设计开发的,抓取200个站点,在至少2个商业环境中运行,现在在Apache协议下重写开源。希望能终结各种自己写python爬虫的必要。

github项目: https://github.com/binux/pyspider
快速开始: https://github.com/binux/pyspider/wiki/Quickstart
其他更详细的文档: https://github.com/binux/pyspider/wiki
16084 次点击
所在节点    分享创造
55 条回复
chau
2014-03-18 11:06:22 +08:00
@binux sudo pip install -r requirements.txt 这句的时候 SLLError:The read operation timed out
binux
2014-03-18 11:08:26 +08:00
@chau 网络问题,试试aliyun的镜像 http://mirrors.aliyun.com/help/pypi
chau
2014-03-18 11:55:39 +08:00
@binux 小白一名,求详细步骤
binux
2014-03-18 12:32:24 +08:00
@chau help/pypi 不就是详细步骤吗?
chau
2014-03-18 13:43:13 +08:00
@binux ~/.pip/pip.conf 目录下面没有这个文件......
binux
2014-03-18 14:05:36 +08:00
@chau 创建一个
myAngel
2014-03-23 23:03:12 +08:00
有一个网站,需要帮个忙。马化腾:156224301
tobyzhong
2014-03-24 22:36:49 +08:00
http://v2ex.com/t/104723#reply21 求高人给点提示
guotie
2014-03-26 10:34:29 +08:00
学习一下
sgissb1
2014-06-02 13:35:01 +08:00
小哥,我真心想了解你的爬虫,别这样~~~~我很伤心的
sgissb1
2014-06-02 13:38:37 +08:00
在这里给你说了,其实我不想搞爬虫这块的学习。我倒是想通过爬虫弄点素材,来研究研究,是这样的。

我主要是为了拿到页面然后分析。手动去搞主要是不懂web开发,另外我需要的样本很多,手工。。。你懂的
chuangbo
2014-07-17 18:18:47 +08:00
实在是太好用了
Lycnir
2014-12-03 17:42:27 +08:00
赞一个
wico77
2016-01-25 16:19:06 +08:00
@binux 我安装后怎么 web 调试功能出不来?
commoccoom
2016-02-16 22:37:31 +08:00
@binux 请问 怎吗删除已经创建了的 project 我是在本地运行的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/103525

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX