你们都用什么来做爬虫的

2013-03-12 09:18:53 +08:00

xdeng

你们都用什么语言来做爬虫的，有什么好的介绍。。。

18872 次点击

所在节点

程序员

48 条回复

for4

2013-03-12 09:22:08 +08:00

Python
+requests
+lxml
+celery

xdeng

2013-03-12 09:31:03 +08:00

@for4 -.-! 要学这么多东西啊

for4

2013-03-12 09:36:30 +08:00

@xdeng
第一个是编程语言
后面三个是可能需要用到的库

这是我认为的写一个爬虫最简单易学的搭配

xieren58

2013-03-12 09:40:41 +08:00

Node + jquery

liuxurong

2013-03-12 09:41:46 +08:00

我是 requests + pyquery

另外
@for4 celery通常用来做什么

xdeng

2013-03-12 09:54:04 +08:00

@xieren58
@liuxurong 这个网站里的全都是做网页的么

shinwood

2013-03-12 10:03:05 +08:00

试过python + Scrapy，感觉不错。

http://scrapy.org/

greatghoul

2013-03-12 10:13:34 +08:00

@shinwood 这个用起来的确骚爽。

colincat

2013-03-12 10:13:35 +08:00

java

for4

2013-03-12 10:14:06 +08:00

@liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑

wingoo

2013-03-12 10:53:32 +08:00

scrapy

twm

2013-03-12 10:55:26 +08:00

JAVA PHP

dulao5

2013-03-12 17:40:21 +08:00

PHP + curl_multi_*

不过以后应该尝试nodejs了，并发容易实现，解析页面里的js更有优势。

xjay

2013-03-12 20:05:01 +08:00

scrapy
不解释

PrideChung

2013-03-12 20:09:22 +08:00

ruby+norogiri
http://nokogiri.org/

amxku

2013-03-12 20:30:18 +08:00

Python
+curl
+celery

1up

2013-03-12 20:36:18 +08:00

http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python

cloverstd

2013-03-12 21:14:19 +08:00

Python: urllib, urllib2, re

run2

2013-03-12 22:18:01 +08:00

前几天用nodejs写个玩，但不知道怎么部署在只有web服务的 PaaS上－，－
cheerio很好用阿，完全是jQuery的语法。

require('http');require('cheerio');require('iconv').Iconv;require('mongodb');

chuck911

2013-03-12 22:34:53 +08:00

还有人写个爬虫还非要用芹菜...

Scrapy爽是因为它基于事件驱动的Twisted，我以前也很爱Scrapy，后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/62657

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.