你们都用什么来做爬虫的

2013-03-12 09:18:53 +08:00
 xdeng
你们都用什么语言来做爬虫的,有什么好的介绍。。。
18024 次点击
所在节点    程序员
48 条回复
for4
2013-03-12 09:22:08 +08:00
Python
+requests
+lxml
+celery
xdeng
2013-03-12 09:31:03 +08:00
@for4 -.-! 要学这么多东西啊
for4
2013-03-12 09:36:30 +08:00
@xdeng
第一个是编程语言
后面三个是可能需要用到的库

这是我认为的写一个爬虫最简单易学的搭配
xieren58
2013-03-12 09:40:41 +08:00
Node + jquery
liuxurong
2013-03-12 09:41:46 +08:00
我是 requests + pyquery

另外
@for4 celery通常用来做什么
xdeng
2013-03-12 09:54:04 +08:00
@xieren58
@liuxurong 这个网站里的全都是 做网页的么
shinwood
2013-03-12 10:03:05 +08:00
试过python + Scrapy,感觉不错。

http://scrapy.org/
greatghoul
2013-03-12 10:13:34 +08:00
@shinwood 这个用起来的确骚爽。
colincat
2013-03-12 10:13:35 +08:00
java
for4
2013-03-12 10:14:06 +08:00
@liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑
wingoo
2013-03-12 10:53:32 +08:00
scrapy
twm
2013-03-12 10:55:26 +08:00
JAVA PHP
dulao5
2013-03-12 17:40:21 +08:00
PHP + curl_multi_*

不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。
xjay
2013-03-12 20:05:01 +08:00
scrapy
不解释
PrideChung
2013-03-12 20:09:22 +08:00
ruby+norogiri
http://nokogiri.org/
amxku
2013-03-12 20:30:18 +08:00
Python
+curl
+celery
1up
2013-03-12 20:36:18 +08:00
cloverstd
2013-03-12 21:14:19 +08:00
Python: urllib, urllib2, re
sobigfish
2013-03-12 22:18:01 +08:00
前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
cheerio很好用阿,完全是jQuery的语法。

require('http');require('cheerio');require('iconv').Iconv;require('mongodb');
chuck911
2013-03-12 22:34:53 +08:00
还有人写个爬虫还非要用芹菜...

Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/62657

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX