你们都用什么来做爬虫的

2013-03-12 09:18:53 +08:00
 xdeng
你们都用什么语言来做爬虫的,有什么好的介绍。。。
18042 次点击
所在节点    程序员
48 条回复
atom
2013-03-12 23:34:32 +08:00
@twm
@colincat
同为javaer,能否推荐下是哪个库?
sohoer
2013-03-13 00:38:28 +08:00
@atom
JAVA?
HttpURLConnection + Regex = Spider
Linxing
2013-03-13 01:23:03 +08:00
python beautifulsoup urlib爬文章
liuxurong
2013-03-13 01:55:37 +08:00
@for4 谢谢。有没有celery的中文资料
crazybubble
2013-03-13 04:34:27 +08:00
@atom 用regex来做html parsing不推荐,我推荐用jsoup。
colincat
2013-03-13 08:03:06 +08:00
@sohoer htmlparse httpclient
workaholic
2013-03-13 08:04:13 +08:00
php+snoopy
akalanala
2013-03-13 08:48:24 +08:00
@crazybubble 同推荐.
binux
2013-03-13 09:21:19 +08:00
python + tornado AsyncHTTPClient + PyQuery
sonicwu
2013-03-13 09:24:32 +08:00
Java
+ jsoup

Python
+ Beautiful Soup
+ urllib
+ lxml
dingyaguang117
2013-03-13 10:05:15 +08:00
Python
+ Beautiful Soup
+ lxml
+ Scrapy
atom
2013-03-13 13:59:52 +08:00
@crazybubble
是个很棒的库,看到 http://try.jsoup.org/ 我就喜欢上它了
zoran
2013-03-14 13:12:55 +08:00
Java 可以试试这个 https://github.com/zhuoran/crawler4j
yangxin0
2013-03-14 13:42:31 +08:00
看过别人用C
Xrong
2013-03-14 18:43:04 +08:00
希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
zdwalter
2013-03-15 16:21:50 +08:00
phantomjs, casperjs
zhouquanbest
2013-03-16 18:17:38 +08:00
python + pyquery 是个好东西
会jquery就能写
nojt7Zm
2013-03-17 21:51:02 +08:00
php
kingwkb
2013-03-17 21:58:54 +08:00
之前用python,现在换到ruby

http://s.yanghao.org/
gameending
2013-03-17 22:09:33 +08:00
python跟java都写过,python很简洁,java的话我觉得也还不错

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/62657

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX