求一款 Mac 或 Win 上,抓取 html 爬虫 down 到本地的软件

2016-04-27 11:27:32 +08:00
 pr2b

看了大多数爬虫,都是 java 的。

现在需求时,希望能在本地运行的。最好是 Mac ,不行就 win ,再不行就 php 吧

直接把 h   tml 全部 down 下来就行。自动按照正则去爬

3593 次点击
所在节点    程序员
14 条回复
13348859836
2016-04-27 12:22:59 +08:00
python 的爬虫框架多 随便找一个吧
zhouxuchen
2016-04-27 12:50:50 +08:00
life is short, you need pyquery
xiamx
2016-04-27 13:30:05 +08:00
html is context free grammar btw
jnduan
2016-04-27 15:09:36 +08:00
java 的就不能本地运行了?

那你用 Offline Explorer 吧
sadhen
2016-04-27 15:35:59 +08:00
不太理解楼主的需求

貌似是把 HTML 全部下载到本地后,再在没有网络环境的情况下抓取信息 是么?

还是普通的爬虫框架?
pr2b
2016-04-27 15:50:30 +08:00
@sadhen 是按照正则顺序爬,然后把 html 都 down 到本地。

正在研究火车头🚄 ,就是保存 html 的一步 还没有成功

@jnduan 的浏览器,没找到在哪里写网址规则。
cxbig
2016-04-27 15:57:08 +08:00
php/ruby/python 随便哪个语言都可以,手写一个百来行。
SCaffrey
2016-04-27 16:06:04 +08:00
nodejs/python
Tink
2016-04-27 16:06:42 +08:00
这个貌似叫离线浏览器?
wmhx
2016-04-27 16:39:43 +08:00
wget 啊, 一丢丢的
qq839994901
2016-04-27 18:44:59 +08:00
scrapy
Ouyangan
2016-04-27 18:55:58 +08:00
java 不能本地么......
break
2016-04-27 19:12:28 +08:00
都是 html 的话, wget 就可以了, wget 的镜像复制命令
imn1
2016-04-27 19:19:33 +08:00
爬虫很多,能用正则的不多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/274735

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX