Macos 上有没有好用的图形化采集工具/爬虫

2020 年 4 月 15 日
 c0py7hat
临时需要爬点东西,python 懂得很少很少,因为不怎么用到爬虫之类的

临时需要爬取点东西,直接就是保存当前页面源码为 html 格式到本地就行

我看火车头没有 mac 版本,后羿那玩意也得需要 py 还要钱,我的量比较大

大概百万以上

有么有大佬推荐下
3503 次点击
所在节点    程序员
27 条回复
airfling
2020 年 4 月 15 日
idm 你找下
c0py7hat
2020 年 4 月 15 日
@airfling 。。idm 也能爬取东西?
neoblackcap
2020 年 4 月 15 日
要不报个价?免费大概满足不了你,毕竟你都上百万了
ostrichb
2020 年 4 月 15 日
idm 不是 Windows only?
wolfan
2020 年 4 月 15 日
pySpider 应该符合你的要求,就是到高版本 Python 支持不好。
c0py7hat
2020 年 4 月 15 日
@wolfan 正在看
c0py7hat
2020 年 4 月 15 日
@neoblackcap 我不懂这个价格,你说,我自己瞎写了个 py 脚本,但是没多线程啥的 速度太慢了
Hansah
2020 年 4 月 15 日
虚拟机搭个 WIN7 ?
zdnyp
2020 年 4 月 15 日
上百万的数据,不知道用不用代-理,用代-理还要买。八爪鱼和弓箭手都有网页版的,就是你写规则,他来跑采集,量小貌似免费。
huruwo
2020 年 4 月 15 日
请个外包搞下 自己折腾时间成本太高了
c0py7hat
2020 年 4 月 15 日
@siknet 。。。吐血
c0py7hat
2020 年 4 月 15 日
@zdnyp 那估计不行 预计量 300w+
c0py7hat
2020 年 4 月 15 日
@huruwo 那估计不便宜。。
yinzhili
2020 年 4 月 15 日
你装个 Win10 不就完了吗
clemente0620
2020 年 4 月 15 日
报个价把
c0py7hat
2020 年 4 月 15 日
@clemente0620 我不懂这个,你说吧,加个多线程啥的 速度变快那种
also24
2020 年 4 月 15 日
wget -i url.txt 这样?
also24
2020 年 4 月 15 日
诶,没注意到还要多线程?
那就 aria2c --max-concurrent-downloads=10 --input-file=download-list.txt 这样?

如果还要套代理的话,买个隧道代理,自动切换多省心~
c0py7hat
2020 年 4 月 15 日
@also24 不是 我是自己瞎写了个 py 爬虫脚本,就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了 我不会弄那个什么多线程啥的
vhysug01
2020 年 4 月 15 日
scrapy 入门一个下午就行,简单无脑。高级的你这种情况也不需要

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/662622

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX