用 go 写了一个知乎专栏爬虫

2019-01-03 22:53:48 +08:00
 songjiaxin2008

地址 https://github.com/solarhell/ZhihuZhuanlanCrawler

效果大概是这样 https://github.com/solarhell/ZhihuZhuanlanCrawler/blob/master/misc/screenshot1.png?raw=true

httpClient 的代码来自 https://github.com/mozillazg/go-cos/blob/master/debug/http.go 感谢🙏

另外基础库的 http client 挺难用的, 希望新的提案能给力。

3497 次点击
所在节点    Go 编程语言
5 条回复
pathbox
2019-01-03 22:56:46 +08:00
不会被封 IP 么?
songjiaxin2008
2019-01-03 23:00:52 +08:00
@pathbox #1 暂时还没有 可能我这里发出去的请求不是非常大 都是半夜定时爬取的 如果量特别大 可以考虑多个机器发请求 持久化到 MQ 或者什么地方 做成分布式的
FindHao
2019-01-03 23:13:59 +08:00
不是因为爬虫才抓紧去一个吗👀
feiyipro
2019-01-04 12:04:33 +08:00
需要 IP 资源的话可以找我,小量我们免费提供,就当测试了(利益相关:飞蚁代理)
yepinf
2019-05-07 18:54:42 +08:00
@feiyipro 怎么联系,老哥来个微信

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/523650

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX