我有个紧急的一次性扫描项目需要外包,有人可以接私活吗?项目需求很紧,工作量不大。

2018-04-22 11:11:39 +08:00
 inksong

我有 3500 个网站的顶级域名,现在需要获取每个 website 内的全部子 url,并爬取子 url 内的 html 文字信息。

举例来说,以 www.giftofwings.com 为例子: 得到一堆类似于 http://www.giftofwings.com/cgi-bin/SoftCart.exe/cam.html?L+mystore1+bkcm8438ffb2f5b2+1507421651 http://giftofwings.com/specials.html 的 url,注意这里不要.js 和.css 等,只要页面。 拿到这个 list 后在做一个简单的 html 爬取,最后提交的是这些 html 的源码,只要文字信息,不爬任何多媒体,所以应该比较快。

详讯麻花腾:腰腰霸腰霸叁叁玲叁伍 null。

6735 次点击
所在节点    Python
22 条回复
PythonAnswer
2018-04-23 09:24:45 +08:00
看来要价不能超过 200
winglight2016
2018-04-23 18:50:18 +08:00
@Leigg 很正常了,之前也是碰到一单,同样是爬网站,报价 500,我说我这里是现成的代码,还带个 GUI 管理界面,2k,然后就没消息了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/448842

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX