最近谈了一个外包的活,爬一个网站,大概 400 万网页, 1000 元少不少?

2019-03-30 23:14:24 +08:00
 dt2vba
网站没有防止爬取数据的措施。

客户要求,在他的 VPS 上安装 PostgreSQL,把爬取的数据存入该数据库。

VPS 的配置,1 个处理器,1024MiB 内存,20GiB 固态硬盘。这样的配置能应付 2 亿条记录的单表吗?

大佬们,说说你们的看法。非常期待你的建议。
5727 次点击
所在节点    外包
41 条回复
herozzm
2019-03-31 00:06:06 +08:00
四百万 碰上反派 ip 限制什么的你 1 万成本未必做的出来
,1000 简直和免费差不多吧,你还不如免费
10Buns
2019-03-31 00:08:43 +08:00
这个价钱不如直接免费落个人情😂
GM
2019-03-31 00:16:27 +08:00
少了,加个零还差不多。
但是如果真的是没反爬措施的话,那也没啥技术难度,就当赚点零花钱吧。
molvqingtai
2019-03-31 00:20:25 +08:00
同意二楼
persimmon
2019-03-31 00:24:59 +08:00
Charging depends on impact on client.
ghd700
2019-03-31 00:28:00 +08:00
没反扒,这跟捡钱没区别
opengps
2019-03-31 00:31:08 +08:00
电费够吗?
thulof
2019-03-31 02:09:14 +08:00
1000 太少了,想起了大学的时候缺钱,500 帮人爬过新浪微博,做的舆情分析系统,动用了 cookie 池,代理库,Redis 等,还是分布式的,自然语言处理,还有个管理的前端系统!总给才 500 !现在想想感觉自己好像是 sb,太单纯了
wenbinwu
2019-03-31 04:27:53 +08:00
我做过一个爬 6 个类似网站的,只爬两个关键字,几百条,第一版赚了一万
6260628
2019-03-31 04:36:52 +08:00
看你水平了
dangyuluo
2019-03-31 05:58:28 +08:00
@thulof 你学习到的技术远远超过 500,我觉得挺好的。
smallX
2019-03-31 07:14:18 +08:00
贱别人,贱己,贱行业...
dsg001
2019-03-31 07:42:39 +08:00
如果没有防爬措施,而且在对方 vps 上运行,爬虫也就是写写规则的事,1k 还能接受

至于数据单条数据 * 2 亿,恐怕怎么算硬盘都不够
loading
2019-03-31 08:07:15 +08:00
@wenbinwu 几百条,手工 CtrlCV 我都觉得赚!
murmur
2019-03-31 08:07:55 +08:00
2e 数据 1000 快 真便宜
kingfsen
2019-03-31 08:21:51 +08:00
至少 4000 才干
StarRED
2019-03-31 08:31:39 +08:00
软件工程师 和 硬件工程师 相比,软件开发在中国比较看轻
V2exUser
2019-03-31 08:34:06 +08:00
先看爬的东西是什么,违法不,不然
akrlab
2019-03-31 08:58:29 +08:00
如果没有反扒,有一说一,不费吹灰之力,这钱也就挣了。
不过,注意,1000 块现在能干毛线?连油钱都不够,还不如你免费做个人情,把对方变中介,以后有活让他推荐给你。
Deathminip
2019-03-31 09:24:19 +08:00
单核处理器? 带宽多少? 400 万页面,假如每个页面 2 秒钟处理速度,800 万秒 / 60 / 60 / 24 = ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/550383

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX