刚买了阿里云服务器,如果要部署爬虫,需要装哪些?( 服务器小白一枚 )

2020-09-28 10:55:22 +08:00
 Colorful

今天刚买了阿里云的服务器,是 Linux 系统

现在的需求是想把自己电脑上的爬虫功能部署到服务器上,然后定时爬取数据

所以想请教下,我需要装哪些? 我只知道要装 python,其它的就不太清楚

希望有大神能够指教一下 说的越详细越好。 我可以自己去找资料,然后看下怎么弄、

4170 次点击
所在节点    服务器
18 条回复
cccp2020
2020-09-28 10:59:33 +08:00
一个爬虫脚本 xxx.py
然后爬下来的数据放到哪里? -- 可能需要 mysql 或者其他数据库
然后定时任务调用脚本就行

以后是否需要监控一类的,根据业务发展在看吧
cherbim
2020-09-28 11:00:32 +08:00
我有个问题啊?你买的带宽不会是 1M 的吧?
cherbim
2020-09-28 11:07:19 +08:00
@cherbim 补充一点,一般需要 python3 和 pip3 就行(系统自带的 python2.7,你需要自己安装 python3 和程序依赖的库),其他的没啥了,你电脑上怎么用,服务器上就怎么用,毕竟 python 可以跨平台使用,对了,下载路径要改一下,改成 linux 格式的
定时的话你需要了解一下 crontab
lower
2020-09-28 11:09:13 +08:00
那你干嘛不买个 win 系统的主机?
wzzzx
2020-09-28 11:26:45 +08:00
你自己开发的电脑是怎样的,就弄成怎样的呗
Atukey
2020-09-28 11:29:16 +08:00
装上 python 然后用 linux 自带的定时任务就行了
服务器跑爬虫如果被封 IP 就很难受
heiheidewo
2020-09-28 11:34:18 +08:00
记住爬数据的时候别爬太快了。谁爬我的数据爬快了就直接投毒
Colorful
2020-09-28 12:35:26 +08:00
@cherbim 好像是 1M 的,最便宜的那种
Colorful
2020-09-28 12:36:29 +08:00
@cccp2020 监控,暂时不加了,毕竟我是小白一枚,越简单越好。
爬下来的数据,放到 mysql 库里面
antic
2020-09-28 12:57:24 +08:00
@Colorful 那就装个 mysql 配置下
herozzm
2020-09-28 12:58:40 +08:00
ip 库要到位,坐牢的心态也要摆正
Colorful
2020-09-28 13:34:08 +08:00
@herozzm 我又不爬敏感信息
juziss
2020-09-29 09:41:50 +08:00
IP 长时间访问时有可能会被封的,跟敏不敏感数据没关系。有些可能会直接把云服务器的 IP 给封了,这情况你怎么处理,还有我估计你的云服务器也没多贵,你的容量估计不乐观,你考虑存储的问题吗?
wjx0912
2020-09-29 14:34:19 +08:00
scrapy
Colorful
2020-09-29 14:38:36 +08:00
@juziss 没想过那么多了。因为我对服务器这块完全是小白
Aliyun0813
2020-10-10 13:56:29 +08:00
需要阿里云联系我呀,给你惊喜,一 66 二 333 二 666 一
yingfengi
2020-10-11 10:29:47 +08:00
@Aliyun0813 续费有优惠吗
idtaanlcoe
2020-10-12 09:25:59 +08:00
vpsur 点康姆

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/711179

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX