文科生坐拥 20 台高配服务器,该怎么好好利用?

2020-01-13 21:14:05 +08:00
 leoballacl

有点标题党了,事实是这样的,我正在某学校文科学院担任研究助理。大数据的火热让不少文科专业也开始跟风,我所在的实验室的设备确实给力,20 台服务器,每台服务器有 256G 内存,4T 固态硬盘存储。

然而管实验室的老师是文科出生,Linux,Python, Spark, Hadoop 等都只是了解功能,技术细节并不懂。我们实验室之前有另外一名专职的科研助理,他统计学背景的,爬虫做得不错,服务器在跑的几个爬虫任务都是他一手搭建的。不过最近他离职了(毕竟 IT 公司给的薪资比学校高多了),爬虫的任务时不时出现问题还要找他远程帮忙解决。

前段时间我们的服务器被学校的网络中心检测到有僵尸网络入侵,我们找供应商帮忙看是什么原因。搞了半天最后也只能“治标不治本”地进行 IP 封锁而已。

杂七杂八地说那么多,我也不知道我想说什么,我只是觉得好暴殄天物啊,200 万的机器,监测环境没有,用户管理一团糟。数据分析现在我们用单机就能暂时解决了,分布式系统都没怎么利用。

我好愧疚啊,毕竟这些机器都是国家掏的钱,并不能做到物尽其用。听说今年还有一百万的经费下来,要购置一批 GPU 服务器。

各位 V 友对我有什么建议吗?我也是纯文科生,熟练使用 R 语言,Python 入门。我应该怎样做才能提高这些服务器的利用效果,例如我们的服务器需要装什么东西好让服务器运转地更合理科学?我应该努力学习哪些方面的知识?多说一句,我的研究方向是计算社会科学。

我现在用着实验室内存 500G,价格 20 万的工作站发帖,感觉硬件条件好到让我这小白好惭愧。

11014 次点击
所在节点    服务器
51 条回复
eason1874
2020-01-14 04:04:29 +08:00
实在闲置得多可以跟校内一些有交叉的学科团队合作,你们提供服务器,也参与他们的项目,共同维护,既能学习又能把闲置资源用起来。

如果虚拟系统不会搞,怕影响实验室内部,可以干脆物理隔绝,直接拔线,划出几台提供外部服务,搞多一台专用路由接入。
leoballacl
2020-01-14 05:53:44 +08:00
@WittBulter 具体用什么系统能具体说说吗?如果我没有能力维护,但是这些东西又是很重要的,我可以请老师让专业的人来做。
leoballacl
2020-01-14 06:08:41 +08:00
@noqwerty 可能是文科院系有点跟风搞大数据吧,刚好学院有钱,老师也做了一些大数据研究(就是爬虫获得的数据量大了点,分析上也没什么特别的),然后学院就高薪并承诺给实验室为诱饵挖了老师过来。目前的研究只有爬虫一些数据,并可视化展示。多说一句,我们的爬虫和存储是分布式的,但是分析只用了单机的 Pyspark 和 Hive。供应商搭好了 Spark 集群环境,pyspark 集群却搞不好,有没有大神给点意见 pyspark 集群搭不上来问题出在哪?。
hinate
2020-01-14 07:22:56 +08:00
那就做开源镜像吧,还能组织一个小组。相同爱好的人一起学习。😶😶
breaker911
2020-01-14 08:15:01 +08:00
文学院。。。学一学 python 和 nlp 的原理 自己折腾着玩 爬虫会了去看看搜索引擎原理做着玩? 反正你又不能商用 合作还要上面审批 只能自己拿着玩了
nodin
2020-01-14 08:32:58 +08:00
这是学校太有钱了,瞎折腾啊,文学院搞这么牛逼的服务器,弄起来搭小说站。
Niphor
2020-01-14 08:49:55 +08:00
挖矿相对合理,赶紧催一下把 GPU 落实了
vakara
2020-01-14 09:08:50 +08:00
@leoballacl 可以用 esxi 虚拟化成集群,再给别人个子账号。
Kelan
2020-01-14 09:11:07 +08:00
阅读理解有问题啊,说是文科院系,一群看成文学、文学院的
yhxx
2020-01-14 09:42:42 +08:00
学校内部问问看?同学们应该有很多想法的

比如搭个这种东西造福同学? https://mirrors.zju.edu.cn/
Kirscheis
2020-01-14 10:57:45 +08:00
20 个普通胖节点而已,楼主放心慢慢玩,好点的学校计算资源浪费很正常,关键是用到的时候能快速跑完别耽误事。平常你以为是闲置浪费资源,但是这些余量实际上就是研究成本的一部分,你做些没用的计算还浪费电呢。

但楼主千万别搞什么挖矿出租虚拟机这种,否则一被举报立马翻车,学校网管和基金委也不是傻子。自己跑点渲染任务啥的玩玩就行了。另外你是文科的话可以试试自己搭搜索引擎玩,我之前把某国内数据库老书的扫描版全部做了 ocr 然后做索引,就是用十来个 tesla p100 gpu 节点闲时算的,足够算好几个月

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/637623

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX