首页   注册   登录
 haishiwuyuehao 最近的时间轴更新
haishiwuyuehao

haishiwuyuehao

V2EX 第 441064 号会员,加入于 2019-09-12 23:46:36 +08:00
haishiwuyuehao 最近回复了
9 天前
回复了 yafoo 创建的主题 程序员 现在 MVC 架构过时了吗?
有比 mvc 更好的架构吗?看业务看场景
mvc 过时了吗?如果说不适应市场就是“过时”。那么 mvc 绝不过时
加油,!
@Aliberter 你说的还是有点....
我给个思路试试。开启 N 个线程,每个线程分一批文件读取,写入到数据库。结果也写入到数据库。所有文件处理完成再从数据库读取结果返回给系统 a。
大批量任务数据。这里的“任务”具体指什么?
跑的任务越多资源的消耗越多。希望通过“消耗更多的资源” 换取更多的“任务”处理速度?
服务器资源。具体有什么?几核?可用内存是多少?支持其它程序吗,还是只支持 java ?

楼主的意思大概是这样(假设是 java 爬虫项目)?有个 Java 爬虫项目。用多线程爬取网页读取数据,写入到数据库,希望部署到线上能够充分利用线上资源( 8 核 16G,阿里云 ESC 实例 100%),请问怎么根据 linux CPU,内存,进行最大化利用来爬取。有 1TB 数据需要入库,需要在 10 天内完成,这个任务需要怎么配置更合理


楼主说的不够清晰,如果可以用上面的话语描述一下,如果是上面的场景我能提供一些些经验。
给楼主参考下,我有次是这样处理数据的:
copy TableA -> TableB (得到)
TableB 完成所有操作

TableA 重命名为 TableC
TableB 重命名为 TableA

读取 TableA 大于某个点的数据(时间,唯一 ID 等)写入 TableB。完成数据补充

讲白了就是用张中间表进行操作数据。然后把中间表重命名为原始表,再把原始表的数据进行补充完整。

表命名基本上不消耗时间,对业务基本上无影响。

如果你担心影响线上数据库,也可以进行表同步到其他环境,完成操作再弄数据。
42 天前
回复了 xutao881 创建的主题 程序员 当产品身兼测试,该如何化解新仇旧怨?
兄弟,赶紧跑路吧
专线找客服,非专线啥原因都可能
64 天前
回复了 hellobullshit 创建的主题 分享创造 做了一个资讯聚合网站
很 nice 啦,维护一个网站得花费很多心思吧
去拉萨!
支持
83 天前
回复了 hhyvs111 创建的主题 Apple 18 年 MBP 15 寸 电池鼓包 可以继续使用吗?
@hhyvs111 过了保修
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   806 人在线   最高记录 5168   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 12ms · UTC 22:33 · PVG 06:33 · LAX 14:33 · JFK 17:33
♥ Do have faith in what you're doing.