V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
callmejoejoe
V2EX  ›  程序员

水平有限,请教一下关于爬虫、脚本相关问题

  •  
  •   callmejoejoe ·
    callmejoejoe · 175 天前 · 1022 次点击
    这是一个创建于 175 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前端、后端小白

    现状:

    做了个谷歌插件,功能是爬取购物网站的数据,自动化处理批量重复任务; 目前是在用户自己电脑上爬数据,有些不能使用 cookie 权限的浏览器只能新开一个标签页进行爬取,用的全是 DOM 操作,感觉这种做法很 low ,数据存储在浏览器 IndexedDB 中

    疑问:

    1. 购物网站的数据存在时效性,超过一天数据可能就没用了,是否有必要做成服务端爬取?看竞品好像都是服务端爬取的,前端只是给用户一个 web 界面进行操作,号称几十万速度,是怎么做到的?
    2. 存储的话,大量数据是如何做存储的?
    3. 我可以有什么方案进行优化?

    感激不尽!

    4 条回复    2023-11-16 18:29:19 +08:00
    meiyiliya
        1
    meiyiliya  
       175 天前   ❤️ 1
    1. 时效性和前端还是后端没有关系,都要重新爬,速度可能是进去的速度,相当于攻击了。
    2. 大概率数据库
    3. 前端大概率会 node.js 吧,node.js 就有很多爬虫框架了。
    callmejoejoe
        2
    callmejoejoe  
    OP
       175 天前
    @meiyiliya 感谢回复
    1. 服务端爬相较于前端爬需要额外维护处理,我这不知道有没有必要,判断“有没有必要”的衡量标准也不知道是啥。。尴尬
    3. Node.js 的框架在浏览器貌似用不了
    z1829909
        3
    z1829909  
       175 天前   ❤️ 1
    如果做在前端, 那你的代码其实都是可以被看到的, 如果你后面做大了, 不太好收费, 除非你是一锤子买卖. 所以一般做后端, 爬到的数据存在数据库, 提供 api 出去, 然后收会员费那种.
    数据时效性这个没办法, 能做的就是快失效了再爬一次. 另外如果不在客户端爬, ip 池, 登录账号也需要买, 机器成本, 这些是多出来的开销.
    callmejoejoe
        4
    callmejoejoe  
    OP
       175 天前
    @z1829909 确实,代码压缩后还是会被破解,客户端爬适合前期摸索市场需求,后续再考虑转为后端吧,就是学习、开发、费用各种成本一下都上来了😭
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3282 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 12:32 · PVG 20:32 · LAX 05:32 · JFK 08:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.