V2EX 首页   注册   登录
 gouchaoer 最近的时间轴更新

gouchaoer

  •   V2EX 第 189082 号会员,加入于 2016-08-28 00:38:18 +08:00
    php>c++>java
    gouchaoer 最近回复了
    8 小时 1 分钟前
    回复了 gouchaoer 创建的主题 PHP 关于 cache 的 expire 问题
    @jhdxr php 的一堆框架的 cache 组建里都没考虑这种情况好吧
    8 小时 3 分钟前
    回复了 drroot 创建的主题 问与答 爬虫: asyncio+aiohttp 比 scrapy 还快吗?
    你输出到 csv 如何去重?结果需要保存到数据库,并且爬数据的时候去数据库看是否重复
    8 小时 6 分钟前
    回复了 drroot 创建的主题 问与答 爬虫: asyncio+aiohttp 比 scrapy 还快吗?
    首先 100w 数据量并不大,每个爬虫每 5s 访问一次的话只需要 65 个爬虫进程一天就能爬完 100w,假设我拿 200 个爬虫来爬,那这种程度的单机就能扛住,就阻塞的 requests 就 ok 了。。。so 大部分定制爬虫瓶颈不在 cpu
    1 天前
    回复了 ChenJinluo 创建的主题 问与答 Scrapy 里的 job 是指的什么东西呢?
    @ila 用 requests+bs4 就完了
    1 天前
    回复了 ChenJinluo 创建的主题 问与答 Scrapy 里的 job 是指的什么东西呢?
    要想自己定制就别用 scrapy
    @tadtung 假的吧,怎么可能删用户数据
    试试阿里云的 mysql5.7 吧,不过只有单机版
    mysql5.7 的 json 支持已经很完整了啊,json 的本质是对任意字段加索引以及一堆在 mysql 中处理 json 的操作函数。。。。另外 100w 数据真的很少
    电影本身真有 10 亿可以分表,后期流量太大上 tidb,检索上 es 吧,用数据库不现实。。。因为一个标签对应很多电影,你肯定要按照某一规则排序
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   675 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.0 · 59ms · UTC 00:04 · PVG 08:04 · LAX 16:04 · JFK 19:04
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1