V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  fortytwo  ›  全部回复第 1 页 / 共 1 页
回复总数  9
10 小时 9 分钟前
回复了 Colorful 创建的主题 Python 关于爬虫这块有个比较好奇的问题,想请教
依据具体业务
分为两种:
是增量数据
1 、需要采集用户信息(昵称、简介等等),需要保留历史数据的,使用增量表,那么就需要判断变动进行处理。可以实时查询变动,有变动再新增,效率相对较低。建议保留所有数据,然后离线再跑一遍分析。数据会滞后一些。

仅去重
2 、只是去重需求,防止插入多个相同行数据,就按照上面的方案,加唯一索引后,insert ignore 插入即可。
代码改动最少,且实现简单,基本不需要考虑效率问题。
11 小时 13 分钟前
回复了 fanyingmao 创建的主题 MySQL 又是被 mysql 加字段搞郁闷的一天
@BQsummer 对的,这种最快,风险还低。之前要跑 8 个多小时的脚本,用这个十几分钟搞定。

游戏数据库,要麻烦一些。
15 小时 59 分钟前
回复了 s2555 创建的主题 公司运营 一人有限公司,如何极限从公账提到私账?
当时为什么想着办一人公司呀?
接单的资质需要?
18 小时 12 分钟前
回复了 hxhsammy 创建的主题 程序员 android7 以上系统 https 抓不到包,大家是如何解决的?
必须 root 了。搞个可以 root 的机子也不贵,我搞的是 redmi note 12 5G 256G 版本

反正只是抓包用,对于成色电池啥的没要求,收个二手比较便宜,几百块搞得定。

我日常抓包用 reqable ,个人觉得免费的够用。
1 天前
回复了 uTools 创建的主题 分享创造 三年过去了,那个叫 uTools 的怎么样了
@okxaas 限制官方可以直接买,Free 就另说了。

个人花月薪 3%买一个永久的工具,着实心疼。VIP 功能基本用不上,只是为了解除 10 个插件的限制。

另外这软件开发者工具也占一个额度,想开发个插件要手动先卸载一些临时不用的才行。
1 天前
回复了 red13 创建的主题 程序员 你们撸代码还在 debug 调试吗?
包的,只用打印比较难调试一些复杂的对象。

而且出 bug 了,你要用多个语句测试具体的原因。我是 python 用的多,经常遇到变量类型的问题。
打印调试的话,要话很多时间在重新运行上。
1 天前
回复了 codists 创建的主题 Python 迭代器的实际应用场景是什么?
有时候写爬虫,需要翻页,我就用迭代器。函数内部判断需不需要翻页,能够一定程度上提升可读性,写起来也方便。有点语法糖的意思。
感觉是亏嘛了,开始恐慌了。
我觉得是小回调,长线 AI 的潜力还没释放完呢。模型落地到应用还有很大空间,起码得 3-5 年。
有点心动,不过现在在上海,过几年可能回去。
这种可以找个兼职做,如果不是天天要加新需求的话。
只是开发爬虫,大厂的核心业务代码一般也不会天天变。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   899 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 21:25 · PVG 05:25 · LAX 14:25 · JFK 17:25
♥ Do have faith in what you're doing.