V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  uti6770werty  ›  全部回复第 3 页 / 共 3 页
回复总数  54
1  2  3  
2020-04-23 23:22:33 +08:00
回复了 ByteCat 创建的主题 Python Python 爬虫如何爬取动态网页数据?
@ClericPy 好的,我去看看,E 文不太好,哈哈。。。
如果自建有个代理池(其实也就 7,8 个在不同运营商的 IP 地址而已),使用代理池来爬目标
是不是 cdp 的服务进程也要分布在这些 IP 上部署?
还是只需一个 cdp 服务进程,能让服务进程使用 IP 池进行轮询?
2020-04-23 20:21:42 +08:00
回复了 ByteCat 创建的主题 Python Python 爬虫如何爬取动态网页数据?
@ClericPy 粗略地了解了一下 cdp 这种方式,逻辑上有些不明白。。。
是不是要首先有一个 chrome 的服务进程(本端,或者服务器端)运行着,然后通过操作这个进程的接口去“活动”,来析出页面上的内容呢?
感觉上用起来,还要很熟悉了解页面 DOM 或者 JavaScript 的功能,还有就是 chrome 本身的 API,
不知道这样理解对不对。。。。
@ysc3839 嗯,小的机器实在不好找,刚刚下单了一个 702N 硬改 16Mflash,今晚既要架编译环境了,实在不想折腾,但没现成的货,逼着干...
2020-02-12 18:02:50 +08:00
回复了 uti6770werty 创建的主题 问与答 请教这个正则表达式应该如何实现(可能存在)
或的关系,按教学网页,应该是|符号
尽管我试过用
\$[\s*|]\d+.*-\d+.*$
\$(\s*|)\d+.*-\d+.*$
始终不成。。。
2020-02-12 16:13:21 +08:00
回复了 uti6770werty 创建的主题 问与答 请教这个正则表达式应该如何实现(可能存在)
谢谢各位~

"\$.*\$" 的方式比较粗暴,会误匹配(像:$测试文字$),所以我才需要增加\d 和匹配有“-”符号来降低误匹配的可能性

@b1iy \s*也不适合,有情况是:没有空格,如上面的$12-16$,这个是紧凑型了

就是有\s*或者没有\s,两种情况都要兼顾。。。
2020-02-11 19:31:25 +08:00
回复了 uti6770werty 创建的主题 Python 请教 Python 正则替换字符串正确成功的姿势?
@gwy15 成了,谢谢~
@ipwx 抱歉,我发帖的时候改回了 r",我在测试的时候用的是 u"...[机械狗头]
@lihongjie0209 感谢解答,确定是不能这么做的话,那么我也只能考虑在 Win 服务器上架设一个 Sock5 服务器,把本地的 Python code 的所有请求,全转到这个服务器上去,再走出去了。。。

只是考虑的这种情况会比较啰嗦,而且梯子非常的不稳定,如果 sock5 断了,那天啥也干不了,就在折腾梯子了
谢谢各位,思索 10 来天,也确实没什么好办法,把这些乱码逆转回想要的编码,那更是不可能。。。。。。
重新再去获取页面,也不可能了,源站点已经把这些页面内容“过期就不放出来了”。。。。。。
现在只能老老实实把乱码的部分做缺失值处理。。。。
感谢各位热心解答~
@luanjia 感谢感谢,水平有限,一时间理解不了,不过会加紧学习理解。。。

5 楼的答案,似乎是有些格式不对,但琢磨不出 p 附近的括号的问题在哪里。。。。,报错如下:

1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'as p)' at line 14
mysql>
@k9990009 没能明白您意思啊,我今晚看了 N 多例子,其实我也知道网上例子很多的,百度真的很多,但都是根据 1~2 个字段的来判断,像是我这个情况需要 4 个字段做判断的,我也是照葫芦画瓢地改,work 不了,非常头疼,只能现在去睡觉了,明天等直接可用的答案,慢慢的再学习理解。
@sun1991
@weyou
@ysc3839
@gwy15

谢谢大家,
琢磨了两天,最后从知识范围内的认知是,只能这样,
从大集合的编码转过来 utf-8,怎么都会有些字符无法完成转换的,并不是转换方法的问题
最后在 string 类型里 replace('\ufffd',''),最后 utf-8 写入到文件,内容看起来也不像是不完整的,或者缺失的。
@sun1991 确定 codeFormat 是对的,(也做过调试终端,确定是 Windows-1254 无疑)
难道是反爬的方法?
```
codeFormat = r.apparent_encoding
tmpStr = ' '
if codeFormat == 'ISO-8859-1':
tmpStr = r.text.encode(r.encoding).decode('gbk')
session.close()
return tmpStr
pass
```

如这个就能很好转换
2019-11-06 23:15:23 +08:00
回复了 uti6770werty 创建的主题 Python 如何屏蔽 pyppeteer 的一些日志输出?
@Trim21 的确不是一个 str,我也不知道是什么,只是例子是这么写的。。。[捂脸]

@gwy15 我没看懂? 我如果不是直接 import pyppeteer.launcher 的,是其它库调用了它,如 request-html 封装了 pyppeteer.launcher 的调用,那么也不是太合适这么做吧,是不是 logging 本身没办法屏蔽呢?
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5415 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 06:54 · PVG 14:54 · LAX 23:54 · JFK 02:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.