python 爬虫中怎么搜索中文字符?

2014-03-26 09:50:16 +08:00
 lzy4223
正下联系爬虫,例如我要爬zhibo8.com上,有“切尔西”三个子的连接爬下来,我在正则表达式里面可以输入中文吗?
4761 次点击
所在节点    Python
5 条回复
est
2014-03-26 09:53:18 +08:00
你自己用python代码试一试的源码长度都比你这个问题打的字少。
linuxer
2014-03-26 09:58:03 +08:00
噗,百度知道既视感。
lzy4223
2014-03-26 10:03:02 +08:00
@linuxer
@est

在网上一直没看到用中文的例子,以为是不可以,要用什么特别的方法。

好吧,忽略我把。
paulw54jrn
2014-03-26 10:04:04 +08:00
根据实战经验是可以的
raw_next_url = re.findall(u'<span class="zg-gray-normal">下一页</span>',raw_data)
paulw54jrn
2014-03-26 10:04:37 +08:00
以前爬知乎时候的代码..

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/105911

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX