请教一个 Python 正则问题，相同代码运行出来结果不一样了

datay='Python 是很受欢迎的编程语言 Python'
pattern9='[a-zA-Z]+' #字符集的范围 + 号代表前导字符模式出现 1 次以上
res=re.sub(pattern9,'Java',datay)
print(res)

datas='Python 是很受欢迎的编程语言 Python'
pattern1='\w+'
ww=re.sub(pattern1,'java',datas) #sub 不能用 group()函数，因为返回的是一个元组
print(ww)

上面这段在 Python2.7 运行后 print 是一致的：

但是在 Python3.9 运行后是不一样的：

为什么第二种方法出来的结果只是 java,连中文部分都没有了？

ThirdFlame

2021-07-06 10:01:22 +08:00

显然是 python3 \w 的含义于 py2 的不太一样了啊。（当然也可能是编码的问题）

Sylv

2021-07-06 10:05:52 +08:00

\w 在 Python 2 里默认只匹配字母或数字或下划线，在 Python 3 里会也匹配包括中文在内的 Unicode 字符。具体请阅读文档。

Rache1

2021-07-06 11:37:15 +08:00

见维基百科「正则表达式」词条。

\w 匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。注意 Unicode 正则表达式会匹配中文字符。

在 Python3 中，所有字符串都使用 Unicode 表示，所以表现为这样，同样 C# 也是这样，php 中的 mb_ereg 也是

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/787783

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.