这是一个创建于 3544 天前的主题,其中的信息可能已经有所发展或是发生改变。
比如「这是一首简单的小情歌,唱着人们心肠的曲折。我想我很快乐,当有你的温热,脚边的空气转了。」我想以中文句号拆分这个句子,所以我试了
separate_lines = re.split(ur'(.*?[\u3002])', line)
以及
separate_lines = re.split(ur'(.*?[。])', line)
好像没有用。
而如果不加 ur,更是会出现乱码。。。
如果在 Python 3 下,不加 ur 直接就行了,问题是我要用 jieba,但是 jieba3k 在 PyCharm 里好像不能直接安装。
应该怎么办?Python 2 的编码问题真是让人抓狂
2 条回复 • 2014-09-06 02:08:06 +08:00
|
|
1
Daniel65536 2014-09-06 01:55:43 +08:00 via iPhone
为啥用re……直接str.split(u'。')不行么……
|