dataframe 对含中文的字符串按字符位切片

2018 年 2 月 26 日

yeyu1989

需要对 dataframe 中的字符串数据切片，字符串按字符位切片（一个中文占 2 个字符）。
举例：
columnA
I'm 中国, so
You are 中国人
...

取 columnA 每个字符串的第 9 位到第 10 位，则结果应为
,s
中

假设不存在中文字符被分割的情况，应该怎么写？

我理解的方式是：
df.str.decode('gb18030').str.slice(8,10).str.encode('gb18030')

但是 decode 之后的 Series 就不是 str 了，后面调用的 str.slice 等就会报错

4277 次点击

所在节点

Python

0 条回复

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/432803

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.