开发一个文本检查、清理脚本是不是有用?

2018-04-25 18:03:26 +08:00
 sjmcefc2
经常要导入大量的 UTF-8 文本到数据库,但是数据质量不高。有时候一行存在\会 load 报错,有时候部分字段会出现编码乱码,出现�����г��这种。
想用 python 实现一个功能,
一是想实现根据表结构、字段长度来扫描每一行数据是否符合表的要求;
二是检查每一行数据的编码,如果发现有上述的乱码或者\,能够经过某种处理弄成正确编码(数据库可以接受的 utf8 编码)
python 初学者,大牛们能不能指点一下这个轮子是不是已经有了?如果没有要是个什么思路呢?
1033 次点击
所在节点    Python
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/449824

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX