各位彦祖, Python 用哪个加载 xml 文件比较快

2021-05-12 15:16:57 +08:00
 wohenfuyou

用了 xml.dom.minidom,加载个 100M 的 XM 的文件用了 60s,好慢

1460 次点击
所在节点    Python
6 条回复
no1xsyzy
2021-05-12 15:28:10 +08:00
https://lxml.de/performance.html

目前通常认为是 lxml 最快
wellsc
2021-05-12 15:29:01 +08:00
换语言
imn1
2021-05-12 15:46:54 +08:00
100M 的应该什么语言都用流式解析吧,整体加载 DOM 太大了,非常耗资源
找 xml parser 相关的库,例如 sax
abersheeran
2021-05-12 22:20:49 +08:00
@no1xsyzy 提到这玩意儿。我想起来以前写一个页面解析的时候,用 docker 跑的,阿里云 Serverless 上 lxml 怎么都解析不出来,我本机次次跑都没问题,最后还是换了 html.parser 。
ALLROBOT
2021-05-13 08:29:47 +08:00
用 C/C++最快

python 执行速度比它们慢多了
wohenfuyou
2021-05-13 08:48:03 +08:00
改用 c++ tinyxml2 了 就 2s 钟,差距也太大了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/776497

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX