请教，处理上亿条日志，每条 10+列，单机使用 Python 如何很好的处理？

QQ2171775959

2017-07-01 23:09:11 +08:00

找个好点的服务器就可以了。多核心多线程就可以。。例如 16 核 32 线程的。

ldbC5uTBj11yaeh5

2017-07-01 23:10:32 +08:00

这种场景 awk 完爆 python

xiaomacai

2017-07-01 23:16:04 +08:00

补充：从提高效率的角度讲，使用 python 什么库或者什么语法糖更好一些

decken

2017-07-02 01:26:58 +08:00

这种量如果逻辑不复杂，不用太多考虑语言性能问题

F281M6Dh8DXpD1g2

2017-07-02 02:27:32 +08:00

用 pyspark 很轻松的

laxenade

2017-07-02 02:52:59 +08:00

spark+1

herozhang

2017-07-02 03:38:41 +08:00

用 pypy 跑 python 脚本

sdshiyan2005

2017-07-02 09:00:16 +08:00

dask?

beginor

2017-07-02 10:45:21 +08:00

Spark+1

fiht

2017-07-02 10:52:43 +08:00

建议二楼的方法：使用 AWK+grep+管道，从运维工程师的角度来思考这个问题方便很多。
楼上刷 spark 有点不大好，楼主要是会 spark 就不会来这里问了....现学 spark 显然是来不及的。
关于效率其实一次性处理的东西和效率也没什么关系，cat today.log | awk '{print $3}' >> column3.log，一般也没有多少效率上的问题，使用 Python 还得处理内存上的东西。
如果硬要考虑 py 的话，你解决了大文件读取时候内存问题就好了，multiprogress 倒也不大好用，处理大文件时候很大以部门场景是内存不如文件大，一次 load 进来内存就得 gg。
用 AWK 吧，本来就是为了解决这个问题设计的。
另外，说到日志想安利一发 ELK 框架，做起统计报表什么的很能忽悠人

wangchen

2017-07-03 12:23:36 +08:00

这个可能会帮到你： http://www.rankfocus.com/use-cpu-cores-linux-commands/。