Python 处理文件的性能优化

现在有一个list包含有1500个topic，另外一个文件包含一亿个微博数据，现在我想统计，1500个topic中每个topic分别有多少条微博包含它们，我写的代码如下，但是运行起来需要非常久的时间，有什么办法可以优化吗？

f = file("largefile.txt")
for line in f:
try:
tweet_time = line.split(',',3)[2].split()[0]
tweet = line.split(',',3)[-1]
for topic in topics:
topic_items = topic.split()
isContain = True
for item in topic_items:
if item not in tweet:
isContain = False
break
if isContain:
pass
except:
continue
f.close()

paulw54jrn

2014-08-03 23:20:31 +08:00

知乎的面试题..?

czheo

2014-08-03 23:29:03 +08:00

把topics存set里面，再用in

eriale

2014-08-03 23:50:04 +08:00

@czheo python的set做iteration比list慢啊。
这么大的数量，而且彼此之间没有相关性，用并行方式来做有很好的通用性。

leiz

2014-08-04 00:40:28 +08:00

猜测: topics = [topic0, topic1, ... topicn],topic = 'aaa bbb ccc ... zzz'
几个点:
1. 慢主要是文件读取?
2. topics本身还是比较复杂，是不是再预处理一下会比较好?
3. 为什么要把tweet再次打散才进行比较？直接用类似string.contain之类的方法是否可以?
4. 这种对比和统计，是不是可以用dict来做会比较快？

rrfeng

2014-08-04 09:11:01 +08:00

1. topic 放 set，线性查找
2. topics 分片，并行处理

其实 in set（1500）的话几乎没什么时间开销，就是 IO 的速度了，所以分片不见得有什么好的效果

sujin190

2014-08-04 09:23:52 +08:00

@eriale python的set底层是用hash表实现的，怎么会比list慢呢？

dingyaguang117

2014-08-04 09:44:24 +08:00

感觉是CPU瓶颈，不知道Python字符串比较效率如何

wwttc

2014-08-04 09:44:47 +08:00

@eriale 已经实现过Hadoop版本了，现在需要跑单机的版本

clino

2014-08-04 09:52:35 +08:00

我觉得搜索一条微博有没有包含"1500个topic"之一是不是转成正则表达式来匹配会更快一些?
觉得搜索1500次应该很慢

另外读文件如果能一次读多行(如1000行),减少IO操作的次数会不会快一些

另外如果能利用到多核的话肯定会更好一些,所以可以看有几核,就起几个进程分别做肯定能更快的

wwttc

2014-08-04 09:58:59 +08:00

@leiz
1.topic大部分是一个中文单词，有一部分是几个单词的组合，比如说：“爸爸去哪儿多多”。
2.没有把tweet打散啊。还是一条一条的比较。试过string的方法，速度好像更慢。
3.嗯，dict查找应该会比list快点。但是这里仅仅是使用了in操作，你的意思是说，把每个tweet都拆分存到dict里面？

wwttc

2014-08-04 10:06:09 +08:00

@clino
1.用正则速度应该会更慢。
2.嗯，有道理。原来文件小的时候，用readlines一次全部读完，速度会快点。我试试分块的效率怎么样

captainhcg

2014-08-04 10:10:18 +08:00

这个排版有问题，看不到缩进。建议你把所有缩进的空格都换成"."

如果我没猜错你用了三层for循环，100,000,000 * 1500 * n（n是啥我还没看懂）。至少在我的工作里极少用到>=3的for循环，用到了基本就是代码写得有问题了。

你把代码重排个版我再看看

clino

2014-08-04 10:11:45 +08:00

@wwttc 你可以试试,只要每次使用正则预编译好的对象,我猜测会比循环搜索更快
因为正则预编译以后,有点相当于搜索的规则给索引了

takato

2014-08-04 10:26:34 +08:00

如果这是一道题目，考的一定是算法。。。

你大概需要一个高级数据结构来支撑这个需求。各种空间换时间。

绝非暴力能过的。。

wwttc

2014-08-04 10:29:38 +08:00

f = file("largefile")
....for line in f:
........try:
............tweet_time = line.split(',',3)[2].split()[0] # 微博发布时间
............tweet = line.split(',',3)[-1] # 微博内容
............for topic in topics:
................topic_items = topic.split() # 每个topic可能有多个词组成
................isContain = True
................for item in topic_items:
....................if item not in tweet:
........................isContain = False
........................break
....................if isContain:
........................pass # 该微博包含该topic
........except:
............continue
f.close()

imn1

2014-08-04 10:40:06 +08:00

首先，topic是固定的，没理由在循环内每次拆解，移到循环外面
这种多对多简单in比较，我会考虑用pandas或者sql

yangqi

2014-08-04 10:49:38 +08:00

这么简单的查找为什么不直接用grep...

captainhcg

2014-08-04 11:04:15 +08:00

你先看看这样行不行。可能有语法错误，没测试
with file("largefile") as f:
....topic_items_list = [t.split() for t in topics] # 每个topic可能有多个词组成
....for line in f:
........tweet_time = line.split(',',3)[2].split()[0] # 微博发布时间
........tweet = line.split(',',3)[-1] # 微博内容
........for topic_items in topic_items_list:
............if all(item in tweet for item in topic_items):
................pass # do sth

wwttc

2014-08-04 11:05:42 +08:00

@captainhcg
我最早也是用all函数，测试了下发现速度要比现在的慢。

wwttc

2014-08-04 11:06:37 +08:00

@yangqi
grep是快多了，但是我这边由于某种原因要求是用Python来做

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/125941

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.