请教个 shell or Python 问题

2017-12-11 21:32:38 +08:00
 Glink
例如有个文本文件格式如下(带空格):
aaa bbb ccc
判断 aaa 是否满足条件,如果满足条件,再判断 bbb,bbb 满足条件再判断 ccc,
aaa 大概有几十个条件,bbb 大概几百个,ccc 也大概几百个。这种方式怎么写合适,浪费各位大佬几分钟的时间,给个大概的方向,不甚感激,谢谢
2394 次点击
所在节点    Python
11 条回复
johnsonqrr
2017-12-11 21:45:50 +08:00
抛砖引玉,第一想法是用正则的 re.compile 来描述你的“条件”?
为 a 建立一个 rule_list_a = [condition1, condition2...condition 几十],b 和 c 以此类推。
然后写一个 def suit(string, rule_list) 遍历 rule_list,执行 re.match,返回一个 bool。
外层主函数就用 if suit(a, rule_list_a) and suit(b, rule_list_b) and suit(c, rule_c),只要按照顺序写,就能实现先后逻辑。
Glink
2017-12-11 21:50:49 +08:00
@johnsonqrr 非常感谢
inflationaaron
2017-12-12 04:31:19 +08:00
这我一般直接写 awk 脚本
billgreen1
2017-12-12 07:54:07 +08:00
如果数据是表格格式的,可以用 pandas 读取一下,对每个元素都判断一下,然后按行返回每行第一个为 True 的
比如对于第 i 行,A 列 False,B 列 False,C 列 TRUE,你可以返回位置 2,也可以返回列名称。
Glink
2017-12-12 08:46:47 +08:00
@inflationaaron 用 awk 会很麻烦吧
Glink
2017-12-12 08:47:15 +08:00
@billgreen1 感谢,我试试看
araraloren
2017-12-12 09:07:00 +08:00
In Perl6, you can use junction:

say so "aaa" ~~ [aaa, bbb, ccc].all;
zhangysh1995
2017-12-12 11:53:09 +08:00
比较关心你的数据是什么形式的,两行之间什么关系,列之间是什么关系?如果是类似于 dict 这种有属性的可以考虑 Pandas ;如果是数据表的话直接数据库 SQL 会更好一些
kiwi95
2017-12-12 13:09:22 +08:00
几十个几百个条件,还有组合,我觉得第一件事是确定条件是否可以简化,现实中很少有这样几百个条件组合不能简化的场景吧
omph
2017-12-12 15:26:31 +08:00
abc 三者的形式,和条件的内容,决定了用什么工具最合适,能不能快速搞定
zyhao
2017-12-12 20:14:44 +08:00
想到一种 python 的做法,先将文本存入 list 中
file_list = [ [1,2,3], [4,5,6] ]

使用 filter 过滤,比如过滤掉第一列等于 1 的
filter(lambda x: x[0] != 1, file_list)

依次这么添加你的条件
如果数据量很大还可以写成 map-reduce 程序,在集群上运行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/413891

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX