请教如何删除 6 万 txt 中重复的行

123.com.     3600    IN      SOA     ns1.dns.com. dns.dns.com. 1419473850 3600 3600 3600 3600
123.com.     3600    IN      A       2.2.2.2
123.com.     3600    IN      NS      ns2.dns.com.
123.com.     3600    IN      NS      ns1.dns.com.
123.com.     3600    IN      SOA     ns1.dns.com. dns.dns.com. 1419473850 3600 3600 3600 3600

文本2中

aaaa.com.     3600    IN      SOA     ns1.youdns.com. dns.youdns.com. 1419473850 3600 3600 3600 3600
aaaa.com.     3600    IN      A       11.1.1.1.1
aaaa.com.     3600    IN      NS      ns2.youdns.com.
aaaa.com.     3600    IN      NS      ns1.youdns.com.
aaaa.com.     3600    IN      SOA     ns1.youdns.com. dns.youdns.com. 1419473850 3600 3600 3600 3600

删除每个文本中重复的行
像文本1中

123.com.     3600    IN      SOA     ns1.dns.com. dns.dns.com. 1419473850 3600 3600 3600 3600

这行重复了去掉重复的一行

文本2中

aaaa.com.     3600    IN      SOA     ns1.youdns.com. dns.youdns.com. 1419473850 3600 3600 3600 3600

重复了去掉重复的一行。
我也不知道为什么为有两条SOA记录真是奇怪

aaaa.com

123.com

SOA

66 条回复 • 2015-04-24 16:48:18 +08:00

holinhot

2015-04-23 11:35:41 +08:00

不能说固定删除第几行，这个行不通因为每个域名的解析记录条数有多有少

magicianzrh

2015-04-23 11:37:17 +08:00

每读入一行一行文字md5一下作为key，就可以检查了

ksupertu

2015-04-23 11:38:28 +08:00

uniq命令加管道重定向输出文件

airqj

2015-04-23 11:38:59 +08:00

sort -u

2015-04-23 11:40:40 +08:00

话说搭个hadoop环境是否可行。。

2015-04-23 11:41:59 +08:00

好吧，没注意这是python节点，请忽略我上面的评论。。

ipconfiger

2015-04-23 11:43:29 +08:00

@ob 6w行还需要动hadoop？
python读进来，"\n".join(list(set(f.readlines()))) 写回去就好了

youxiaer

2015-04-23 11:52:45 +08:00

如果不考虑原有顺序就比较简单了。
for i in `find ./ -name "*.txt"`; do sort $i | uniq > $i".bak"; mv $i".bak" $i; done

staticor

2015-04-23 11:53:35 +08:00

考虑顺序?
如果不考虑的话是用set() : uniqlines = set(open('/tmp/foo').readlines())
*Nix下sort <file name> | uniq

也有用dict的keys()的:

import collections

with open(infile, 'rb') as inf, open(outfile, 'wb') as outf:
outf.writelines(collections.OrderedDict.fromkeys(inf))

-----------------------------------------

要保持原顺序, 那就算一行一行读也能操作:
for ...
if line not in ... :
read_it

注: 我只是ST搬运工.

holinhot

2015-04-23 12:04:34 +08:00

@staticor
@youxiaer 顺序都不保持也可以。到时候导入数据库就好了
刚测试了一个没有问题，现在还在执行中感谢了我自己查了半天 uniq还没看明白

youxiaer

2015-04-23 12:07:35 +08:00

@holinhot 保证顺序也是可以的。
for i in `find ./ -name "*.txt"`; do awk '!a[$0]++' $i > $i".bak"; mv $i".bak" $i; done

用上面的语句就行

kimmykuang

2015-04-23 14:27:24 +08:00

sort + uniq命令可以搞定的吧？

GreenJoson

2015-04-23 14:30:09 +08:00

Emeditor 打开10多W万行的文本都不成问题，删除重复行用他的插件~~瞬间的事~~

atan

2015-04-23 14:32:28 +08:00

sublime text 打开后 Edit>Permute Lines>Unique

xiaoheshang

2015-04-23 14:50:45 +08:00

直接sort |uniq -c |sort -r 解决

duzhe0

2015-04-23 14:59:44 +08:00

感觉你是想做个diff,把逻辑上相同的行批掉就行了
mv aaaa.com.log aaaa.com.log.backup
sed -i 's/^aaaa.com/123.com/;s/ns1.youdns.com. dns.youdns.com/ns1.dns.com. dns.dns.com./' aaaa.com.log
diff 123.com.log aaaa.com.log

duzhe0

2015-04-23 15:00:55 +08:00

弄错了，不是mv, 是cp

jianghu52

2015-04-23 15:06:22 +08:00

up @GreenJoson 的做法，emeditor打开大文件绝对飞快。

IssacTseng

2015-04-23 15:10:44 +08:00

全部复制到excel，全选6W行数据
数据选项卡-数据工具栏目“删除重复数据”

cbsw

2015-04-23 15:29:12 +08:00

不要拘泥于工具，Python只是一种方便的编程语言而已，sort、unique两个命令干这事最合适了

Do the right thing with the right tool, never try to do everything with one tool.

holinhot

2015-04-23 15:37:15 +08:00

@prinzchao 这个厉害你手动从6w txt复制到excel?

chengzhoukun

2015-04-23 15:38:45 +08:00 via Android

用SQL也可以吧

chengzhoukun

2015-04-23 15:38:45 +08:00 via Android

用SQL

holinhot

2015-04-23 15:39:30 +08:00

@GreenJoson 不是10w行吧。是6w个txt 每个txt大概10来行

holinhot

2015-04-23 15:41:24 +08:00

@chengzhoukun 最终用api入库

MarioLuisGarcia

2015-04-23 15:43:18 +08:00

vim里 :sort u
搞定！

tikazyq

2015-04-23 15:44:50 +08:00

cat <filename> | sort | uniq >> unique.txt

6万行数据不算大，直接unix操作就ok

IssacTseng

2015-04-23 16:20:31 +08:00

@holinhot 临时处理某个文档数据当然可以这样啊，6W行数据对现在的电脑配置来说毫无难度吧。

Anybfans

2015-04-23 16:33:46 +08:00

为什么大家看不清。。。人家说的是6个txt文件。。。。。。。。。

sbboy

2015-04-23 16:51:49 +08:00

@Anybfans 6万个吧。。。

touch

2015-04-23 16:57:41 +08:00

既然最终要入库的那不是一条sql语句的事

raman

2015-04-23 17:14:07 +08:00

这里 sort - u file.txt

idblife

2015-04-23 17:17:06 +08:00

导入数据库里操作一下

anexplore

2015-04-23 17:20:18 +08:00

sort -u src.txt > des.txt 就可以搞定了...

likexian

2015-04-23 17:39:15 +08:00

http://www.zhetenga.com/view/linux%E5%8E%BB%E6%8E%89%E6%96%87%E4%BB%B6%E9%87%8D%E5%A4%8D%E8%A1%8C-d0df4c10.html

简单方便、值得拥有

iiilii

2015-04-23 17:58:25 +08:00

这么多人都没看懂楼主的问题，6万个txt文件，每个文件10几行。

incompatible

2015-04-23 18:00:04 +08:00

python里没有既能保持添加顺序、又能滤重的数据结构？
类似Java里的LinkedHashSet

staticor

2015-04-23 18:25:35 +08:00

@incompatible ordereddict collections中的

mucid

2015-04-23 18:48:43 +08:00

cat *.txt | sort | uniq > all.txt

Jaylee

2015-04-23 19:02:56 +08:00

@mucid sort -u 就可以

USCONAN

2015-04-23 19:05:10 +08:00

sort uniq

P.S. 論起標題的嚴謹性和歧義的產生

leavic

2015-04-23 19:22:02 +08:00

sort|uniq

done

shierji

2015-04-23 19:34:14 +08:00

python cookbook里面有介绍保持顺序的去重方法

carmark

2015-04-23 19:40:01 +08:00

bloom filter 值得研究
用这个工具处理500g数据都没问题，当然有一定错误率

GreenJoson

2015-04-23 20:22:51 +08:00

@holinhot 把6W多个合并成一个，然后用emeditor 就行~~

KoleHank

2015-04-23 21:03:09 +08:00

每一行读出来了往redis里面一塞可行不？

rrfeng

2015-04-23 21:09:02 +08:00

不需要保证输出顺序的话：

awk '!a[$0}++' file1 > file1_output

如果要合并去重的话
awk '!a[$0]++' file1 file2 file3.... fileN > all_output

----------
一个合格的运维从来不用 sort -u 23333