请教如何删除 6 万 txt 中重复的行

2015-04-23 11:34:09 +08:00
 holinhot

文本1中:

123.com.     3600    IN      SOA     ns1.dns.com. dns.dns.com. 1419473850 3600 3600 3600 3600
123.com.     3600    IN      A       2.2.2.2
123.com.     3600    IN      NS      ns2.dns.com.
123.com.     3600    IN      NS      ns1.dns.com.
123.com.     3600    IN      SOA     ns1.dns.com. dns.dns.com. 1419473850 3600 3600 3600 3600

文本2中

aaaa.com.     3600    IN      SOA     ns1.youdns.com. dns.youdns.com. 1419473850 3600 3600 3600 3600
aaaa.com.     3600    IN      A       11.1.1.1.1
aaaa.com.     3600    IN      NS      ns2.youdns.com.
aaaa.com.     3600    IN      NS      ns1.youdns.com.
aaaa.com.     3600    IN      SOA     ns1.youdns.com. dns.youdns.com. 1419473850 3600 3600 3600 3600

删除每个文本中重复的行
像文本1中

123.com.     3600    IN      SOA     ns1.dns.com. dns.dns.com. 1419473850 3600 3600 3600 3600

这行重复了去掉重复的一行

文本2中

aaaa.com.     3600    IN      SOA     ns1.youdns.com. dns.youdns.com. 1419473850 3600 3600 3600 3600

重复了 去掉重复的一行。
我也不知道为什么为有两条SOA记录 真是奇怪

10168 次点击
所在节点    Python
66 条回复
holinhot
2015-04-24 12:24:34 +08:00
@lzg dig遍历的
holinhot
2015-04-24 12:25:14 +08:00
@carmark 有错误是不能被接受的 后期检查不完蛋了
holinhot
2015-04-24 12:25:49 +08:00
@prinzchao 还是你厉害
carmark
2015-04-24 16:27:35 +08:00
@holinhot 所以说就看你的需求了,当然目前的情况是你的数据少,如果数据达到500g,你想过时间是多少么,所以为了时间而抛弃正确率
Mr1028
2015-04-24 16:45:46 +08:00
@holinhot 哈哈哈,手速一定要够快
Mr1028
2015-04-24 16:48:18 +08:00
@hicdn 终于看到 awk 了。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/185684

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX