求助！找不到 Python 代码 bug

2024-01-21 21:40:06 +08:00

Persimmon08

代码功能很简单，如下所示

从名为 nameURL.txt 的文件中读取以英文逗号分隔的每一行，每行包含文件名和对应的链接。
从名为 remote_filename.txt 的文件中读取已下载的文件名列表。
遍历 nameURL.txt 中的每一行，检查文件名是否在已下载文件列表中。
如果文件名不在已下载文件列表中，则将该文件名和对应的链接写入名为 undownload_mp3.txt 的文件。

download_checker.py

# 读取 nameURL.txt 中的文件名和链接
with open('nameURL.txt', 'r', encoding='utf-8') as file:
    name_url_lines = file.readlines()

# 读取 remote_filename.txt 中已下载的文件名（去除后缀）
with open('remote_filename.txt', 'r', encoding='utf-8') as file:
    downloaded_files = [line.strip('.mp3') for line in file.read().splitlines()]

# 遍历每一行，检查文件名是否在已下载文件列表中，如果不在则写入 undownload_mp3.txt
with open('undownload_mp3.txt', 'w', encoding='utf-8') as file:
    for line in name_url_lines:
        filename, url = line.split(',')
        if filename not in downloaded_files:
            file.write(f'{filename.strip()},{url.strip()}\n')

print('未下载的文件名和链接已写入 undownload_mp3.txt 文件。')

测试遇到的问题，undownload_mp3.txt中竟然存在少量remote_filename.txt中的存储的已下载的文件名，例如第一行数据中的文件名The-Joshua-Generation-grows-up

实在找不到问题出在哪里，特来请教大家，谢谢

nameURL.txt链接： https://github.com/deyunwanxin/rawData/blob/main/nameURL.txt

remote_filename.txt链接： https://github.com/deyunwanxin/rawData/blob/main/remote_filename.txt

undownload_mp3.txt链接： https://github.com/deyunwanxin/rawData/blob/main/undownload_mp3.txt

2424 次点击

所在节点

20 条回复

yiguanxianyu

2024-01-21 21:57:17 +08:00

可以把有问题的几行单独提出来 debug

WoofZJ

2024-01-21 22:07:59 +08:00

strip 不是这样用的，它你传”.mp3"实际上会把结尾有这四个字符之一就一直清除到不含，The-Joshua-Generation-grows-up.mp3 变成了 The-Joshua-Generation-grows-u

watry

2024-01-21 22:08:46 +08:00

line.strip('.mp3') 删除的不是'.mp3'字符串，而是其中的任意字符，所以会把'p.mp3'一起去掉

WoofZJ

2024-01-21 22:10:29 +08:00

字符串有个 removesuffix 方法，应该用这个 line.strip('.mp3')=>line.removesuffix('.mp3')

Persimmon08

2024-01-21 22:15:06 +08:00

@WoofZJ 谢谢大佬指点，万分感谢

Persimmon08

2024-01-21 22:15:58 +08:00

@Persimmon08 谢谢大佬，感谢指教

MiketsuSmasher

2024-01-21 22:16:43 +08:00

楼市其他人已经解释得很清楚了，移除后缀不应该用 line.strip('.mp3')，看看官方文档，这个方法做的跟你想的根本不是一回事： https://docs.python.org/zh-cn/3/library/stdtypes.html#str.strip

要移除后缀，应该改成 line.removesuffix('.mp3')： https://docs.python.org/zh-cn/3/library/stdtypes.html#str.removesuffix

Persimmon08

2024-01-21 22:16:58 +08:00

@yiguanxianyu 学艺不精，让大家见笑了

Persimmon08

2024-01-21 22:19:15 +08:00

@MiketsuSmasher 谢谢指点，我去好好看看文档

NoOneNoBody

2024-01-21 22:24:50 +08:00

1. name_url_lines downloaded_files 转为 set 做交集或差集更方便
2. 去除末端应该用 rstript 而不是 stript ，避免前端也匹配的不严谨情况
3. 去除末端一段字符串应该用正则，stripe/rstript 的参数是字符集，相当于{'.', 'm', 'p', '3'}无序任一，而不是有序的'.mp3'字符串，楼上已经说清楚了。而且，如果是 windows 系统，因为文件名大小写不区分，为了同时匹配大小写的情况，更应该用正则；其他系统则视乎需求

Persimmon08

2024-01-21 22:45:24 +08:00

@NoOneNoBody 非常感谢，又学到了很多东西

yushenglin

2024-01-22 09:14:14 +08:00

好久没写 python 了，以前常用 os.path.splitext 来提前文件名和后缀，挺简单的

l1xnan

2024-01-22 10:34:45 +08:00

路径处理还是上 pathlib 库省事

PTLin

2024-01-22 11:07:14 +08:00

https://www.v2ex.com/t/971492#reply12 此时此刻恰如彼时彼刻

Persimmon08

2024-01-22 12:46:07 +08:00

@yushenglin 果断选择这种方式

Persimmon08

2024-01-22 12:48:09 +08:00

@l1xnan 又学到了一种新方法，知道了一个新的库，大家懂得好多啊

julyclyde

2024-01-22 12:49:19 +08:00

@PTLin 971492 居然才 137 天之前吗？我觉得已经过了好久了……

Persimmon08

2024-01-22 12:52:26 +08:00

@PTLin 学习路上不孤单，哈哈

CHchenkeyi

2024-01-22 16:53:27 +08:00

好吧，我之前都是用 rstrip('.') 去切割，看来还麻烦了

Persimmon08

2024-01-23 21:13:27 +08:00

@CHchenkeyi 也是一个不错的办法

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1010467

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX