python3 多进程求助 OSError: [Errno 24] Too many open files

业务：有大量(本次测试时 1 万多张)图片需要转成 base64 编码后，送入 http 接口请求处理，我采用以下代码: base64 用生成器处理， request 用多进程。但下面代码跑到一半的时候，直接抛了 OSError: [Errno 24] Too many open files，百度了一下，看上去是进程超过所能开启的最大文件数了， ulimit -n # mac 8192 请教下各位，我怎么应该 fix 这个问题，最终需求就是想快速高效的完成这个操作，可能我写的代码一开始就有问题，还希望大佬们指点一下。

import json
import time
import requests
import base64
import os
from multiprocessing import Process




def img_to_base64(img_path):
    r = {}
    for root, dirs, files in os.walk(img_path):
        for pic in files:
            if pic.endswith(('.png', '.jpg', '.jpeg', '.tiff', '.bmp', '.gif')):
                img = os.path.join(root, pic)
                with open(img, 'rb') as f:
                    bs64 = base64.b64encode(f.read()).decode('utf-8')
                    r[img] = bs64
                    yield r



def req(host, img_path):
    bs64_generator = img_to_base64(img_path)
    procs = []

    for items in bs64_generator:
        body, pic = None, None
        for pic, base64 in items.items():
            body = {
                "requests": [
                    {
                        "resource": {
                            "base64": base64
                        }
                    }
                ]
            }

        p = Process(target=r, args=(host, body, pic))
        procs.append(p)
        p.start()
    for proc in procs:
        proc.join()




def r(host, body, img):
    url = f'http://{host}/demo/'
    r = requests.post(url, data=json.dumps(body))
    print(img, r.json().get('results'))
    ret = r.json().get('results')[0]['status']
    if ret != 'OK':
        print(img, ret)




req('10.10.23.17:3345', './mypic/')

imn1

2021-03-30 17:11:04 +08:00

前置重点：看下面第四点

我做过类似的，不过不是 base64，而是 CRC32，应该比 base64 耗时，8K 张图片
建议：
1. base64 移出 os.walk，同时也建议 os.scandir 替换 walk，递归只 yield 返回路径就好了
2. 多进程可以尝试换成 Pool+Pool.imap()，注意要用 close()，参考手册，Pool.close 要在 Pool.join 前面，同时限制线程数量
3. 小问题，扩展名列表只有小写，你确保一万多文件扩展名都没有大写字母么？不小心会漏掉文件的
4. 最后是严重的逻辑错误，img_to_base64 里面的 r 是个字典，你最后 return 一次就够了，怎么是不停 yield 这个字典呢？我觉得这是最大问题

我以前考虑是遍历的同时处理文件，还是遍历了路径再处理文件，后来我看到遍历树是递归+yield，就不纠结了
递归里面处理文件，处理文件 yield 结果，这两个都不是好想法，肯定有说不清的问题（因为 python 是调用系统 API 打开文件的），所以直接就用递归 yield 路径，然后再考虑其他方式优化文件处理