我新学习 Python ,看了两个爬虫框架,觉得对我来说太重了,也不利于继续学习基础的知识,于是准备自己先写着。
1 、我封装好基本的 requests 库和写入数据库的文件,已完成。
2 、有 a,b,c,d....需要爬取的网站, 我个每个网站写一个爬取文件 a.py , b.py 每个都能单独的很好运行, 从列表读取待爬取的 url ,然后存入 redis 做队列,接着从 redis 获取 url ,爬取的文档页面内容 存入 mongodb 。已完成。
但问题是, 我每次都要逐个去运行 a.py b.py c.py.... 能不能一起运行呢?谢谢。
1 、我封装好基本的 requests 库和写入数据库的文件,已完成。
2 、有 a,b,c,d....需要爬取的网站, 我个每个网站写一个爬取文件 a.py , b.py 每个都能单独的很好运行, 从列表读取待爬取的 url ,然后存入 redis 做队列,接着从 redis 获取 url ,爬取的文档页面内容 存入 mongodb 。已完成。
但问题是, 我每次都要逐个去运行 a.py b.py c.py.... 能不能一起运行呢?谢谢。