付费做一个新闻爬虫

2017-09-12 16:13:45 +08:00

brucebot

具体要求:

1. 使用 python3
2. 通过关键词抓取新闻，抓取全文
3. 抓取 wexin 公众号全文
4. 直接写入 Mysql 数据库，数据库 wp 可以直接读取
5. 数据抓取不能有重复（不能和以前数据重复）

前 1，2，3 已经完成了，主要完成后面 4，5 和重构一下前面的一堆代码。

有意请发报价周期到 bruceboty@gmail.com

谢谢

3695 次点击

所在节点

Python

7 条回复

brucebot

2017-09-12 16:14:53 +08:00

也可以 twitter 上 @brucebot

a7063888

2017-09-12 16:35:54 +08:00

scrapy 走起

ila

2017-09-12 21:01:15 +08:00

@a7063888 除了 scrapy 还有哪些类似框架啊

poorguy

2017-09-13 00:16:37 +08:00

@ila beautifulsoup

shawlib

2017-09-13 09:26:55 +08:00

楼上说的 scrapy 跟 beautifulsoup 都不是一个东西，scrapy 是爬虫框架，beautifulsoup 是 html 解析库，(黑人问号???

ila

2017-09-13 12:22:07 +08:00

@shawlib 现在用着 scrapy，想找个后备的

RaymondLiu

2017-09-16 12:42:42 +08:00

@ila pyspider 可视化可分布式爬虫框架

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/390088

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.