付费做一个新闻爬虫

2017-09-12 16:13:45 +08:00
 brucebot
具体要求:

1. 使用 python3
2. 通过关键词抓取新闻,抓取全文
3. 抓取 wexin 公众号全文
4. 直接写入 Mysql 数据库,数据库 wp 可以直接读取
5. 数据抓取不能有重复(不能和以前数据重复)

前 1,2,3 已经完成了,主要完成后面 4,5 和重构一下前面的一堆代码。

有意请发报价周期到 bruceboty@gmail.com

谢谢
3139 次点击
所在节点    Python
7 条回复
brucebot
2017-09-12 16:14:53 +08:00
也可以 twitter 上 @brucebot
a7063888
2017-09-12 16:35:54 +08:00
scrapy 走起
ila
2017-09-12 21:01:15 +08:00
@a7063888 除了 scrapy 还有哪些类似框架啊
poorguy
2017-09-13 00:16:37 +08:00
@ila beautifulsoup
shawlib
2017-09-13 09:26:55 +08:00
楼上说的 scrapy 跟 beautifulsoup 都不是一个东西,scrapy 是爬虫框架,beautifulsoup 是 html 解析库,(黑人问号???
ila
2017-09-13 12:22:07 +08:00
@shawlib 现在用着 scrapy,想找个后备的
RaymondLiu
2017-09-16 12:42:42 +08:00
@ila pyspider 可视化可分布式爬虫框架

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/390088

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX