像这种多新闻来源的爬虫,是每种来源都做一套爬虫?

2020-02-17 09:49:54 +08:00
 secsilm

如果不是,通常是用啥方法来做?

6423 次点击
所在节点    Python
33 条回复
Mavious
2020-02-17 12:42:29 +08:00
灰字提要,得人工来提取吧,毕竟新闻也没有固定格式,核心内容还是要人来提取的。
jingniao
2020-02-17 12:45:54 +08:00
丁香园是人工的,因为早上七点之前好像大都不更新。
刚开始那几天好像是小编通宵 /轮班了,晚上也有更新。
jabin88
2020-02-17 12:52:50 +08:00
正文提取 算法,不要用正则
2ME
2020-02-17 13:07:06 +08:00
关键词 Readability 识别新闻站的正文进行提取
herozzm
2020-02-17 13:08:08 +08:00
通用爬虫 针每个新闻源定制规则
wolfan
2020-02-17 13:11:27 +08:00
爬微博不就成了😅
lshero
2020-02-17 14:19:21 +08:00
有个岗位叫做 值班编辑
chroming
2020-02-17 14:33:11 +08:00
专业一点的是用火车头这类工具每个网站写提取规则来爬。要求不高的话找现成正文提取算法直接提取
chroming
2020-02-17 14:33:35 +08:00
如果只是几个网站的话那人工直接复制更简单
secsilm
2020-02-17 20:42:30 +08:00
@locoz 学习了,谢谢
ChangQin
2020-02-17 22:02:57 +08:00
我想爬 twitter 的数据,结果开发者账号好难申请啊。。。
yinzhili
2020-02-18 10:31:15 +08:00
这种肯定是人工介入的,怕出问题责任重大
enrolls
2020-02-22 23:34:25 +08:00
认真观察网页结构,其实是有通用方法的,印象笔记不是也剪藏了莫。
(顺带测试回复功能)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/645162

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX