像这种多新闻来源的爬虫，是每种来源都做一套爬虫？

2020-02-17 09:49:54 +08:00

secsilm

如果不是，通常是用啥方法来做？

6991 次点击

所在节点

Python

33 条回复

Mavious

2020-02-17 12:42:29 +08:00

灰字提要，得人工来提取吧，毕竟新闻也没有固定格式，核心内容还是要人来提取的。

jingniao

2020-02-17 12:45:54 +08:00

丁香园是人工的，因为早上七点之前好像大都不更新。
刚开始那几天好像是小编通宵 /轮班了，晚上也有更新。

jabin88

2020-02-17 12:52:50 +08:00

正文提取算法，不要用正则

2ME

2020-02-17 13:07:06 +08:00

关键词 Readability 识别新闻站的正文进行提取

herozzm

2020-02-17 13:08:08 +08:00

通用爬虫针每个新闻源定制规则

wolfan

2020-02-17 13:11:27 +08:00

爬微博不就成了😅

lshero

2020-02-17 14:19:21 +08:00

有个岗位叫做值班编辑

chroming

2020-02-17 14:33:11 +08:00

专业一点的是用火车头这类工具每个网站写提取规则来爬。要求不高的话找现成正文提取算法直接提取

chroming

2020-02-17 14:33:35 +08:00

如果只是几个网站的话那人工直接复制更简单

secsilm

2020-02-17 20:42:30 +08:00

@locoz 学习了，谢谢

ChangQin

2020-02-17 22:02:57 +08:00

我想爬 twitter 的数据，结果开发者账号好难申请啊。。。

yinzhili

2020-02-18 10:31:15 +08:00

这种肯定是人工介入的，怕出问题责任重大

enrolls

2020-02-22 23:34:25 +08:00

认真观察网页结构，其实是有通用方法的，印象笔记不是也剪藏了莫。
(顺带测试回复功能)

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/645162

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.