如何自动找出被删除的网页或发帖

2016 年 5 月 3 日
 xiyangyang

应用场景是这样:有一个爬虫系统,各种网站上爬了很多网页。但客户删除了一些网站上的帖子,现在需要重新爬一次,把客户删帖的帖子找出来。这种删帖的情况,好像没有标准。各个网站,论坛会提供各种的 404 方案,甚至是找人。请教各位大侠,有什么办法能怎么准确的找出删帖

3872 次点击
所在节点    Python
8 条回复
binux
2016 年 5 月 3 日
1. status code ,即使是找人,返回码一般也是 404 ,不然对 SEO 不利
2. 比内容
pimin
2016 年 5 月 3 日
按之前爬的网址重新去爬,只发送 HEAD 请求就可以了。
ysdj
2016 年 5 月 3 日
出现重复次数最多的网页为 404
Cu635
2016 年 5 月 3 日
我还以为你要找出被删除的帖子然后保留呢……
badcode
2016 年 5 月 3 日
@pimin 然而像“我”的人会屏蔽发送 HEAD 请求,没有正常点的 UA 门都没
pimin
2016 年 5 月 3 日
@badcode
为什么要屏蔽 head , SEO 不做了?
感觉属于讳疾忌医
badcode
2016 年 5 月 3 日
@pimin 忘记说了,曾经搜索第一个就是它
突然想通了
就不要了
Hxai11
2016 年 5 月 9 日
404
headers
content

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/275909

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX