关于百度爬虫的问题,有些问题必须要提出来了

2017-08-01 17:39:43 +08:00
 xray887

问题:关于百度转码为百度网站的内容显示的问题如下图:

原网站如下图:

请问:

1. 百度每天抓数十万的网站,他们的正文提取,标题提取,发表时间统一格式化,文章出处等,都是专人去写 xpath, re, css selector, bs 吗?
2. 还有个问题,数十万的网站,他们的文章翻页有上千种,他们怎么去做到的翻页问题,难道也是专人去写 xpath, re, css selector, bs 吗?
3. 很多网站做了图片、视频防盗链,但是百度将原网站所有的图片、视频等全包同步到了自己的存储器里面,请问,对于防盗链的网站的资源,他们也是专人去做处理吗?
4. 本人是个爬虫新手,遇到的问题就是上面的问题,其实这几个问题也是通用爬虫的问题,求各位给点意见和建议。
5. 不胜感激涕零。
2733 次点击
所在节点    Python
6 条回复
xray888
2017-08-01 17:53:26 +08:00
有人给解答一下吗
gamexg
2017-08-01 18:12:18 +08:00
/t/309948

1.2.
都是可以机器识别的。

3.爬虫的 referer 一般是空或者是网站 url,都不会碰到防盗链问题。
gamexg
2017-08-01 18:26:53 +08:00
对了,关于 1.2. 记得有开源实现,google 网页 正文 识别 。
huangfs
2017-08-01 23:56:26 +08:00
会有抓取模版匹配的。
yeless
2017-08-02 13:10:32 +08:00
正文抽取算法:
1.基于文本长度的算法,计算字符集密度
2.K-means,聚类中心点取值算法
3.标签模板
xray888
2017-08-02 14:15:16 +08:00
@yeless
@gamexg
@gamexg
@huangfs
谢谢回答。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/379603

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX