关于百度爬虫的问题，有些问题必须要提出来了

问题：关于百度转码为百度网站的内容显示的问题如下图：

原网站如下图：

请问：

1. 百度每天抓数十万的网站，他们的正文提取，标题提取，发表时间统一格式化，文章出处等，都是专人去写 xpath, re, css selector, bs 吗?
2. 还有个问题，数十万的网站，他们的文章翻页有上千种，他们怎么去做到的翻页问题，难道也是专人去写 xpath, re, css selector, bs 吗？
3. 很多网站做了图片、视频防盗链，但是百度将原网站所有的图片、视频等全包同步到了自己的存储器里面，请问，对于防盗链的网站的资源，他们也是专人去做处理吗？
4. 本人是个爬虫新手，遇到的问题就是上面的问题，其实这几个问题也是通用爬虫的问题，求各位给点意见和建议。
5. 不胜感激涕零。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/379603

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.