编写爬虫程序有多少轮子必须自己造?

2020-08-11 13:01:19 +08:00
 Hlianbobo
写一个广泛可用的爬虫程序需要克服很多障碍,解决许多具体的实际问题。障碍清单请看下面这个问题的优质回答:
障碍清单 https://www.zhihu.com/question/265808959

我的问题是克服这些障碍有多少是必须自己亲自造轮子解决?或者哪些问题现有的轮子解决的还不够好?有多少是已经有比较好的轮子可以完美的克服特定的障碍?有没有一个问题和轮子的对照表可以参考一下?最好都是 python 可以调用的轮子。
5437 次点击
所在节点    Python
28 条回复
jeeyong
2020-08-14 23:46:28 +08:00
@locoz 求教针对 selenium webdriver=true 这种检测怎么破?
网上得办法我都试过.
第一种, 访问网站前修改 webdriver 对象. 这里面又有好多种.
第二种, 通过参数屏蔽 webdriver, 这种 chromedriver 更新后就不行了
还有什么办法>?
locoz
2020-08-17 17:56:18 +08:00
@Hlianbobo #18
你爬别人东西,别人会在各种方面(如展示、请求、解析等)阻拦你,而不是仅仅在于你所说的展示部分,也并不一定是获取解密算法和解析算法。逆向是为了将各种阻拦一一剥开,让你的爬虫程序能模拟得像对方自己的客户端一样。

轮子不是只有 python 库...即使单说 python 库,很多时候也不可能仅仅是 import 之后直接调用就能解决问题,总会需要按你自己的情况进行配置的。

大数据、后端、前端的东西可以用来解决特定问题,爬虫本身涉及到的领域就很多,其他相关领域的东西自然可以被拿来用啊。你现在不知道有什么联系、怎么拿来使用,说明你没有碰到过相关问题,等你碰到了自然就会去找、去了解了,没必要刻意学。

我不知道你所说的“做社交媒体逆向”的服务商指的是什么,通常来说这种卖服务的都是卖数据、卖特定加密参数的生成、卖特定验证码的识别等,并且除了卖数据的以外,其他与逆向直接相关的基本都不会在明面上卖。
locoz
2020-08-17 18:01:22 +08:00
@jeeyong #21 最简单的办法就是直接干掉对方的检测...正所谓“只要我把看见我的人都杀了,就没有人会知道我来过”。
Hlianbobo
2020-08-17 19:03:13 +08:00
@locoz 谢谢回复。我明白了。
有没有比较靠谱和知名的爬虫服务提供商。我告诉他我要爬哪些网站的哪些数据,他就按照指定要求爬下来。
locoz
2020-08-17 19:07:05 +08:00
@Hlianbobo #24 这家你可以看看,大部分你需要的应该都有: https://www.idataapi.cn/t/blfaaal
vincekang
2020-08-17 23:26:40 +08:00
项目代码: https://github.com/kangvcar/InfoSpider

项目使用文档: https://infospider.vercel.app

项目视频演示: https://www.bilibili.com/video/BV14f4y1R7oF/

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括 GitHub 、QQ 邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail 邮箱、Outlook 邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ 好友、QQ 群、生成朋友圈相册、浏览器浏览历史、12306 、博客园、CSDN 博客、开源中国博客、简书。
Hlianbobo
2020-08-17 23:46:50 +08:00
@vincekang 谢谢回复。刚看了视频。网站直接输入用户名进入。不需要指定下载内容,软件怎么知爬取哪些内容?看到很多文章说爬取邮件。实务当中爬取邮件是一般是基于什么需求?
vincekang
2020-08-18 00:52:54 +08:00
@Hlianbobo 项目使用说明文档里有每个数据源所爬取的数据的示例哦,你可以仔细看看说明文档哦。
![20200818005018.png]( https://i.loli.net/2020/08/18/HZjuxU1zJSs5aOh.png)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/697344

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX