网站如何防爬

24 天前
 happydayandnight
我们网站有 IP 限制,一些关键信息还有点击限制,比如电话需要点击才会请求服务器显示,每天也有次数限制(通过 IP )。但是还是被爬了。

对方提到的技术如下,请问如何防爬:
l was used Proxy rotating for solve blocking and Use seleniumweb driver for click. Finally l was successfully scraped 40K data from thesourcing site.
908 次点击
所在节点    站长
10 条回复
cruzzz
24 天前
IP 限制、点击限制、次数限制,这些和防爬一点关系也没有。我一个 wordpress 小白都听不下去了。
感觉这个话题太大了,以我在 v2 摸鱼这么多年的经验来看,最后一般是:无解~

没有爬不到的网页。
passive
24 天前
关闭字体缓存,随机字体编码。但是也隔绝了搜索引擎的爬虫。
StinkyTofus
24 天前
反爬都是以牺牲用户体验为代价的, 例如淘宝, 淘宝网页版反爬,把用户都弄的跑光了, 没一个人会说淘宝的体验好。
我觉得只要没有影响到服务器运行, 不要用什么反爬策略,最多也就是限制一下极端的请求频率即可。
devswork
24 天前
没有绝对的反爬,OCR 怎么解?
fyq
24 天前
技术上讲,只要能显示出来的东西,都能被爬到。经济上说,看哪一方谁更愿意投入成本而已。
fuzzsh
24 天前
用 css 画不用字体,干下 50%爬虫
kernelpanic
24 天前
瑞数
HUZHUANGZHUANG
24 天前
cloudflare 的那个进站验证是不是人那个功能,不知道可以不可以
baobao1270
24 天前
上 Cloudflare ,开 Bot Fight Mode
happydayandnight
23 天前
@baobao1270 开了 Bot Fight Mode 的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1035036

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX