反爬求助

2021-12-28 15:16:10 +08:00
 CaptainD

最近在学习爬虫,在网站反爬的时候遇到些问题

2133 次点击
所在节点    问与答
25 条回复
CaptainD
2021-12-28 15:19:47 +08:00
页面居然乱码了。。。

网站还有个特点,正常浏览器请求有时也会出现 202 ,大概每 4 ,5 次出现一次
hidemyself
2021-12-28 15:24:13 +08:00
爬的网站此时应该贴出来吧
CaptainD
2021-12-28 15:26:34 +08:00
@hidemyself 是国知局的专利数据
http://epub.cnipa.gov.cn/Dxb/IndexPDQuery
大概内容就是最新两周,每周发布的专利申请数据
murmur
2021-12-28 15:27:32 +08:00
别学习爬虫了,是带薪学习把,灰产就老实出钱找人
CaptainD
2021-12-28 15:29:28 +08:00
@murmur 倒也不是,我本身不是爬虫工程师,但是平时喜欢研究些开源的数据,中外都有,总想着以后能靠这东西赚钱
czfy
2021-12-28 15:42:23 +08:00
敢爬 .gov 的数据?
lysS
2021-12-28 15:56:49 +08:00
这个域名~,哈人
ch2
2021-12-28 16:00:26 +08:00
版权所有:国家知识产权局(未经许可不得复制)
牢饭香
deplivesb
2021-12-28 16:04:07 +08:00
主办单位:国家知识产权局 软件维护:知识产权出版社  ICP 备案编号:京 ICP05069085 号
版权所有:国家知识产权局(未经许可不得复制) 技术支持:010-62086466 / 6421 / 6415

牢饭警告
CaptainD
2021-12-28 16:05:49 +08:00
@czfy 有什么说法吗
CaptainD
2021-12-28 16:07:28 +08:00
@deplivesb 不是特别了解这块,专利数据我看大部分是开源的,我的理解开源数据一般不是默认可以爬虫吗,我的经验是看国外开源的数据一般提供了爬虫接口,非常方便,国内的没怎么了解
czfy
2021-12-28 16:11:34 +08:00
1. 爬虫本来就在灰色地带
2. 为什么网站 /App 要反爬?因为别人不想让你爬
3. 别人不想,你还要做,这叫强迫
4. 强迫别人做不想做的事情是违法的
5. 商业公司,是否追究爬虫者的法律责任,主要考虑投入产出比
6. gov 是否追究爬虫者的法律责任,考虑啥我也不知道,可能看心情吧,不过一抓一个准
czfy
2021-12-28 16:12:51 +08:00
@CaptainD 有接口那就不是爬虫了,那叫以对方同意的方式(通过 API )获取对方愿意提供的数据
deplivesb
2021-12-28 16:17:04 +08:00
@CaptainD 专利数据是公开的,但是不代表你可以用爬虫批量获取。而且还是 gov 网站,玩意爬虫频率太快,把网站搞炸了,那就是不是单纯爬虫这么简单了,小心被反手一个非法侵入计算机信息系统罪。
CaptainD
2021-12-28 16:22:40 +08:00
@czfy 感谢科普,之前确实没想这么多,我平时研究数据发现国外的大多提供给你这么几种方式,其中一种就是 linked data ,允许运行程序获取数据,就是我说的接口,可能表述不准确
czfy
2021-12-28 16:30:40 +08:00
国家知识产权局提供什么数据,在这里( http://ggfw.cnipa.gov.cn:8010/PatentCMS_Center/)
目前有一些城市 gov 会提供数据接口调用( https://data.sh.gov.cn/)

一方面,国内 gov 数据公开确实做得一般
另一方面,你提到 “总想着以后能靠这东西赚钱”,这里的法律和道德风险有多少就不好说了
ZAXON
2021-12-28 16:35:17 +08:00
这个网站的爬虫属于比较难的那种吧,楼主实在学 JS 逆向吗🧐
CaptainD
2021-12-28 16:43:49 +08:00
@czfy 这个网站我之前就看过,网站非常卡顿,bug 也比较多,但是提供了开源数据下载,下载流程比较复杂,需要注册还要上传身份证号,我按部就班的注册了,也上传了证件信息,结果不通过,理由是不清楚,但是我拍的照片就是很正常的那种,也不知道为啥,我还给他们发了邮件,询问能否提供开源地址,能否通过程序访问,如果不行能否加速一下认证过程,但是他们回复比较模棱两可,只说我提交的材料不合格

另外赚钱这事我想的比较简单,大学的时候我玩过 kaggle ,当然比较菜,大部分时间就看看数据,看看他们分析一件事找了什么特征,有什么因素能影响事件结果之类的,我说的赚钱是指能不能自己搭建一下系统,然后分析点感兴趣的数据培养一下这方面能力,并不是单纯的卖数据
czfy
2021-12-28 16:47:12 +08:00
@CaptainD 嗯,这就是我说的 “国内 gov 数据公开做得一般”,要不就是完全不公开,要不就不是真心实意想公开,只是给了个口子,实际上还是拿不到

如果你说的是指培养能力,想用国内的数据炼丹,可能可以看看国内仿 kaggle 的网站,上面有一些国内数据
liubaicai
2021-12-28 18:07:14 +08:00
很刑

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/824895

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX