有大佬能抓取这个网址吗

2020-03-04 11:06:49 +08:00
 gongfuxiongmao

http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml

这个网址看着是静态网站,但是还是抓不到数据

4120 次点击
所在节点    问与答
27 条回复
shuizhengqi
2020-03-04 11:09:10 +08:00
你信不信你会被喝茶
murmur
2020-03-04 11:11:06 +08:00
一天一条数据你还写个爬虫,是家里的饭不香了还是房子没单间大了
gongfuxiongmao
2020-03-04 11:13:08 +08:00
@shuizhengqi 抓一个这网站,还好吧?又没违法
opengps
2020-03-04 11:15:27 +08:00
诚心建议:写爬虫不要碰这类网站
ESeanZ
2020-03-04 11:16:41 +08:00
“.gov.cn”这种域名的就别碰了
mianbao1
2020-03-04 11:16:49 +08:00
这是 zf 的网站吧
gongfuxiongmao
2020-03-04 11:18:19 +08:00
好吧,那还是听大家的吧,本来只是想学习一下,有疫情更新,就给自己发个邮件。
jeffrycheng
2020-03-04 12:57:36 +08:00
相信网警的力量,分分钟就警察到你家
hundan
2020-03-04 13:16:10 +08:00
又不造成影响 访问频率跟浏览差不多吧 除非你拿来做奇怪的用途 楼上一群未免矫枉过正? icp 备案查询不也是 gov 域名 用 icp 备案查询网站做爬虫反代的你们是没见过吗? 别说请你喝茶不讲理由 爬这个站点是触动了什么利益吗 看心情请你喝茶?
fengbjhqs
2020-03-04 13:46:21 +08:00
没有楼上说的那么可怕, 不要爬取用户信息,还有遵循 robots 协议,比如掘金的 https://juejin.im/robots.txt 和知乎的 https://www.zhihu.com/robots.txt ,坑爹的是这个网站没有

静态文件可以用正则,如果是 js 可以用 cheerio 或者 jsdom,

再有如果是疫情网上有其他 api,没有必要爬这个哇
aureole999
2020-03-04 15:37:51 +08:00
curl 都可以拿到内容啊,有啥不行的?
coderluan
2020-03-04 15:44:48 +08:00
告诉楼主个思路,别用爬虫,用油猴,数据肯定能拿到,这样实际上抓取的操作都是在你自己的电脑完成的,对于网站来说你只是打开页面速度很频繁而已,完全是安全的,这种方式”爬“数据的唯一缺点就是性能。
Altar
2020-03-04 15:54:46 +08:00
headless chrome
fish267
2020-03-04 16:06:01 +08:00
这么低频的,写个自动化脚本不就搞定了么
barrelsoil
2020-03-04 16:07:46 +08:00
@fengbjhqs 知乎把字节跳动屏蔽了?
13k
2020-03-04 16:07:59 +08:00
疫情数据新浪和网易都有 api,自行搜索 v 站
crella
2020-03-04 19:49:20 +08:00
这种静态网页,说不定连访问 ip 记录都没有……

广东省教育厅网页也几乎全是静态网页,加载速度很快
Macguffin
2020-03-04 20:01:38 +08:00
feed43,注册一个免费账号就行
Mavious
2020-03-04 21:07:31 +08:00
feed43 不是通用型爬虫,遇到 js 就挂比。不过楼主这种简单低频的需求我强烈推荐 feed43。

目前发现 feed 的 5 种失败情况:
1,post 协议给数据( feed43 只支持 get,除非自建,否则完全无法解决,绝望)
2,该网站不允许国外访问(年久失修 g0v 居多,除非自建,否则完全无法解决,绝望)
3,js 返回数据的(看近几年有好转,feed43 正在改善这个问题,现在很少见了)
4,成功抓取了但无法记忆上一次已阅点的。一条页面 20 个条目,今日已读完,明天网站没有更新条目,但这 20 条又推过来了,简直重复条目轰炸。
5,网站临时性无法访问,feed 推个 bad request,长期性无法访问,就第一次推过 bad,然后就悄无声息了~?需要人肉排查找出无法更新的源,有时候很久才发现爬虫挂了,然后错过重要信息。累。
gongfuxiongmao
2020-03-04 21:14:08 +08:00
这个网站我用 postman,发现返回的数据,没有正文

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/649691

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX