爬一个单页面的应用遇到个问题

2018-12-06 19:13:14 +08:00
 woshipanghu

现在在爬一个单页面应用的后台,反爬虫处做了很多机制

现在是用 Nightmare 去加载页面,然后解析 html 把数据拿到

这个管理后台又是单页面的应用,数据全部主要的数据放在 iframe 的标签里面。

爬出的 html 结构大致是这样的

<html>
 <head></head>
 <body>
  <div id="main-container"> 
   <div id="main-content"> 
    <iframe id="hashframe" src="" width="100%" height="100%" frameborder="no" border="0" name="hashframe" allowfullscreen=""></iframe> 
   </div> 
  </div>
 </body>
</html>

通过控制台看内容其实都在 iframe 里面

但是爬虫爬过去 这块内容是空的 郁闷了

有什么解决的好思路吗?

1483 次点击
所在节点    程序员
5 条回复
ClutchBear
2018-12-06 20:00:20 +08:00
那肯定有其他请求啊.,
爬异步的哪个请求被
godoway
2018-12-07 00:43:27 +08:00
单页面这种属于前后端分离了吧,看看能不能直接调接口咯。
woshipanghu
2018-12-07 08:25:13 +08:00
@ClutchBear
@godoway
主要是登陆过不了,请求接口上面还有一些 行为检测
ClutchBear
2018-12-07 09:35:40 +08:00
@woshipanghu #3 登录过不了,那不无解吗?
想要弄, 自然是首先模拟登陆
woshipanghu
2018-12-07 09:50:55 +08:00
@ClutchBear 已经解决了 谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/515088

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX