对于 Python 爬虫遇到一个问题，对于这样一个网站： www.icgoo.net，它好像是异步加载的，需要的型号数据在 XHR 里的 html 语句里，设置了 csrftoken。请问要什么方案爬取比较好呢？先谢谢打大家了

2018 年 3 月 13 日

sr0miao

4727 次点击

所在节点

Python

11 条回复

cdwyd

2018 年 3 月 13 日

获取 csrftoken 然后抓就是了

sr0miao

2018 年 3 月 13 日

@cdwyd 请问如何获取呢

Mojy

2018 年 3 月 13 日

最简单的方式是通过模拟浏览器的方式进行爬虫，缺点就是稍微有点慢，需要等到页面加载完成才好

cokky

2018 年 3 月 13 日

用 phantomjs 模拟浏览器方式来试试

Nick2VIPUser

2018 年 3 月 13 日

点进 chrome 里面的 Source，到?partno=ADIS16251ACCZ&qty=1 这个 page 里面搜索 token 字段，把 token 出现的地方打断点调试，边调试边读 js 代码的实现，token 初始值多少经过什么代码变成了什么样子，最后算出来是多少。然后使用 python 代码实现～

welkinzh

2018 年 3 月 13 日

五楼的方法是对的，不过如果处理 token 的 js 比较恶心的话就很麻烦，想简单就用 PhantomJS

locoz

2018 年 3 月 13 日

逆向自己实现加密 /抠 js 加密部分出来运行 /模拟浏览器

fsdman1216

2018 年 3 月 14 日

selenium + webdriver

noqwerty

2018 年 3 月 15 日

requests-html 了解一下

wc110302

2019 年 3 月 14 日

https://blog.csdn.net/qq_39802740/article/details/88557981 我最近写了个爬虫~ 好像就是这个 icgoo 的哈哈不过是 366 天前的了

sr0miao

2019 年 3 月 15 日

@wc110302 哈哈，366 天前我还在实习呢

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/437678

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.