如何爬取日本亚马逊的商品数据?

2019-01-04 10:15:24 +08:00
 Negan
老大给了个任务要爬日本亚马逊上某类商品的价格以及评论,自己之前都是爬国内的,日本亚马逊现在被墙了,需要怎么样才能爬到数据呢? lantern 连上了然后终端 export https_proxy=localhost:port 也试过了,国外的代理 IP 也试过了,都以失败告终,错误如下:
requests.exceptions.ProxyError: HTTPSConnectionPool(host='www.amazon.co.jp', port=443): Max retries exceeded with url: /dp/B000UTKMDQ (Caused by ProxyError('Cannot connect to proxy.', ConnectionResetError(104, 'Connection reset by peer')))
请问一下各位,是怎么爬的? API 还是其他方式?感谢感谢
3322 次点击
所在节点    Python
12 条回复
sobigfish
2019-01-04 10:19:31 +08:00
被墙了就找国外的服务器部署爬呗
难道你要自己掏钱?
kanata
2019-01-04 10:24:32 +08:00
。。。买台日本服务器呗,对于公司来说一个月也没多少钱
Negan
2019-01-04 10:26:44 +08:00
@sobigfish 掏钱肯定是老大掏,我就想看看还有没有其他方法能够爬到数据,哈哈,感谢大佬回答
Negan
2019-01-04 10:28:31 +08:00
@kanata 公司应该有,我想的是能自己解决就自己解决,搞不定再找老大
vtwoextb
2019-01-04 10:28:37 +08:00
买个 linode 不就行了吗 很便宜的
edsheeran
2019-01-04 11:38:59 +08:00
姿勢不對
locoz
2019-01-04 12:54:47 +08:00
被墙了的网站你直接用国内的机子连国外代理是不可能爬的。。。要不然帆樯的时候还用得着酸酸之类的东西吗,直接连个代理就完了。
ctro15547
2019-01-04 12:57:11 +08:00
几十块一个月随便搞个搬瓦工部署一下唄,对于数据而言这点钱不算啥吧
gogo2
2019-01-04 13:01:16 +08:00
amazon 不好爬的, 和淘宝一样的,
testcaoy7
2019-01-04 13:06:19 +08:00
其实我一直不明白为什么要墙亚马逊日本
sobigfish
2019-01-04 13:24:29 +08:00
@testcaoy7 #10 估计日本文化的东西,但那种东西好像本来就不能出口
---
lz 爬这些肯定不是一次性的,所以代理什么的只能解决几次需求,部署到国外的服务器上一直实时爬才是好的节奏。
JasperYanky
2019-01-04 14:10:35 +08:00
有 api

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/523738

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX