V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  aeshfawre  ›  全部回复第 8 页 / 共 16 页
回复总数  319
1  2  3  4  5  6  7  8  9  10 ... 16  
2016-07-09 06:39:47 +08:00
回复了 redhatping 创建的主题 Python 爬虫思路,这个有趣的网站, 问一下思路怎么来做?
@redhatping 已发邮件
2016-07-08 14:56:37 +08:00
回复了 c7898585 创建的主题 程序员 采集淘宝,找不到促销价格。。。
@c7898585 这个..., 你直接点击连接当然是 forbidden 了. 我只是将链接发出来,指明价格在哪个链接. 你自己在 chrome 的网络数据中找这链接, 只能帮到这里了,剩下的你再研究研究.
2016-07-08 10:52:40 +08:00
回复了 c7898585 创建的主题 程序员 采集淘宝,找不到促销价格。。。
@Allianzcortex 感谢,一直没用过 chrome 这个搜索功能. 最新版本是用快捷键 CTRL+SHIFT+F
2016-07-08 10:47:09 +08:00
回复了 c7898585 创建的主题 程序员 采集淘宝,找不到促销价格。。。
@gdtv 玩爬虫必备工具 burpsuite , 直接在 filter 里面填上你的词,就过滤出来了
2016-07-08 10:19:47 +08:00
回复了 c7898585 创建的主题 程序员 采集淘宝,找不到促销价格。。。
@pyengwoei 江西宜春
2016-07-08 09:11:05 +08:00
回复了 c7898585 创建的主题 程序员 有什么查找加载 js 的工具吗?
一个 ajax 的发出,一定有个网址参数.
在这个页面所有返回的网络数据里面搜这个网址,99%是能找到的.
2016-07-08 09:02:10 +08:00
回复了 c7898585 创建的主题 程序员 采集淘宝,找不到促销价格。。。
作为一个老司机,
比如这个:https://item.taobao.com/item.htm?spm=a219r.lm874.14.9.0Y2qEA&id=530963237947&ns=1&abbucket=16
你说的折扣价就是这个 39.00 吧.
如果是那就是没错.打开这个页面的时候,你会发现有个 get 发出
https://detailskip.taobao.com/service/getData/1/p2/item/detail/sib.htm?itemId=530963237947&modules=qrcode,viewer,price,contract,duty,xmpPromotion,dynStock,delivery,upp,sellerDetail,activity,fqg,zjys,coupon&callback=onSibRequestSuccess
这里面就有促销价格:
{"cart":true,"loginPromotion":false,"price":"39.00","start":false,"type":"\u7279\u4EF7\u6D3B\u52A8"}

话说有人收掉我这个快 30 岁的爬虫司机么,无业游民啊.
2016-07-05 15:01:48 +08:00
回复了 strahe 创建的主题 Python 请教一个爬虫问题
@zqhong 嗯, 解决这个站点不想利用 js 引擎,那就必须将这 js 翻译出来,写出同样功能的代码 , 难度有点高.
2016-07-05 09:59:45 +08:00
回复了 strahe 创建的主题 Python 请教一个爬虫问题
@strahe 可以啊,你将这段 js 看懂,然后用自己的语言编写出同样功能的代码来.
2016-07-05 09:41:24 +08:00
回复了 ipchy 创建的主题 程序员 个人博客有必要站库分离么?
sentris 我感觉还可以啊,搭建 ss 的话,比我手上的板瓦工速度快.
搭网站的话,那 ip 就是证据,我感觉还可以.
刚看到你说 10 美元也不贵
我手上有个 kvmla 的, 72 元,2G 内存,香港 CN2,ping 值稳在 60.
2016-07-05 09:12:38 +08:00
回复了 ipchy 创建的主题 程序员 个人博客有必要站库分离么?
这里有个 sentris 的 2 美元一年的 64M 内存的服务器, 3000pv 也能抗住,溜不溜.
63.223.94.61
2016-07-05 00:55:15 +08:00
回复了 strahe 创建的主题 Python 请教一个爬虫问题
好吧,我错了,其实这也一样只是 cookie 的问题.作为老司机,我必须再练下手,下面是解决的步骤:

准备工作:ubuntu 系统
1:首先安装 phantomjs ubuntu 系统下 最新版 http://phantomjs.org/download.html
cd /usr/local/share/
sudo wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
sudo tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2
sudo ln -s /usr/local/share/phantomjs-2.1.1-linux-x86_64 /usr/local/share/phantomjs
sudo ln -s /usr/local/share/phantomjs/bin/phantomjs /usr/local/bin/phantomjs
which phantomjs

2:获取要被执行的 js, 创建一个 python 文件如下内容:
import requests
import commands
html=requests.get('https://www.bw.com/pool/btcIndexChartsData?type=2')
cookie1=html.cookies['__jsluid'] #第一个 cookie
js = html.text.replace("<script>", '')
js = js.replace("</script>", '')
js = js.replace("eval", 'console.log')
js = js+'phantom.exit()'
f = open('getcookie.js', "w+")
f.write(js)
f.close()
status, output = commands.getstatusoutput('phantomjs getcookie.js') #第一次解析获得用来生成 cookie 的 js 代码
idx=output.find('{};')
output2=output[idx+3:] #去除头部
idx=output2.find('setTimeout')
output2=output2[0:idx] #去除尾部
output2=output2+'console.log(dc);phantom.exit();'
f = open('getcookie.js', "w+")
f.write(output2)
f.close()
status, cookie2 = commands.getstatusoutput('phantomjs getcookie.js') #第二次执行 js 代码获得 cookie
cookie2=cookie2.replace('__jsl_clearance=','')
#用 cookie1 和 cookie2 去获取真正的数据

cookie = {'__jsluid':cookie1 , '__jsl_clearance':cookie2}
html=requests.get('https://www.bw.com/pool/btcIndexChartsData?type=2',cookies=cookie)
print html.text
2016-07-04 19:31:03 +08:00
回复了 strahe 创建的主题 Python 请教一个爬虫问题
我可以肯定不是因为 cookie 引起的,用 burpsuite 重复发送是可以的,但是用 python 就不行,这与我以前遇到的站点类似.
当然这站点 cookie 会过期,这不是重点.
2016-07-04 19:27:15 +08:00
回复了 strahe 创建的主题 Python 请教一个爬虫问题
你们这群人啊,根本就没去试,这网站是很特殊,发送的 header 完全一样却得不到一样的结果.
作为一个爬虫老司机,对这网站表示值得深入研究.
以前遇到过类似一样的站点,https 访问的时候连接的加密设置不同引起的
白帽子减少,黑帽子增加,这就是结局.
国内从事黑帽子的应该有几十万人吧. 白帽子的减少,只会帮助黑产行业的壮大.
一个游戏库是 100 万的起步价,受得了诱惑不?
1  2  3  4  5  6  7  8  9  10 ... 16  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5593 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 03:38 · PVG 11:38 · LAX 20:38 · JFK 23:38
Developed with CodeLauncher
♥ Do have faith in what you're doing.