V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  lerry  ›  全部回复第 33 页 / 共 61 页
回复总数  1207
1 ... 29  30  31  32  33  34  35  36  37  38 ... 61  
polipo也有win版本
win平台 ccproxy
linux mac平台 polipo
2015-03-26 17:27:56 +08:00
回复了 Bviews 创建的主题 问与答 公司无线网络方案求推荐
请问楼主,你采取的方案效果怎么样啊
2015-03-25 09:56:26 +08:00
回复了 dedewei 创建的主题 Python 爬豆瓣相册遇到 403,伪装浏览器不成功,呼叫总部...
@dedewei 我用的PyQuery,可以像jQuery一样操作dom元素,很方便
2015-03-24 13:33:27 +08:00
回复了 dedewei 创建的主题 Python 爬豆瓣相册遇到 403,伪装浏览器不成功,呼叫总部...
既然是伪装浏览器,就要尽可能的像浏览器一样
使用 requests.Session 把浏览器的headers都带上,能应付大部分网站,有的要有Referer,有的要js执行了才行,就用 phantomjs
理论上爬虫是防不住的,顶多是会限制频率罢了,这时侯你可以找一堆匿名代理
2015-03-18 00:31:28 +08:00
回复了 88 创建的主题 Python 小白问一个 python 爬虫中文乱码的问题
这样
#!/usr/bin/python
# coding: utf-8

import requests
r = requests.get("http://court.gov.cn/zgcpwsw/bt/xjscjsbtdseszjrmfy/wlmqkqrmfy/ms/201503/t20150313_6914630.htm")
print r.content

或者

#!/usr/bin/python
# coding: utf-8

import requests
r = requests.get("http://court.gov.cn/zgcpwsw/bt/xjscjsbtdseszjrmfy/wlmqkqrmfy/ms/201503/t20150313_6914630.htm")
r.encoding = "utf-8"
print r.text.encode('utf-8')

r.content 是网页原始编码,r.text 是decode后的内容,这个网页是utf-8编码,可以直接print

r.encoding = "utf-8" 手工设置编码,这样text会使用你设置的编码decode

另外,楼主开头几行改变默认编码是不建议的写法
2015-03-17 18:26:41 +08:00
回复了 hmhm7442 创建的主题 问与答 生活在帝都这样的城市,晚上下班了,干点什么?
楼主可以买info域名,便宜得多
2015-03-03 10:06:13 +08:00
回复了 tywtyw2002 创建的主题 问与答 求助在 linux 下如何删除这样一个奇葩文件
楼主可以换一个更强大的Shell程序,比如zsh,输入rm 按 tab 会依次选中当前目录下的文件,就可以删除了
2015-03-02 17:07:59 +08:00
回复了 shuson 创建的主题 HTTP 有没 http 协议大神,求助回答一个 authorization 的问题
请求-->发现需要认证-->prompt让你输入账号密码-->带着认证信息再次请求
2015-03-02 14:14:01 +08:00
回复了 shuson 创建的主题 HTTP 有没 http 协议大神,求助回答一个 authorization 的问题
$ curl -vv xxx.com
* Rebuilt URL to: xxx.com/
* Hostname was NOT found in DNS cache
* Trying xxx.xxx.xxx.xxx...
* Connected to xxx.com (xxx.xxx.xxx.xxx) port 80 (#0)
> GET / HTTP/1.1
> User-Agent: curl/7.37.1
> Host: xxx.com
> Accept: */*
>
< HTTP/1.1 401 Unauthorized
< Server: xxx
< Date: Mon, 02 Mar 2015 06:07:33 GMT
< Content-Type: text/html
< Content-Length: 644
< Connection: keep-alive
< WWW-Authenticate: Basic realm="Restricted"
<
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<html>
<head><title>401 Authorization Required</title></head>...

请求已经发了,header里要求认证
2015-02-18 22:58:50 +08:00
回复了 fnmsd 创建的主题 问与答 有谁春晚摇一摇摇到什么了么。。。
2015-02-15 22:19:31 +08:00
回复了 kstsca 创建的主题 Apple 378 元(用券)苹果( Apple) MB829FE/A 蓝牙鼠标
感谢分享,一直想买个MM用
2015-02-13 10:18:13 +08:00
回复了 oldream 创建的主题 酷工作 对冲基金求爬虫监测方面猛士,远程兼职年酬 10 万*N !
@romotc 求问图片出处,谢谢~
是web服务器吗?
如果是的话,nginx可以这样写
upstream backend {
server a.com;
server b.com backup;
}

server {
listen 80;
server_name xxx.com;

proxy_next_upstream error timeout http_502;

location / {
proxy_pass http://backend;
}

}
2015-02-01 02:10:55 +08:00
回复了 x314 创建的主题 问与答 想用python建个网站
@daiv 都一年半了,已经换成Farbox,不过我现在更喜欢bottle了,用Gevent来跑bottle,同样支持异步
1 ... 29  30  31  32  33  34  35  36  37  38 ... 61  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5617 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 03:18 · PVG 11:18 · LAX 20:18 · JFK 23:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.