Python socket recv 老是收不全数据怎么办?

2018-09-17 15:52:07 +08:00
 userlol

部分代码:

#平台限制,只能用 Python2.x 实现
import socket
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
sock.bind(('0.0.0.0',80)
sock.listen(1)

下面是 recv 应该收到的完整数据(HTTP 请求):

POST /data/fetchdata HTTP/1.1
Host: www.demo.com
Accept: application/json
Accept-Encoding: gzip, deflate
Content-Length: 8
Cookie: debug=1
Connection: closed

result=1

一开始为了接收数据写的的代码:

buf=''
While True:
    buf = buf + client.recv(1024)
    if not buf or len(buf)==0:
    	break #结果是从来不 break

再试

buf = client.recv(4096)

这个只能收到一部分数据(HTTP response body 收不到)。这里有个问题,无论把 buffer 调整多大,第一次 recv 的返回值总是 HTTP response header 部分的数据,很奇怪

后来试了

buf = client.recv(1024)  #成功接收 HTTP response header
print "123"
buf = client.recv(1024)  #应该接收 HTTP response body,但是一直 blocking
print "456"

这样的,发现 456 根本不输出。

快速 Google 之后也没发现什么适合的解决方法,唯一一个靠谱点的是用 try except 配合自定义 timeout 来检测是否 blocking,缺点就是在网络环境比较恶劣的情况下(比如我现在的)也会丢数据。

向大家求教,谢谢!

8345 次点击
所在节点    程序员
13 条回复
neoblackcap
2018-09-17 17:38:29 +08:00
你自己不 parse 就想读出来? tcp 又不保证你一次就收到全部数据
userlol
2018-09-17 17:44:03 +08:00
@neoblackcap 求教,循环执行 recv 收所有数据没关系,但是如果最后一次数据收空了,recv 就又进入等待状态了,这个怎么解决?
Tyanboot
2018-09-17 18:10:59 +08:00
@userlol 这就是流的处理问题了。HTTP 还行,可以读一部分就解析一部分,拿到 content-length 之后就立刻再算你还需要接受多少。
neoblackcap
2018-09-17 18:26:16 +08:00
@userlol 如 3 楼所说,你必须先循环读出头部,然后才按长度去读剩下的部分。
还有就是你读到尾部,也有可能是一部分尾部,一部分是另外一个请求,记得将他们分开
neoblackcap
2018-09-17 18:27:57 +08:00
而且你想性能好些应该用 epoll 来监听 socket 是否可读,用另外一个线程去读
sampeng
2018-09-17 18:28:04 +08:00
content-length 就是干这个用的。。。
miniliuke
2018-09-17 19:07:17 +08:00
http 应该是短链接( http2 除外,我不太了解),你循环读把数据拼接起来就行,直到服务器关闭连接结束......一般一次连接不会传两个 http 数据的......你直接读到 socket 关闭就行
misaka19000
2018-09-17 19:31:28 +08:00
最近刚刚用 go 写过一个程序,里面包含了对 HTTP 请求的简单解析,楼主可以参考下,Python 实现起来也差不多

https://gist.github.com/RitterHou/e77b38acdd30d30ee3b9f19004940d3c
ysc3839
2018-09-17 20:06:34 +08:00
buf=''
While True:
. recv = client.recv(1024)
. if not recv or len(recv) == 0:
. break
. else:
. buf += recv
Jamy
2018-09-17 20:22:31 +08:00
>buf = client.recv(1024) #应该接收 HTTP response body,但是一直 blocking
>print "456"
这说明缓冲区里没数据了,
检查一下发送端是不是没发送完整.
需要注意下.send 方法可能会只发送部分数据,要自己检查返回值.
pabupa
2018-09-17 20:40:01 +08:00
lcj2class
2018-09-17 20:50:37 +08:00
之前总结过这类情况,可参考:
https://liujiacai.net/blog/2016/10/31/socket-programming/
BingoXuan
2018-09-18 09:37:19 +08:00
tcp 又不保证你的数据能快速按顺序到达缓存区,所以一直接收直到识别到 eof 或特定结束符就可以了。我还遇过收数据收到前面一部分数据,后面死活收不了,一关闭就收到剩下的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/490108

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX