请教个关于爬虫的二级页面的问题

2020-05-04 22:44:29 +08:00
 Colorful

数据库用的是 mongo

在保存数据的时候,发现,假如说保存的格式是 'aaa' 就类似这种 html 格式的时候,会报错 如果说报名的是文字则不会 假如说我想保存 html 的话,应该怎么写啊?

2785 次点击
所在节点    Python
17 条回复
ClericPy
2020-05-04 23:06:56 +08:00
每个字都认识, 连起来没看懂..............
liuxey
2020-05-04 23:11:52 +08:00
楼主这语言组织能力就不要假如了,直接上真的,看看 v 友能不能帮的
burringcat
2020-05-04 23:17:10 +08:00
Escape 一下特殊字符?
burringcat
2020-05-04 23:23:17 +08:00
@burringcat 而且"aaa"不是 html 吧
jianzhao123
2020-05-04 23:35:52 +08:00
我猜 lz 想保存 html 却又不知道怎么写代码,保存成 aaa 格式又会错
yuzo555
2020-05-05 00:08:18 +08:00
V2EX 解析了 < a > 标签导致的一场大型回复误解。。。

诸位 F12 查看源代码就知道楼主原意是什么了。

但这和数据库也没有关系吧,应该是你后端过滤了 HTML 字符吧。
burringcat
2020-05-05 00:28:35 +08:00
@yuzo555 omfg !
fushall
2020-05-05 00:32:58 +08:00
@yuzo555 哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈
imn1
2020-05-05 02:24:50 +08:00
数据库用的是 mongo
在保存数据的时候,发现,
假如说保存的格式是 〈 a href='aaaa.html'〉 aaa 〈/a 〉,就类似这种 html 格式的时候,会报错
如果说 保存 的是文字则不会
假如说我想保存 html 的话,应该怎么写啊?
-----------------------------------------------------
v2ex 自动解析
打错一个词
还有可能手机发的,换行消失
共同构成大型事故
petaflops
2020-05-05 07:15:11 +08:00
这不是爬虫的问题,只是写数据库的问题。。。
crella
2020-05-05 08:19:48 +08:00
数据库转义,用已有的库
winnerczwx
2020-05-05 08:33:45 +08:00
#11 转义+1,也可以把 html 标签替换掉再入库,用到的时候再替换回来
llsquaer
2020-05-05 11:39:02 +08:00
@yuzo555 原来上 V2EX 是需要技巧的..哈哈
llsquaer
2020-05-05 11:46:37 +08:00
我也是用 MongoDB 存的 html,是没有问题..但可能遇到过和楼主的情况..

但是有可能你爬的第某个字节是 bytes 类型,(具体原因我也不太明白)
记得有一次爬什么网站遇到过,打死存不进去..直接数据库报错.. 你在存入之前,手动加 str()
你最好把错误码贴出来.
liuxu
2020-05-05 12:37:01 +08:00
转译 html 标签,php 有 htmlspecialchars()这个函数
Colorful
2020-05-05 21:34:21 +08:00
好丢人的一次啊,真的是大型的误解。。

〈 a href='aaaa.html'〉 aaa 〈/a 〉 就是这样的

然后爬虫是用的 python

不过看了评论,大概有思路了
locoz
2020-05-06 11:21:00 +08:00
htmlencode 了解一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/668546

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX