前端编辑器传来的数据， BeautifulSoup 防止 xss 攻击，为了解析 script 缺得到了 <script> 此题怎解， 555

[这是前端的内容：]
<h1>hello</h1>
<span>123</span>
<h1>hello</h1>
<span>123</span>
<h1>hello</h1><span>123</span>
<script>alert(123)</script>
<script>alert(123)</script>
<script>alert(123)</script>

[后端解析到的是：]
<pre><span style="color:#6a8759;"><h1>hello</h1><span>123</span> </span><span style="color:#6a8759;"><h1>hello</h1><span>123</span> </span><span style="color:#6a8759;"> </span><span style="color:#6a8759;"><h1>hello</h1><span>123</span> </span><span style="color:#6a8759;"> </span><span style="color:#6a8759;"> </span><span style="color:#6a8759;"><script>alert(123)</script> </span><span style="color:#6a8759;"><script>alert(123)</script> </span><span style="color:#6a8759;"><script>alert(123)</script></span></pre>

[后端代码是：]
if request.method=="POST":
title=request.POST.get('title')

content=request.POST.get("content")
#拿到标签字符串
soup = BeautifulSoup(content, "html.parser",fromEncoding="UTF-8")
#先过滤：
for tag in soup.find_all():
if tag.name == "script" : #####问题出在这里，哪怕我换成”</script>“，也匹配不到这里的 if
print("script--------->",tag.name) #####所以压根走不到这里，我懵了，555 怎样变回 script 呀？？
tag.decompose() # 从 soup 里吧这个 script 的 tag 删除掉

desc = soup.text[0:150] #对文本进行截断 #######这里就变回了 script，怎么让前面的就变回 script ？？

wyzerg

2019-08-06 14:10:36 +08:00

@Leigg
@ysc3839
@locoz
@starsriver
谢谢非常感谢，我用
@ysc3839 方法试了下，用这个解决了
import html
content=request.POST.get("content")
content = html.unescape(content)
soup = BeautifulSoup(content, "html.parser")

----------------
html.unescape 这个方法就是把转义的 script 标签( <script> )，再反转义回来( <script> )
这样 for 循环，for tag in soup.find_all():就能拿到正规的<script>标签了，然后避免 xss 就把他 decompose() 删除掉就可以了，非常感谢

wyzerg

2019-08-06 15:44:54 +08:00

@ysc3839 老哥，那比如博客园，csdn 那种，放代码进去就是你的办法吗，你的意思是，<script> 获取到了，不转 script 了，那我存数据库就是<script> ，那前端调用呢？我应该模板用 safe 吧，这么说我有点懵了😂

no1xsyzy

2019-08-06 16:00:27 +08:00

那你这个样子做，如果我要给别人展示一段 HTML 代码怎么做？我如何包括一个 script 标签？
如果你指望的是像各个免费邮箱的 “纯文本编辑” 或者说 “ HTML 代码编辑” 的话，邮箱们其实有比较完善的处理方案，还要把所有的 @on(.*) 给换成 @on_$1 等（混杂了 XPath 和 RegExp 有点诡异，就这么看吧），但你不知道哪天 W3C 弄出一个新的标准使得某个奇怪的地方突然变成可以执行代码的了，又是 XSS。
如果要富文本，BBcode、Markdown、有限 HTML （仅 font h[1-6] br 等特定的）哪个方案不行？非要自己做过滤？

wyzerg

2019-08-06 16:10:45 +08:00

@no1xsyzy 嗯嗯我解释下哈
前端我用的是 KindEditor 做编辑器，在正常输入: <span>123</span> <script>alert(123)</script>
然后 post 请求发给后端
后端 request.POST 拿到数据
查看这条数据是变成了： </span>123<span style="color:#6a8759;"> <script>alert(123)</script>
如果为了展示给前端，用模板语法{{ article_obj.content|safe }}：显示：<span>123</span> 效果
所以把 script 过滤掉了。。。

no1xsyzy

2019-08-06 18:20:43 +08:00

@wyzerg 我还是没明白你需要什么效果？
如果我想要写一段关于网页和 JavaScript 技术的文字如下：
```
<template>
<div>
{{foo}}
</div>
</template>

<script>
export default {
data(){return {foo:"bar"}}
}
</script>
```
我该如何写？
是不是用户永远不被允许写下包含 "<script>" 的文字了？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/589358

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

前端编辑器传来的数据， BeautifulSoup 防止 xss 攻击，为了解析 script 缺得到了 &lt;script&gt; 此题怎解， 555

前端编辑器传来的数据， BeautifulSoup 防止 xss 攻击，为了解析 script 缺得到了 <script> 此题怎解， 555