V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
tempdele
V2EX  ›  问与答

询问一个正则的非贪婪写法

  •  
  •   tempdele · 2017-12-26 00:14:17 +08:00 · 1504 次点击
    这是一个创建于 2306 天前的主题,其中的信息可能已经有所发展或是发生改变。

    文本内容如下 aaa (bbb) (ccc(dd)cc) 需要的是()及其之中的内容,但之中的内容至少有 3 个字符, 即结果需要是

    1, (bbb)
    2, (ccc(dd)cc)
    

    目前我的规则是"(.+?)"

    但这样的结果只能把 (bbb) 正确取出, 其余的部分就只能取到 (ccc(dd) 就结束了, 各位有什么建议吗? 谢谢

    FYI1, 最后的)不一定在句末, 有可能后面还有字符
    FYI2, 多个(.+)之间可能还有字符
    
    5 条回复    2017-12-26 09:28:43 +08:00
    iEverX
        1
    iEverX  
       2017-12-26 00:34:09 +08:00
    问号去掉不行吗?
    freedomSky
        2
    freedomSky  
       2017-12-26 00:35:41 +08:00
    ➜ tmp cat data
    (bb)
    (bbb)
    (bbbb)
    (ccc(dd)cc)
    xxxx)xxxxx(ccc(ddcc)xxx(x
    ➜ tmp sed -n 's/[^(]*(\(.\{3,\}\)).*/\1/p' data
    bbb
    bbbb
    ccc(dd)cc
    ccc(ddcc

    不记得什么是贪婪不贪婪了:)
    geelaw
        3
    geelaw  
       2017-12-26 00:55:44 +08:00 via iPhone
    你先得告诉我为什么(ccc(dd)不是你期待的结果

    那你期待(bbb) (ccc(dd)ccc)成为结果吗?

    简单来说,你是否希望匹配里扔掉非左右小括号之后是完美的括号序列?如果是,那么正则表达式做不到,至少计算机科学意义上的正则表达式做不到,因为你期待的匹配组成的语言不是正则语言。

    不排除有些引擎可以做到,比如支持反向引用的引擎可以识别 1^n 0 1^n (不是正则语言),但我认为通常所见的引擎不支持你的想法。
    geelaw
        4
    geelaw  
       2017-12-26 00:57:08 +08:00 via iPhone
    @geelaw *更正:扔掉非左右小括号之后是合法括号序列且不能写成两个非空子串的连接,且这两个非空字串都是合法括号序列。
    gamexg
        5
    gamexg  
       2017-12-26 09:28:43 +08:00
    (\(.+\))
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5397 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 03:36 · PVG 11:36 · LAX 20:36 · JFK 23:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.