正则表达式 - 匹配所有句子包含特定标签之间的20个字符或更多

问题描述:

我试图从更长的文本中提取包含20个或更多字符的所有句子,但此刻我远离解决方案(RegEx flavor - PCRE)正则表达式 - 匹配所有句子包含特定标签之间的20个字符或更多

示例文本(我需要 '粗体' 的句子):

TylkoüNAS! Kurtkawiatrówkasportowa。 Posiadapodszewkę。 Przeznaczona do biegania。 Kup teraz!

我此刻正则表达式:

(^|\.\s)(.{20,}?[a-z])(\!|\.\s|\.$|$) 
+0

格式化您的问题.. – 2014-10-11 18:29:43

+0

我关闭这个问题不明确你的要求,因为你要求我们解决了自然语言问题,这需要广泛的研究,剔除特殊情况。 – nhahtdh 2014-10-11 19:27:09

+0

正则表达式无法处理语言! – sln 2014-10-11 19:31:03

[^.!><]{20,} 

尝试this.See演示。

http://regex101.com/r/vR4fY4/16

+0

工程相当不错,但不完全是我要找的 - 在这句话中它不起作用http://rubular.com/r/Rb6KSXuY1Q 不是每个句点都是句子的结尾 – user3310085 2014-10-11 18:37:26

+0

@ user3310085那么如何你定义了一个句子的结尾? – revo 2014-10-11 20:21:08

+0

类似这样,但更复杂将是有用的: http://rubular.com/r/ukm0pWrrX6 组1匹配我的句子,但不拒绝短于20个字符的句子 – user3310085 2014-10-11 21:33:26