python中的URL解析器无效

问题描述:

[是的,标题不是拼写错误!]python中的URL解析器无效

在python中,我需要一些解析URL的东西。我无法相信标准尚不存在。由于该URL设置在配置中,我想确保它不是垃圾。

有urlparse.urlparse,但只有解析“有效的URL”(有一些无效的网址,有时抛出一个无证ValueError异常)

例如

>>> import urlparse 
>>> urlparse.urlparse('http://aa :: aa ! aa:11.com:aa').netloc 
'aa :: aa ! aa:11.com:aa' 

显示了urlparse如何解析我认为无效的URL。

+0

你就不能使用和里urlparse赶上错误? – codebox 2012-08-15 10:31:22

+0

正则表达式有什么用?我想你会发现成千上万的网址。 – Paranaix 2012-08-15 10:32:27

URL解析和URL验证实际上是不同的任务。

urlparse.urlparse使解析,验证通常使用正则表达式机器(内置re模块在Python中)。

这里是和例如URL验证从Django框架:

regex = re.compile(
    r'^(?:http|ftp)s?://' # http:// or https:// 
    r'(?:(?:[A-Z0-9](?:[A-Z0-9-]{0,61}[A-Z0-9])?\.)+(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|' #domain... 
    r'localhost|' #localhost... 
    r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})' # ...or ip 
    r'(?::\d+)?' # optional port 
    r'(?:/?|[/?]\S+)$', re.IGNORECASE) 
+1

我曾经假定有一些标准的东西,最好是只剪切粘贴代码。 但是,django.core.validators.URLValidator正是我所需要的,谢谢:) – typingduck 2012-08-15 10:44:52

+0

用正则表达式写一个广泛的url验证器几乎是不可能的。很多情况下,电话或邮件:失踪。还IPv6和更多... – 2014-04-08 11:59:56