Python中这些符号的含义是什么?

问题描述:

有人可以解释为什么有些人在他们的代码中使用这种符号?这对我来说有点困惑,也许所有的新手都在那里。Python中这些符号的含义是什么?

我在学习Python,并且在那里我应该建立一个网络爬虫(蜘蛛)的例子,他们只使用特定的方式从特定的网址抓取数据。一般的方式,发现这个代码很多的符号,我知道他们中的一些,但其余的我在这里不知道是代码的一大块,我发现用符号

import sys, thread, Queue, re urllib, urlparse, time, os 
dupcheck = set() 
q=Queue.Queue(100) 
q.put(sys.argv[1]) 
def queueURLs(html,originalink): 
for url in re.findall('"'<a[^>]+href["'](.`[^"']+)["']'"', html,re.I):) 

什么呢符号这样的^>指的是在代码 我知道一个支架 和什么href代表,但这些符号混淆的立场

+0

您的关键字是:正则表达式。 – alpert

+1

此代码不能编译。有一些缺失或多余的字符,并且缩进是错误的。 – duskwuff

他们是regular expressions,你可能不应该使用它们解析HTML。

这些符号在字符串中使用时,在python中没有特别的含义。

但是,它们的意思是在传递给处理正则表达式的模块(如re)的字符串中使用。

其他答案已经暗示使用“符号”(读取:操作符)用于定义正则表达式的事实。对于所讨论的行:

for url in re.findall('"'<a[^>]+href["'](.`[^"']+)["']'"', html,re.I):) 

为正则表达式,使用一组定义中的^字符,即[^abcd]表示匹配仅当字符不是“A”,“B”,“C”或' d”。

有关正则表达式及其在Python中的用法的更多信息,请参阅https://docs.python.org/2/library/re.html