python正则表达式网页爬虫

正则表达式

正则表达式相关知识

1,背景

字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。

2,定义

正则表达式(regular expression,rc)是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。

3,方法

(1)创建一个匹配Email的正则表达式;

(2)用该正则表达式去匹配用户的输入来判断是否合法。

4,应用

(1)验证用户名和密码:(”1\w{5,15}$”)正确格式:”[A-Z][a-z]_[0-9]”组成,并且第一个字必须为字母6~16位;

(2)验证电话号码:(”^(\d{3,4}-)\d{7,8}$”)正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx;

(3)验证手机号码(包含虚拟号码和新号码段):”^1([38][0-9]|4[5-9]|5[0-3,5-9]|66|7[0-8]|9[89])[0-9]{8}$”;

(4)验证身份证号(15位):”\d{14}[[0-9],0-9xX]”,(18位):”\d{17}(\d|X|x)”;

题目

用正则判断QQ邮箱是否合法,这里的 QQ邮箱指QQ号@qq.com"">[email protected]结尾。

分析:1)QQ最短5位最长11位数

2)以@qq.com结尾

3)不能以0开头

实现代码

python正则表达式网页爬虫

运行结果

python正则表达式网页爬虫

网页爬虫

目的

1、学习网络爬虫编程,掌握网络爬虫编程实例;

2、掌握利用正则表达式从字符串中提取特定字符串的方法;

3、掌握利用正则表达式实现爬虫编程,爬取网络信息的方法。

要求

1、掌握正则表达式检查字符串是否与指定模式匹配、从字符串中提取特定字符串的方法,掌握了利用正则表达式实现爬虫编程,爬取网络信息的方法。

2、掌握爬虫程序的基本操作原理以及操作过程,能设计简单的爬虫程序,对今后网络编程技术打下基础。

题目

1、利用正则表达式,编写一个爬虫程序,抓取页面中文字:桂电要闻、文明校园建设、桂电新闻、校园快讯、学院动态、媒体桂电、通知公告、招标公示。

2、利用bs4抓取主页 www.guet.edu.cn 标题

实现代码

python正则表达式网页爬虫
python正则表达式网页爬虫
python正则表达式网页爬虫

运行结果

python正则表达式网页爬虫


  1. a-zA-Z ↩︎