python爬取豆瓣电影 Top 250里的内容

1.开始分析页面,找到所抓取的文字所在标签,如图所示。
python爬取豆瓣电影 Top 250里的内容
2.通过requests.get获取整个页面代码,并通过正则表达式匹配出所需字符。
关于正则表达式 https://www.cnblogs.com/chuxiuhong/p/5885073.html
经过分析匹配出电影名称,导演等的正则为
'<span class="title">(.*?)</span>.*?<p class="">(.*?)</p>'
整体代码如下
python爬取豆瓣电影 Top 250里的内容
打印结果如下
python爬取豆瓣电影 Top 250里的内容
后续应该继续完善,精简信息,将信息存入文件,第一次学正则,好蒙好蒙~