python爬取豆瓣电影 Top 250里的内容
1.开始分析页面,找到所抓取的文字所在标签,如图所示。
2.通过requests.get获取整个页面代码,并通过正则表达式匹配出所需字符。
关于正则表达式 https://www.cnblogs.com/chuxiuhong/p/5885073.html
经过分析匹配出电影名称,导演等的正则为'<span class="title">(.*?)</span>.*?<p class="">(.*?)</p>'
整体代码如下
打印结果如下
后续应该继续完善,精简信息,将信息存入文件,第一次学正则,好蒙好蒙~