python 小白逆袭大神结营心得--飞桨
此次的python 小白逆袭大神结营课程主要是一些基础知识和青春有你选手信息爬取,数据分析,识别等。
选手信息爬取:爬虫的过程:
1.发送请求(requests模块)
2.获取响应数据(服务器返回)
3.解析并提取数据(BeautifulSoup查找或者re正则)
4.保存数据
request 模块:
requests是python实现的简单易用的HTTP库,官网地址:http://cn.python-requests.org/zh_CN/latest/ requests.get(url)
可以发送一个http get请求,返回服务器响应内容。
BeautifulSoup模块:
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml。
BeautifulSoup(markup, "html.parser")或者BeautifulSoup(markup, "lxml"),推荐使用lxml作为解析器,因为效率更高。
信息爬取过程:
一、爬取百度百科中《青春有你2》中所有参赛选手信息,返回页面数据
二、对爬取的页面进行解析,并保存为json文件;
三、爬取每个选手的百度百科图片,并进行保存;
四、打印所有爬取的路径;
选手识别:
利用之前的爬虫知识在网站上爬取选手图片;
加载预训练模型:
module = hub.Module(name="resnet_v2_50_imagenet")
加载图片集:
生成数据读取器:
配置策略:
组建fintune task:
开始finetune:
预测: