创建一个python脚本登录到一个网站,并拉HTML数据

问题描述:

您好我希望有人能帮助我,创建一个python脚本登录到一个网站,并拉HTML数据

我试图创建一个登录到网站,并拉动从HTML我有一个值的脚本安装BeautifulSoup和我试图使用卷曲,但我似乎无法登录到该网站。网站上的HTML使用为j_username”和为j_password

感谢

+0

我已经建立了几个爬虫与PyCurl + BeautifulSoup + Chrome开发者控制台......这就是你需要 – jabaldonedo 2013-04-30 16:11:57

+0

使用'PyCurl'?HTTP基本身份验证或其他任何特定的错误? – Bryan 2013-04-30 16:32:40

+0

没有这个网站使用Windows凭据? – 2013-04-30 16:50:18

使用requests模块要使用基本身份验证检索HTML:

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass')) 
>>> html = r.text 

然后使用bs4解析HTML您需要的具体内容。