创建一个python脚本登录到一个网站，并拉HTML数据

问题描述：

我试图创建一个登录到网站，并拉动从HTML我有一个值的脚本安装BeautifulSoup和我试图使用卷曲，但我似乎无法登录到该网站。网站上的HTML使用为j_username”和为j_password

感谢

我已经建立了几个爬虫与PyCurl + BeautifulSoup + Chrome开发者控制台......这就是你需要 – jabaldonedo 2013-04-30 16:11:57

使用'PyCurl'？HTTP基本身份验证或其他任何特定的错误？ – Bryan 2013-04-30 16:32:40

没有这个网站使用Windows凭据？ – 2013-04-30 16:50:18

答

使用requests模块要使用基本身份验证检索HTML：

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass')) 
>>> html = r.text

然后使用bs4解析HTML您需要的具体内容。