web爬虫学习（五）——使用PhantomJS爬取数据

数据爬取的方式有很多种，scrapy非常方便，但是毕竟存在一些复杂度，因此需要有一个简单的工具，可以方便大家使用，因此笔者整理了phantomJS，供大家使用。

1、可以通过代码操作的浏览器，可以很好的解决js加载问题，但是运行速度比较慢，通常在爬虫时，一般两个方法同时使用（一般爬虫与phantomJS）。

使用步骤：

1、下载phantomJS，可以在官网上下载；

2、配置环境变量；

3、如果使用python，则需要安装selenium。

4、需要进入到路径的安装文件下面才能够使用包中的内容。

web爬虫学习（五）——使用PhantomJS爬取数据

Phantom能很好的解决Js的问题，但是效率较低，可以结合使用。

#!/usr/bin/env python
# _*_ UTF-8 _*_
from selenium import webdriver
import re
from lxml import etree
# 使用以下语句建立一个无核浏览器。
# 他可以解决很多抓包的问题，但是效率较低。
bs = webdriver.PhantomJS()
# 如何使用pjs浏览网页：
url = "http://s.weibo.com/weibo/%25E4%25BD%259F%25E4%25B8%25BD%25E5%25A8%2585?topnav=1&wvr=6&b=1"
bs.get(url)
# # 直接将浏览器页面转换为图片
bs.get_screenshot_as_file("F:/python_workspace/file/phantomJS/test.png")
# 直接获取页面的源代码
data = bs.page_source
fh = open("F:/python_workspace/file/phantomJS/test.html", "wb")
fh.write(data.encode("utf-8"))
fh.close()
# pattitle="<title>(.*?)</title>"
# title = re.compile(pattitle).findall(data)
# print(title)
#
# # 如何在urllib或者phantomjs中使用xpath表达式
# # 需要将data转化成tree，再进行xpath提取即可。
# edata = etree.HTML(data)
# title2 = edata.xpath("/html/head/title/text()")
# print(title2)

# 如何提取微博的信息
# 首先打开微博，在console中定位到登录标签；
# 确定登录标签的xpath
# 提取微博发布者：
patnick = '<p class="person_card">(.*?)</p>'
p_info = re.compile(patnick).findall(data)
print(p_info)

# 如何去掉<em/>标签
patem = '<em class="red">(.*?)</em>'
cp1 = re.compile(patem).findall(data)
# 替换之后的结果：
dataem = re.sub(cp1, "", data)
# 提取微博内容：
patweibo = '<p class="link_info W_textb">(.*?)</p>'
# re.S模式修正符。
# 去掉img
patimg = '<img.*?>'
cp2 = re.compile(patimg)
weibo = re.compile(patweibo, re.S).findall(dataimg)
# weibo2 = re.compile(patweibo, re.S).findall(dataem)
print(weibo)
bs.quit()

# 需要了解：
1、如何使用phantomjs定位元素，以及进行点击，数据清除等操作；
2、如何使用phantomjs提交表单。

# 文本分类与情感分析：
1、加载文本；
2、将文本转为特征矩阵；
3、构建算法
4、分好训练数据和测试数据
5、对数据进行训练
6、对数据进行预测（测试）

2、利用爬取的数据进行文本分析：

#!/usr/bin/env python
# _*_ UTF-8 _*_

from selenium import webdriver
import re

# 文本分类与情感分析：
# 1、加载文本；
# 2、将文本转为特征矩阵；
# 3、构建算法
# 4、分好训练数据和测试数据
# 5、对数据进行训练
# 6、对数据进行预测（测试）
bs = webdriver.PhantomJS()

url =

"http://s.weibo.com/weibo/%25E4%25BD%259F%25E4%25B8%25BD%25E5%25A8%2585?topnav=1&wvr=6&b=1"

data = bs.page_source

patnick = '(.*?)'
p_info = re.compile(patnick).findall(data)
print(p_info)

# 如何去掉标签
patem = '(.*?)'
cp1 = re.compile(patem)
# 替换之后的结果：
dataem = re.sub(cp1, "", data)
# 提取微博内容：
patweibo = '(.*?)'
# re.S模式修正符。
# 去掉img
patimg = '<img.*?>'
cp2 = re.compile(patimg)
weibo = re.compile(patweibo, re.S).findall(dataimg)

num = len(weibo)

# 训练数据，产生正负标签
# 通过以下代码获得训练数据的向量。
# trainnum = int(num*0.5)
# tlabels = []
# for i in range(0, trainnum):
# print(weibo[i])
# thislabels = input("请输入微博情感类别：1正向，0负向, 2为中性")
# tlabels.append(thislabels)
# print(tlabels)
# 以上为训练数据。

# 切词：
import jieba
cutdata = []
for i in range(0, num):
 thisdata = weibo[i]
 thiscut = jieba.cut(thisdata)
 thiscutdata = ""
 for j in thiscut:
 thiscutdata=thiscutdata+j+" "
 cutdata.append(thiscutdata)
print(cutdata)

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
x = vectorizer.fit_transform(cutdata)
alltz = x.toarray()
print(alltz)

# 此时数据已经转为矩阵，获取训练数据矩阵：
# 此数据是由上面的训练值获得的。
trainlabels= [2,1,1,1,1,2,1,0,0,1,2,1,1,1,1,1]
traindata = alltz[0:trainnum,:]
print(traindata)

# 构建模型，传入数据进行测算(KNN|贝叶斯|人工神经网络)。
# 需要自己构建
# ？？？？？？？
# 测试数据的获取：
testdata = alltz[trainnum:, :]
print(testdata)

web爬虫学习（五）——使用PhantomJS爬取数据

相关推荐