puppeteer框架简单采集微博

puppeteer框架其实是一个*面chrome工具。Chrome Headless将成为web应用自动化测试的行业标杆。掌握关于puppeteer的知识对我们来说是很重要的。我们都知道无头浏览器是指没有窗口的浏览器。那我们使用puppeteer让浏览器帮我们自动完成很多事情,比如创建页面的截图或pdf,自动提交表单,UI测试,键盘测试,创建自动化测试环境等。对puppeteer有了基本的认识后,接下来我们实践爬虫实例加深对puppeteer的印象!
const puppeteer = require(‘puppeteer’);
// 代理服务器(产品官网 www.16yun.cn)
const proxyServer = ‘http://t.16yun.cn:31111’;
const username = ‘16BXQXGC’;
const password = ‘234589’;
(async() => {
const browser = await puppeteer.launch({
args: [ ‘–proxy-server=’+proxyServer+’’,’–no-sandbox’, ‘–disable-setuid-sandbox’ ]});
const page = await browser.newPage();
await page.authenticate({ username, password });
await page.goto(‘https://www.weibo.com’);
const cookies = await page.cookies();
await console.log(cookies);
await page.setViewport({width: 320, height: 480});
await page.screenshot({path: ‘/screenshots/full.png’, fullPage: true});
await browser.close();
})();
所获取的简单的结果
puppeteer框架简单采集微博

其实Puppeteer框架可以运用的场景有很多,希望大家可以多多尝试其他的场景。