node.js爬取Github指定用户的个人信息,比如email,location,主页URL等

一、引言

    昨天接到Mentor给的任务,让我写一个爬虫,根据给定的论文中中文作者的英文名字(实际上就是拼音),去GitHub和LinkedIn上爬去作者的邮箱,说是公司要用。对于一个爬虫小白的我来说,也算是一个艰巨的挑战了,毕竟这将是我写的第一个爬虫程序。大脑一片空白毫无思路可言。然后就开始了我的漫漫搜索之路,网上关于爬虫的文章确实不少,也找到不少干货,不够对于我这样的爬虫小白来说,确实比较难懂。不过最后还是找到了一篇可以让我入门的文章https://www.jianshu.com/p/628a0747c492,在这里我找到了GitHub的API接口。

  • 教科书般的API接口信息
    Github作为一个出色的代码托管平台,也为开发者们提供了结构非常清晰的API接口信息,浏览器安装json插件后阅读更佳。
  • 详细的开发者文档
    想了解相关参数设置和可爬取的数据,可阅读Github Developer Guide

就这样我写出了我的第一个爬虫程序。废话不多说,赶紧上思路。

二、思路

爬取目标:

用户的基本信息,邮箱,地址,GitHub主页地址。

逻辑思路:

  1. 先根据GitHub提供的search接口,根据用户的名字(fullname)搜索到用户信息,其中大多是和用户相关的URL地址。
  2. 过滤存储用户个人信息的URL地址。
  3. 得到存储用户个人信息的URL地址,将所需要的用户字段爬去下来。
  4. 过滤需要的用户信息字段,并返回。

具体实现:

  1. 单步讲解:

  1. 首先代码是使用Node.js的express框架写的。
  2. 查看GitHub的开发者文档,查看爬去用户信息的方法及参数设置。开发者文档如下所示。node.js爬取Github指定用户的个人信息,比如email,location,主页URL等
其中对我们有用的就是查询条件中的Fullname。使用方法如下所示,首先构造访问的URL,然后将URL和Headers封装。需要提醒的一点是,headers中一定要将你的github上生成的token放上,并且一定要包含User-Agent字段,否则你的请求会被拒绝,返回403Forbidden。具体处理办法请见
function gethomepage(username, req, res) {
return new Promise(function (resolve, reject) {
//根据名字,搜索基本信息
var options = {
url: 'https://api.github.com/search/users?q=fullname:' + username,
headers: {
'User-Agent': 'Mozilla/5.0',
'Authorization': 'token 78e380f2e6d1a4b8239d9c3baea026b6d248fe14',
'Content-Type': 'application/json',
'method': 'GET',
'Accept': 'application/json'
}
}
var info = "";
request(options, function (err, response, body) {
if (!err && response.statusCode == 200) {
info = JSON.parse(body);
resolve(info);
}
})
})
}
过滤存储用户个人信息的URL地址。
var info = await gethomepage(arguments, req, res);
//把url解析出来
var nickname = " ";
var html_url = "";
var homeurl = "";
//将爬取出来的信息迭代出来
for (var item of info.items) {
nickname = item['login'];
html_url = item['html_url'];
homeurl = item['url'];
}

将请求的结果存储在Info中,然后在第二步的逻辑中调用请求到的info,过滤出用户想要的字段,并将过滤数据返回。
request(options, function (err, response, body) {
if (!err && response.statusCode == 200) {
var info1 = JSON.parse(body);
res.json({
name: info1.name,
nickname: info1.login,
html_url: info1.html_url,
location: info1.location,
email: info1.email
});
}
else {
res.send(
{
error: err.message,
result: "have no this person infomation"
}
);
}
})
使用命令行参数指定需要查询的用户名字
var arguments = process.argv.splice(2);
console.log("您要搜索的对象为:" + arguments);
var info = await gethomepage(arguments, req, res);

运行方式

node.js爬取Github指定用户的个人信息,比如email,location,主页URL等

  1. 完善后成功爬取数据的代码如下:

var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', async function (req, res) {
//var info = await gethomepage("Longhui Wei", req, res);
var arguments = process.argv.splice(2);
console.log("您要搜索的对象为:" + arguments);
var info = await gethomepage(arguments, req, res);
//把url解析出来
var nickname = " ";
var html_url = "";
var homeurl = "";
//将爬取出来的信息迭代出来
for (var item of info.items) {
nickname = item['login'];
html_url = item['html_url'];
homeurl = item['url'];
}
var options = {
url: homeurl,
headers: {
'User-Agent': 'Mozilla/5.0',
'Authorization': 'token yourTokenvalue',
'Content-Type': 'application/json',
'method': 'GET',
'Accept': 'application/json'
}
}
request(options, function (err, response, body) {
if (!err && response.statusCode == 200) {
var info1 = JSON.parse(body);

res.json({
name: info1.name,
nickname: info1.login,
html_url: info1.html_url,
location: info1.location,
email: info1.email
});
}
else {
res.send(
{
error: err.message,
result: "have no this person infomation"
}
);
}
})

});

function gethomepage(username, req, res) {
return new Promise(function (resolve, reject) {
//根据名字,搜索基本信息
var options = {
url: 'https://api.github.com/search/users?q=fullname:' + username,
headers: {
'User-Agent': 'Mozilla/5.0',
'Authorization': 'token yourTokenValue',
'Content-Type': 'application/json',
'method': 'GET',
'Accept': 'application/json'
}
}
var info = "";
request(options, function (err, response, body) {
if (!err && response.statusCode == 200) {
info = JSON.parse(body);
resolve(info);
}
})
})
}
var server = app.listen(3001, function () {
console.log('listening at 3001');
});

问题总结:

一、用户验证Token的问题。https://developer.github.com/v3/auth/

二、返回403 Forbidden      https://developer.github.com/v3/#user-agent-required

三、参考文档              https://developer.github.com/v3

详细接口信息 API接口
请详细阅读 Github Developer Guide

未完待续。。。。。。。。。。。。。。。。。。