本来打算写一个 GitHub_Following 的爬虫,结果造了一个轮子,写了抓登录用户的 Star,Following,Follower,Repo 信息,说不定以后能用到哈哈
只是一个测试小样, todo 很多实在不好意思写了~
用了 requests 和 bs4 ,先安装这两个库然后再用
使用方法
python demo.py
然后在控制台输入邮箱和密码,根据自己需求改一下就好了,提供了以下的方法:
flag=True 表示代码自己加工输出信息,以 json 形式输出,反之则返回网页源码
用 user_repositories()的返回举个例子,根据是 source 还是 fork 分类
{
"sources": [
{
"repositories_url": "https://github.com//HolaJam/github_spider",
"repositories_name": "github_spider",
"repositories_programmingLanguage": "Python",
"repositories_description": "一个简单的 GitHub 爬虫 A Simple Spider for GitHub"
},
{
"repositories_url": "https://github.com//HolaJam/luowang",
"repositories_name": "luowang",
"repositories_programmingLanguage": "Python",
"repositories_description": "You Can Get Wonderful Music."
},
],
"forks": [
{
"repositories_url": "https://github.com//HolaJam/head-first-flask",
"repositories_name": "head-first-flask",
"repositories_programmingLanguage": "Null",
"repositories_description": "Introduction to Flask Web development."
},
{
"repositories_url": "https://github.com//HolaJam/gitblogdoc",
"repositories_name": "gitblogdoc",
"repositories_programmingLanguage": "PHP",
"repositories_description": "gitblog 文档"
},
{
"repositories_url": "https://github.com//HolaJam/ToughRADIUS",
"repositories_name": "ToughRADIUS",
"repositories_programmingLanguage": "JavaScript",
"repositories_description": "TOUGHRADIUS 是一个开源的 Radius 服务软件,支持标准 RADIUS 协议,提供完整的 AAA 实现。支持灵活的策略管理,支持各种主流接入设备并轻松扩展,具备丰富的计费策略支持。"
},
{
"repositories_url": "https://github.com//HolaJam/MyPlatform",
"repositories_name": "MyPlatform",
"repositories_programmingLanguage": "Python",
"repositories_description": "文科生也会配的微信个人号后台, Content based wechat massive platform framework, what you need to do is only adding your articles in :)"
},
{
"repositories_url": "https://github.com//HolaJam/Web-Crawler",
"repositories_name": "Web-Crawler",
"repositories_programmingLanguage": "Python",
"repositories_description": "是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。"
},
}
1
tinyproxy 2016-09-21 18:14:06 +08:00
|
2
holajamc OP @tinyproxy 啊原本打算做一个 github 用户关系的,结果做了一个这样的东西出来😂
|
3
7sDream 2016-09-21 18:18:15 +08:00 1
虽然不该打击楼主……
但是恕我直言, Github 有 API 的: https://developer.github.com/v3/ 用户资料: https://api.github.com/users/7sDream 用户粉丝: https://api.github.com/users/7sDream/followers 用户关注: https://api.github.com/users/7sDream/following 用户仓库: https://api.github.com/users/7sDream/repos 用户星星: https://api.github.com/users/7sDream/starred etc …… 能想到的基本都有了…… |
5
holajamc OP @7sDream 啊我是知道的。。当时打算是做个用户关系出来的然后就做了这个例子😂回头来继续做
|
6
linuxchild 2016-09-21 18:34:03 +08:00 via iPhone
唔 开始以为楼主用的 github 的 api
|
7
holajamc OP @linuxchild 闭门造轮子哈哈😄
|
8
devzero 2016-09-21 19:27:04 +08:00 via Android
真.造轮子,话说如果抓到的话关系图楼主打算怎么呈现出来?
|