开源一个项目 https://github.com/NolanZhao/news_feed
简介: 此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在 5 分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。
原理: 采用 celery 任务队列,定期抓取网站 html, 使用 difflib 比对新旧页面源码,发现增加的部分,提取 url 和 text,过滤筛选,保存 MySQL 数据库。 定期把更新的 url 和 text,通过邮件发送给订阅者。
方法简单粗暴,没有摘取网页结构化数据,仅仅获取更新的链接和标题。优点:实时性可以保障
第一个版本,功能尚不完善,欢迎吐槽、贡献代码~
我的邮箱 [email protected]
加个图:
1
cxd44 2017-10-10 20:39:07 +08:00 via Android
谢谢分享
|
3
luozic 2017-10-10 20:40:42 +08:00 via iPhone
谢谢分享
|
4
ospider 2017-10-10 21:24:03 +08:00
直接比较源码有些暴力吧, 至少是抽取出文章来比较, 甚至是比较 simhash 比较好一点
|
5
forestyuan 2017-10-10 21:59:56 +08:00
这么多新闻,看得过来吗?
|
6
Rootcat OP @forestyuan 加关键词过滤,就可以看你关注的。
|
7
Tootopia 2017-10-10 22:21:29 +08:00
怎么操作,链接失效
|
8
yidinghe 2017-10-11 09:45:11 +08:00
@forestyuan 你想多了,没人说爬出来的结果只能肉眼看而不能做进一步分析
|
11
Wongz 2017-10-11 13:51:24 +08:00
正好有需要学习这个 比心
|
12
zhangzixu 2017-10-11 13:53:20 +08:00
感谢!
|
13
dsphper 2017-10-11 14:53:12 +08:00
既然是开源我也就不好 BB 啥了,我只想说虽然是第一版既然开源了能不能搞的开箱即用。。。。。。各种错误,各种补丁给你打上才跑起来.....
|
16
itmyhome126 2017-10-11 17:40:23 +08:00
厉害了,顶一个
|
17
dsphper 2017-10-11 17:59:55 +08:00
怎么抓到的都是 N 久前的文章:?
|