V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sohoer
V2EX  ›  分享发现

Feed DIY 开启全网订阅( RSS)

  •  8
     
  •   sohoer · 2017-02-20 09:52:34 +08:00 · 15115 次点击
    这是一个创建于 2831 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有点迫不及待的想跟大家分享这款基于鸟巢采集器的 RSS Feed 烧制工具( www.FeedDiy.com )。

    在信息过载的今天, FeedDiy 可以全网监控并生成 RSS Feed ,

    如监控人才热线上爬虫这个职位的更新 、各种电视剧的更新、更能监控各网站的新闻资讯更新。


    FeedDiy 的特色功能:全文抓取、基于 Chrome 的 Javascript 支持

    FeedDiy 的爬虫架构:



    FeedDiy 演示视频:

    http://video.newcrawler.com/feeddiy_v1.0.mp4


    RSS 订阅效果( Inoreader ):










    第 1 条附言  ·  2017-02-20 11:33:38 +08:00
    未注册账户创建的 Feed 会定期删除,所以不要当正规的订阅源使用
    目前的 FeedDiy 应该是功能最强的 Feed 烧制服务,但也会有 Bug ,发现 Bug 我会第一时间解决
    免费账号目前使用的是 GAE 爬虫,所以请放心使用免费服务

    有任何意见建议请留言,每一个收藏与回复都是对我最大的支持,谢谢!
    第 2 条附言  ·  2017-02-27 10:46:51 +08:00
    优化了 CSS SELECTOR
    修复编码识别 BUG
    增加了几个可选参数配置:
    Charset (页面编码设置,避免乱码)
    Headers (登录 COOKIE ,模拟登录抓取)
    Skip how many rows to get the latest information.(排除 BBS 置顶贴)
    At the end of the list to get the latest information.(末尾更新的列表)
    91 条回复    2017-09-13 09:37:18 +08:00
    Hant
        1
    Hant  
       2017-02-20 10:11:22 +08:00
    用的什么 App
    tyhunter
        2
    tyhunter  
       2017-02-20 10:11:48 +08:00
    感觉好像很牛逼
    sohoer
        3
    sohoer  
    OP
       2017-02-20 10:13:23 +08:00
    sohoer
        4
    sohoer  
    OP
       2017-02-20 10:14:01 +08:00
    @tyhunter #2 你要试一试,才能发现惊喜
    vilen1
        5
    vilen1  
       2017-02-20 10:20:10 +08:00
    很厉害的样子,试试
    gamecmt
        6
    gamecmt  
       2017-02-20 10:25:37 +08:00
    赞一个,也在用 inoreader ,各路正规的源感觉太少。你这个应该能帮我解决很多问题。
    不知楼主在 inoreader 创建了订阅源没有?如果有就更方便了?
    sohoer
        7
    sohoer  
    OP
       2017-02-20 10:29:37 +08:00
    @gamecmt #6 你用 FeedDiy 制作好并保存后,再看右上角下拉框选择 inoreader 可以直接用 inoreader 订阅你刚生成的 Feed
    jiezhi
        8
    jiezhi  
       2017-02-20 10:55:45 +08:00
    搞个 v 站的二手版块 rss 呢,关键是要登录
    designer
        9
    designer  
       2017-02-20 10:57:42 +08:00
    不明觉厉!
    zhucha
        10
    zhucha  
       2017-02-20 10:59:09 +08:00
    看起来不错,有啥限制吗?
    sohoer
        11
    sohoer  
    OP
       2017-02-20 11:03:20 +08:00
    @zhucha #10 要求不高免费版也够用了,需要较高的更新频率就要付费了毕竟爬虫还是很耗资 源的,具体登录后看 Plans and Pricing
    zhucha
        12
    zhucha  
       2017-02-20 11:08:41 +08:00
    @sohoer 谢谢,还在研究这个要怎么操作哈~
    jy02201949
        13
    jy02201949  
       2017-02-20 11:16:37 +08:00
    这么多楼了居然没一个提到第二张截图,果然程序员才是最专注于专业的人:
    女:“你能让这个论坛的人都吵起来,我就跟你去开房。”
    程序猿:“好!” 于是在论坛里发帖:“ PHP 是最好的语言! ”
    论坛炸锅了,各种吵架。
    女:“服了你了,我们走吧。”
    程序猿:“今天不行,我一定要说服他们, PHP 必须是最好的语言。”
    zhucha
        14
    zhucha  
       2017-02-20 11:18:08 +08:00
    @sohoer 看视频会自动跳出 inoreader ,不过操作时并没跳出。。。另外,如果订阅的页面有分页要怎么操作?
    @gamecmt 发现在首页右上角,直接给出了几条应该是所有人的记录。。。 http://www.feeddiy.com/feed/new
    zhucha
        15
    zhucha  
       2017-02-20 11:19:02 +08:00
    @jy02201949 我不会程序,所以只关注到了亚洲无码。
    sohoer
        16
    sohoer  
    OP
       2017-02-20 11:19:53 +08:00
    @jy02201949 #13 哈哈

    @zhucha
    你用 FeedDiy 制作好并保存后,再看右上角下拉框选择 inoreader 可以直接用 inoreader 订阅你刚生成的 Feed
    AlwaysBee
        17
    AlwaysBee  
       2017-02-20 11:24:02 +08:00
    楼主很隐晦
    sohoer
        18
    sohoer  
    OP
       2017-02-20 11:26:31 +08:00
    @jiezhi 二手版链接,有时间我做好给你用


    @zhucha 不想支持分页,列表页不需要支持分页本来是订阅更新内 容,详情页如果有分页就全文抓取第一页就当摘要来看,感兴趣再打开原网页看
    Troevil
        19
    Troevil  
       2017-02-20 11:26:33 +08:00
    我在截图中看到了什么了不得的东西
    GoldenPillow
        20
    GoldenPillow  
       2017-02-20 11:39:19 +08:00
    支持 rss !!
    jy02201949
        21
    jy02201949  
       2017-02-20 11:46:18 +08:00
    100 days
    Your RSS will be disabled

    看到这条有点不想用了,还是自己爬了丢在 vps 上吧。。。
    Gandum
        22
    Gandum  
       2017-02-20 11:49:52 +08:00
    这是楼主的产品?
    真不错,算得上是 Yahoo Pipes 的一个优秀替代品。
    相当于 Feed43+RSS 全文输出的结合品。
    不过如果能够像 Yahoo Pipes 那样,全面细节的控制+丰富 API ,多么完美!
    当然像 Pipes 那样是可遇不可求的,这样也不错了,而且相比 Pipes 操作还挺方便。
    (最后希望不要死的太早)
    Gandum
        23
    Gandum  
       2017-02-20 12:14:01 +08:00
    对了,没有 filters 是一个很大的遗憾
    sohoer
        24
    sohoer  
    OP
       2017-02-20 12:21:17 +08:00   ❤️ 1
    @jy02201949 放心用吧其实没做删除,加这个声明主要是想删除一些抓取规则异常的爬虫任务(避免占用服务器资源)

    我会把这条声明改一下
    sohoer
        25
    sohoer  
    OP
       2017-02-20 12:22:19 +08:00
    @Gandum 不知道你用的什么 RSS 订阅器, inoreader.com 支持过滤
    Gandum
        26
    Gandum  
       2017-02-20 12:45:30 +08:00 via iPhone
    @sohoer 我用的 feedly ,不支持过滤,至少我没有发现。
    echohanyu
        27
    echohanyu  
       2017-02-20 12:47:23 +08:00
    支持一发。。。试试看,打开 mac reeder
    echohanyu
        28
    echohanyu  
       2017-02-20 12:57:34 +08:00
    gmail 收不到邮件验证啊。。。
    sohoer
        29
    sohoer  
    OP
       2017-02-20 13:09:20 +08:00
    @echohanyu 是否进了垃圾邮箱,如果还没收到可以把邮箱告诉我
    cqcn1991
        30
    cqcn1991  
       2017-02-20 13:14:22 +08:00 via iPhone
    非常棒,我的一个产品就有比较好的支持了
    Acirno
        31
    Acirno  
       2017-02-20 13:15:23 +08:00
    同收不到,你用什么发邮件的?
    sohoer
        32
    sohoer  
    OP
       2017-02-20 13:15:39 +08:00
    @Gandum Feedly 看到付费版有搜索和过滤
    wizos
        33
    wizos  
       2017-02-20 13:16:07 +08:00
    谢谢楼主,这个服务很棒!就是现在在页面点击生成 css selector 规则的时候很卡。还有我这根本看不到根据选择到的链接再去抓取内层内容的 icon 。
    sohoer
        34
    sohoer  
    OP
       2017-02-20 13:18:12 +08:00
    @Acirno 需要告知我邮箱,我才能查原因,使用的阿里域名邮箱
    hst001
        35
    hst001  
       2017-02-20 13:20:29 +08:00
    一直提示 Headline is required ,不会用
    sohoer
        36
    sohoer  
    OP
       2017-02-20 13:21:17 +08:00
    @wizos
    Content 标签为空的情况 Link 标签必需是有效的 URL 地址
    Content 标签不为空的情况 Link 标签和 Content 标签必需都是有效的 URL 地址
    不满足以上条件 FullText 的 Icon 是不会显示的
    sohoer
        37
    sohoer  
    OP
       2017-02-20 13:22:14 +08:00
    @hst001 看下视频,需要点击选择标题、链接
    sohoer
        38
    sohoer  
    OP
       2017-02-20 13:23:42 +08:00
    @wizos 确认 Link 标签匹配的是不是 URL ,可以按空格键预览
    sohoer
        39
    sohoer  
    OP
       2017-02-20 13:25:05 +08:00
    @cqcn1991 有机会可以合作
    Acirno
        40
    Acirno  
       2017-02-20 13:31:07 +08:00
    @sohoer #34 dashuqizhi#gmail 。 com
    EvanQu
        41
    EvanQu  
       2017-02-20 14:38:06 +08:00
    @sohoer #39 outlook 收不到验证码 evanqu#outlook.com
    sohoer
        42
    sohoer  
    OP
       2017-02-20 14:40:04 +08:00
    @Acirno 邮件发送队列设置错了,被阻塞了,迟些才能收到,你的应该已经发送过去了
    sohoer
        43
    sohoer  
    OP
       2017-02-20 14:40:53 +08:00
    @EvanQu 邮件发送队列设置错了,被阻塞了,迟些才能收到,需要晚点解决这个 BUG
    iphp
        44
    iphp  
       2017-02-20 15:27:35 +08:00
    @sohoer 貌似最后 save 的时候一直 system error 了
    sohoer
        45
    sohoer  
    OP
       2017-02-20 15:43:30 +08:00
    @iphp 是否刚刚勾选了 chrome?
    iphp
        46
    iphp  
       2017-02-20 15:56:23 +08:00
    @sohoer 我都没有登录,勾选不了吧,等下注册邮件到了,再次试一试
    sohoer
        47
    sohoer  
    OP
       2017-02-20 16:03:07 +08:00 via iPhone
    @iphp 还没收到吗?刚刚重置了队列,并重新发送了注册邮件,如果没收到可以告知我你的邮箱,我再查一下,谢谢
    jy02201949
        48
    jy02201949  
       2017-02-20 16:15:19 +08:00
    @sohoer #24 好的,月付这个价格有点高啊,不考虑降低一些么,毕竟省了很多写爬虫的事,可以考虑来个付费账户
    sohoer
        49
    sohoer  
    OP
       2017-02-20 16:25:03 +08:00
    @jy02201949 谢谢支持,可以先试用一段时间,我再出一个限时优惠或折扣的功能
    Mavious
        50
    Mavious  
       2017-02-20 16:52:56 +08:00 via iPhone
    刚刚注册了, gmail 可以收到邮件了。
    这....免费用户的限制貌似有点大啊。 vip 价格颇高...可以和 inoreader 比肩了....

    5 条+12 小时更新...比 feed43 限制大多了。
    我在 feed43 搞了 20 多个 rss ,让他们去爬 g0v 网站....如果能够和雅虎一样我就换平台了。

    顺便问问这种 post 性质的抓取能解决吗?
    https://www.v2ex.com/t/305688
    sohoer
        51
    sohoer  
    OP
       2017-02-20 17:26:55 +08:00   ❤️ 1
    @Mavious
    第一个
    http://www.feeddiy.com/rss/qIZzUf

    第二个的抓取有些问题,解决了再给你回复
    Gandum
        52
    Gandum  
       2017-02-20 17:29:41 +08:00   ❤️ 1
    @Mavious #50 代楼主回复句,其实他这个在同类服务中算便宜的(当然不知道性能怎么样), Yahoo Pipes 那种再也没有了

    @sohoer #49 确实应该考虑加入些 Yahoo Pipes 里面的热门功能,过滤、合并、分离、替换、简单逻辑,现在这样让人不怎么提得起兴趣来
    binux
        53
    binux  
       2017-02-20 17:34:40 +08:00
    @Gandum #52 google apps script 也是很好的替代品
    sohoer
        54
    sohoer  
    OP
       2017-02-20 17:40:32 +08:00
    @binux 你又搞个这么有难度的
    Gandum
        55
    Gandum  
       2017-02-20 17:51:36 +08:00
    @binux #53 你说的是 GAE 吧, google apps script 不是那啥,写 add-ons 的么。
    但是 GAE 在使用难度上提升不是一点半点啊,等于自己从头开始编程,有没有大神写了什么成熟方案,我不是很清楚
    binux
        56
    binux  
       2017-02-20 18:16:25 +08:00   ❤️ 1
    fanghui
        57
    fanghui  
       2017-02-20 19:21:34 +08:00
    @sohoer 安装你们的步骤,在 mac 上部署了一个,用户名和账号怎么设置? http://www.feeddiy.com/feed/new 这个平台在 chrome 版本 56.0.2924.87 (64-bit)上没法用
    sohoer
        58
    sohoer  
    OP
       2017-02-20 19:45:01 +08:00
    @fanghui #57 不知道你说的是什么,这个不需要部署,
    www.feeddiy.com 直接用就行
    fanghui
        59
    fanghui  
       2017-02-20 21:13:04 +08:00
    @sohoer http://www.feeddiy.com/这个平台在 chrome 版本 56.0.2924.87 (64-bit)上没法用?谢谢了
    zangbob
        60
    zangbob  
       2017-02-20 21:13:19 +08:00
    Basic 和 Professional 能针对 V2EX 的兄弟们打个折扣么?
    sohoer
        61
    sohoer  
    OP
       2017-02-20 21:33:29 +08:00
    @fanghui 我就是这个版本,没问题啊!最好能具体说下什么问题,谢谢
    sohoer
        62
    sohoer  
    OP
       2017-02-20 21:34:10 +08:00
    @zangbob 以后会考虑加上折扣功能
    welsmann
        63
    welsmann  
       2017-02-20 21:55:08 +08:00
    试用了一下,简直 6 的不行...期待针对 V 站来个打折,一定会买
    sohoer
        64
    sohoer  
    OP
       2017-02-20 22:43:24 +08:00   ❤️ 1
    @Mavious

    第二个
    http://www.feeddiy.com/rss/nUJVri

    这两个网址都需要 Chrome 的支持,你可以注册账号试用

    过段时间我会删除,每一个基于 Chrome 的抓取都是比较耗资源的
    sohoer
        65
    sohoer  
    OP
       2017-02-20 22:55:03 +08:00
    @welsmann 好,可以先试用一段时间
    autulin
        66
    autulin  
       2017-02-20 23:13:22 +08:00
    用了,满足 ing...

    向作者提需要改进的一个小细节,就是爬取出的 item 的顺序是反的,比如本来顺序是( 1 、 2 、 3 、 4 、 5 ), Feed 中的顺序则是( 5 、 4 、 3 、 2 、 1 )
    sohoer
        67
    sohoer  
    OP
       2017-02-20 23:31:34 +08:00
    @autulin 确实是这样,对目前程序中的一些逻辑有冲突所以不是很好处理
    fanghui
        68
    fanghui  
       2017-02-21 00:32:11 +08:00
    @sohoer 主要问题是没有 xpath 表达式显示在页面的左上角, [chrome 版本 56.0.2924.87 (64-bit)] 你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu
    lmusicwq
        69
    lmusicwq  
       2017-02-21 00:37:31 +08:00   ❤️ 1
    @Mavious #50 你可以看下 56 楼 binux 大大推荐的,可能需要补下一些 js 知识,不过应该不是特别难的。我 js 也没怎么学,试了下第一个 https://script.google.com/macros/s/AKfycbxnXuGbfbeJ7cKJFHiyYkM8ajJkcYzleiXAE0ro-YnuuE-3a4I/exec ,有兴趣试的话我的代码可以参考下 https://script.google.com/d/1BoghluAF8982Ku516FyPl11a8qEcsNC5OTyqanJNJhNd3IgZgnuyTqqu/edit?usp=sharing
    sohoer
        70
    sohoer  
    OP
       2017-02-21 00:46:42 +08:00
    @fanghui 你把 Event 勾上了,这表示开启原网页的事件
    suduo1987
        71
    suduo1987  
       2017-02-21 13:48:43 +08:00 via iPhone
    我用 gas 没有搞不定的
    tortoo
        72
    tortoo  
       2017-03-03 20:04:08 +08:00
    楼主我按照你的视频教程做出来一直有问题,这是我做的: http://www.feeddiy.com/rss/AB3Iru 。我按照顺序选择的,而且选择都 OK ,怎么最后标题丢了,正文成了标题,其他也很乱……我一共四个兴趣部落希望都能做成 rss 订阅,能够推送,能不能帮忙看下,告知问题在哪里
    tortoo
        73
    tortoo  
       2017-03-04 07:59:55 +08:00
    @sohoer 忘了 @你了,我又新做了, http://www.feeddiy.com/rss/beEfmy ,但还是不尽满意,正文最底下显示的缩略部分,网页版 inoreader 显示为原始附件,链接点击跳转正常, iOS 版显示 image+简介文字链接,但链接调整都是 404 。另一个大问题是,我用 inoreader 和 reeder 同样订阅,但抓取的条目不一样,显示也不一样,比如 reeder 里显示正文,但不显示缩略和简介这部分。这该如何是好
    sohoer
        74
    sohoer  
    OP
       2017-03-06 23:54:05 +08:00
    @tortoo #73


    前天看到了留言刚好又在实现这个功能,就特意完成了再来回复,
    你输入这个网址:
    https://buluo.qq.com/p/barindex.html?bid=10247
    选第一个再按 clone ,保存后再订阅到 inoreader
    tortoo
        75
    tortoo  
       2017-03-12 22:01:06 +08:00
    @sohoer 你这个克隆的办法不错,哈,相当于代做😹。但还是不理想,比我做的改进的地方,是消息列表里的缩略图 OK 了,但有的正文丢了,比如《“限客令”能让学生正常的学习》这篇,我做的原文是 OK 的,乱但是不丢东西😹。唉,好像没有两全的办法……我的建议是, feeddiy 的优势很明显,结合了 distill 这种监控网页的做法,所见即所得,能实现绝大部分内容,但是需要代码微调这部分没有。要是能再结合 feed43 就好了,不过我试了 feed43 ,代码一直通不过,不知道是不是腾讯的网页代码太变态😹。我很看好你这个 diy ,如果能完善微调这部分,再结合即刻 APP 的订阅,几乎很完美
    tortoo
        76
    tortoo  
       2017-03-12 22:09:49 +08:00
    @sohoer 我又翻了翻我第二次做的,有的也丢东西,比如《坚持就是胜利》和《武大, forever love 》这两篇,没有图片,正文有了,虽然变成了链接 404 的蓝字。这些都只能点标题进去原网页看全部
    llhh
        77
    llhh  
       2017-03-31 17:58:25 +08:00
    可以列出一些热门的资源出来。
    ITOutsider
        78
    ITOutsider  
       2017-04-21 15:34:38 +08:00
    无法添加,左键一直是选择区域,右键是系统选项
    sohoer
        79
    sohoer  
    OP
       2017-04-21 15:37:12 +08:00
    @ITOutsider #78 我操作是可以的,网址是什么呢?
    ITOutsider
        80
    ITOutsider  
       2017-04-21 15:44:20 +08:00
    @sohoer http://chinese.engadget.com/

    只有“ Google Home 現支援多人(帳號)語音辨識”这个最新的标题可以正常选择,其他文章标题就无法选择了
    sohoer
        81
    sohoer  
    OP
       2017-04-21 15:48:21 +08:00
    @ITOutsider #80 这个网站是有点怪,我看看,你可以先把右上角的 CSS 勾去掉再选取元素
    sohoer
        82
    sohoer  
    OP
       2017-04-21 15:54:12 +08:00
    @ITOutsider #80
    engadget 这个网站的 A 标签覆盖了整个块,所以就优先选到了整 个块
    只能不勾选右上角的 CSS ,才能解决这个问题
    sohoer
        83
    sohoer  
    OP
       2017-04-21 15:57:45 +08:00
    @ITOutsider #80 不勾选 CSS 好像也有问题,应该是选择器的 BUG ,我解决了再回复你
    sohoer
        84
    sohoer  
    OP
       2017-04-21 18:09:19 +08:00
    @ITOutsider #80 这个网站的 CSS 写的有点另类, BUG 修复了,你可以 CLONE

    http://www.feeddiy.com/preview/1875
    ITOutsider
        85
    ITOutsider  
       2017-04-21 22:50:14 +08:00 via iPhone
    @sohoer thx for 非常感谢
    lada04
        86
    lada04  
       2017-05-20 18:09:02 +08:00
    楼主是作者?那可以发到分享创造节点嘛~

    我正在用 Huginn。话说 FeedDiy 能做*哪些*Huginn 不能做的事情?能给几个例子吗?谢谢
    zhucha
        87
    zhucha  
       2017-09-12 09:13:34 +08:00
    @sohoer 请问保存时提示 System errors 有可能是什么原因呢?无法订阅长城外面的网站?谢谢。
    sohoer
        88
    sohoer  
    OP
       2017-09-13 01:03:20 +08:00
    @zhucha #87 是个 BUG 查了好久解决了, 墙外的网也是可以抓的
    zhucha
        89
    zhucha  
       2017-09-13 08:57:27 +08:00
    @sohoer 谢谢。
    同样的页面,因为之前不太懂,所以设置得有点问题,想重新设置一下,结果一直错误。刚刚试了下,已经可以生成 rss 了,但是,rss 里面没有内容。。。www.feeddiy.com/rss/NnUv2q 难道我又有什么地方搞错了?
    sohoer
        90
    sohoer  
    OP
       2017-09-13 09:23:38 +08:00
    @zhucha #89 数据抓取是异步的,一般 5 分钟之内可以采集到数据
    zhucha
        91
    zhucha  
       2017-09-13 09:37:18 +08:00
    @sohoer 可以了,谢谢!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   961 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 21:53 · PVG 05:53 · LAX 13:53 · JFK 16:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.