V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
jijiwaiwai
V2EX  ›  程序员

微信公众号文章采集

  •  
  •   jijiwaiwai · 2017-11-24 11:25:21 +08:00 · 8945 次点击
    这是一个创建于 2585 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前开放注册免费使用 http://www.wechatposts.com/ 输入公众号名称提交任务,五分钟内方可到处所有文章列表

    第 1 条附言  ·  2017-11-24 15:18:05 +08:00
    网站打不开可以临时使用:
    http://l162241j11.imwork.net/
    45 条回复    2020-02-14 18:10:57 +08:00
    nyfwan123
        1
    nyfwan123  
       2017-11-24 11:27:45 +08:00
    求问后端大概实现思路
    cqcn1991
        2
    cqcn1991  
       2017-11-24 11:47:28 +08:00
    好 NB...
    golmic
        3
    golmic  
       2017-11-24 11:57:13 +08:00 via Android
    大概是怎么实现的呢?
    br0x
        4
    br0x  
       2017-11-24 12:07:38 +08:00
    同求,楼主讲一下思路呗
    grimpil
        5
    grimpil  
       2017-11-24 12:13:04 +08:00 via Android
    只能采集十篇?
    deathql
        6
    deathql  
       2017-11-24 12:24:07 +08:00
    这个是怎么实现的 我也想知道
    linKnowEasy
        7
    linKnowEasy  
       2017-11-24 12:29:02 +08:00
    魔鬼交际学... 抓取失败
    LukeChien
        8
    LukeChien  
       2017-11-24 12:34:47 +08:00 via Android
    搜狗搜索抓的吧
    utopia5719
        9
    utopia5719  
       2017-11-24 12:37:38 +08:00
    试了一下,40 分钟了也没数据啊
    jijiwaiwai
        10
    jijiwaiwai  
    OP
       2017-11-24 12:44:53 +08:00
    @grimpil 可以采集所有
    jijiwaiwai
        11
    jijiwaiwai  
    OP
       2017-11-24 12:45:12 +08:00
    @LukeChien 不是
    jijiwaiwai
        12
    jijiwaiwai  
    OP
       2017-11-24 12:46:01 +08:00
    @utopia5719 提交的时候,请提交正确的“微信公众号名称”,注意区分大小写,且不是“微信号”
    jijiwaiwai
        13
    jijiwaiwai  
    OP
       2017-11-24 12:46:46 +08:00
    @linKnowEasy 可以的,今天刚上线,测试的人数太多,可能抓取有延迟
    deathql
        14
    deathql  
       2017-11-24 12:48:45 +08:00
    @jijiwaiwai web 微信吧
    buir
        15
    buir  
       2017-11-24 12:55:45 +08:00
    Service Temporarily Unavailable

    The server is temporarily unable to service your request due to maintenance downtime or capacity problems. Please try again later.

    Apache/2.2.15 (CentOS) Server at www.wechatposts.com Port 80
    sangmong
        16
    sangmong  
       2017-11-24 12:56:06 +08:00
    @buir 我这也是
    arens
        17
    arens  
       2017-11-24 13:02:40 +08:00
    注册不能
    buir
        18
    buir  
       2017-11-24 13:04:22 +08:00
    直接 503 玩死了~
    jijiwaiwai
        19
    jijiwaiwai  
    OP
       2017-11-24 13:16:49 +08:00
    @buir 刷新
    jijiwaiwai
        20
    jijiwaiwai  
    OP
       2017-11-24 13:17:08 +08:00
    @deathql 也不是,哈哈
    friejq
        21
    friejq  
       2017-11-24 13:19:05 +08:00
    望楼主分享思路?
    weer0026
        22
    weer0026  
       2017-11-24 13:29:33 +08:00
    正常应该搜狗来的,还记得之前造数分享了一个从微信公众号后台抓的办法。
    mooncakejs
        23
    mooncakejs  
       2017-11-24 13:31:27 +08:00
    微信拿 key,关注采集,数据问题不大,号多了就不好维护了。
    missdeer
        24
    missdeer  
       2017-11-24 14:05:56 +08:00
    503 Service Temporarily Unavailable

    The server is temporarily unable to service your request due to maintenance downtime or capacity problems. Please try again later.
    krasie
        25
    krasie  
       2017-11-24 14:13:23 +08:00
    Proxy Error

    The proxy server received an invalid response from an upstream server.
    luoshixiong
        26
    luoshixiong  
       2017-11-24 14:14:59 +08:00
    打不开 凉了?
    faustina
        27
    faustina  
       2017-11-24 14:25:35 +08:00
    502
    xsd3169
        28
    xsd3169  
       2017-11-24 14:25:42 +08:00
    凉了凉了凉了。。
    ```
    <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
    <html><head>
    <title>502 Proxy Error</title>
    </head><body>
    <h1>Proxy Error</h1>
    <p>The proxy server received an invalid
    response from an upstream server.<br />
    The proxy server could not handle the request <em><a href="/">GET&nbsp;/</a></em>.<p>
    Reason: <strong>Error reading from remote server</strong></p></p>
    <hr>
    <address>Apache/2.2.15 (CentOS) Server at www.wechatposts.com Port 80</address>
    </body></html>
    ```
    jijiwaiwai
        29
    jijiwaiwai  
    OP
       2017-11-24 15:19:31 +08:00   ❤️ 1
    @xsd3169 网站打不开可以临时使用:
    http://l162241j11.imwork.net/
    xsd3169
        30
    xsd3169  
       2017-11-24 15:26:26 +08:00
    @jijiwaiwai 666
    之前我通过 MITM 做过一个差不多的,然而部分操作依然需要手动 2333
    ORZRRR
        31
    ORZRRR  
       2017-11-24 15:31:28 +08:00
    大哥没有数据啊
    php01
        32
    php01  
       2017-11-24 15:34:57 +08:00
    是关掉了吗?没抓到呀,就你的全球人工智能能抓到,其他的公众号都没用了,是你关掉服务了吗?
    deadofpeople
        33
    deadofpeople  
       2017-11-24 16:03:07 +08:00
    关服务了吗 /?
    xsd3169
        34
    xsd3169  
       2017-11-24 16:08:59 +08:00
    @jijiwaiwai 抓不到..
    anthow
        35
    anthow  
       2017-11-24 16:59:33 +08:00
    老铁敢不敢告诉我一下下思路,嗯哼?
    jijiwaiwai
        36
    jijiwaiwai  
    OP
       2017-11-24 17:56:03 +08:00
    @xsd3169 全自动搞定
    AlwaysBee
        37
    AlwaysBee  
       2017-11-24 18:41:06 +08:00
    采集不了。。。。
    AlwaysBee
        38
    AlwaysBee  
       2017-11-24 20:09:03 +08:00
    看采集结果是和搜狗的结果一样的,那需要解决的问题就是验证码,这个可以通过 IP 代理池来进行规避验证码,如果要采集历史文章,只能通过微信的客户端进行采集,而这个会遇到封号的问题
    jijiwaiwai
        39
    jijiwaiwai  
    OP
       2017-11-25 09:40:17 +08:00
    @AlwaysBee 并不是搜狗,我的是实时采集的
    jijiwaiwai
        40
    jijiwaiwai  
    OP
       2017-11-25 09:40:33 +08:00
    @php01 临时关了一下
    Britter
        41
    Britter  
       2017-11-25 10:24:17 +08:00
    应该不是搜狗,搜狗限制太多了,这个应该是通过微信里边的机制来抓取的,之前也做过一套
    AlwaysBee
        42
    AlwaysBee  
       2017-11-25 10:30:20 +08:00
    @jijiwaiwai 但是我试了,并没有把历史文章采集到,只有最近十天的文章
    akaayy
        43
    akaayy  
       2017-11-25 16:58:26 +08:00
    求分享思路。。
    Sivan2017
        44
    Sivan2017  
       2017-11-26 21:24:27 +08:00
    求分享思路
    golangggg
        45
    golangggg  
       2020-02-14 18:10:57 +08:00
    原贴过去好久了.. 已经过期了, 我这里有一套现在可用的免费 api 爬虫 https://github.com/Edaaaaa/wx-spider 可以供大家参考 codes 里面有 php 和 py 的 demo 简单写一点逻辑就可以使用了 api 方式可以 在几分钟时间内从开发到上线.比起自己搭建 效率高了很多倍 如果对你有帮助的话 记得在 github 点一下 star 谢谢了~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2932 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 13:35 · PVG 21:35 · LAX 05:35 · JFK 08:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.