V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sholmesian
V2EX  ›  微信

关于微信小程序的官方爬虫

  •  
  •   sholmesian · 2019-04-15 18:25:42 +08:00 · 5244 次点击
    这是一个创建于 2047 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今天发现微信小程序的数据接口被上百个微信昵称为三个字的新微信用户爬了个遍:

    userlist

    其主要 IP 来源 IP 如下:

    101.91.60.x 220.181.108.x 223.166.222.x 101.91.60.x

    log

    搜索了一下,发现我不是一个人

    这些用户的访问有以下几个特征:

    1. 不会被记入小程序前端页面访问统计,都是直接给登陆的接口发送小程序的 code,后端得到的 code 能通过微信授权验证。
    2. 得到后端授权后目的性很强地开始爬数据,每个用户访问的内容除了列表外基本不交叉,访问间歇都为几秒钟,一个一个 C 段的 IP 轮着来,都是从凌晨开始密集访问。
    3. UA 类似"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1 MicroMessenger/6.5 mpcrawler",都带有“ mpcrawler ”字样。

    基于此大概率可以认为这是微信小程序的官方爬虫,供大家参考。

    PS:对应的微信小程序中“关联公众号设置”是“不允许关联”,“页面收录设置”也是“不允许被收录”,不知为什么还是会被爬。

    3 条回复    2021-03-01 16:30:50 +08:00
    123s
        1
    123s  
       2019-04-15 20:53:52 +08:00
    我还以为是测试人员
    PqgpNgA0wk
        2
    PqgpNgA0wk  
       2019-04-16 08:26:02 +08:00 via Android
    我也以为是测试人员,隔几天就一个只有用户名没有其他信息的用户访问一个页面
    uiosun
        3
    uiosun  
       2021-03-01 16:30:50 +08:00
    不是微信的,是模拟 code 然后爬数据的,估计是灰 /黑产
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1030 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 19:33 · PVG 03:33 · LAX 11:33 · JFK 14:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.