V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
poorcai
V2EX  ›  问与答

通过解析 ZF(Gov)网站页面获取相关信息做成接口,违法吗?

  •  1
     
  •   poorcai · 2021-06-21 15:42:48 +08:00 · 2032 次点击
    这是一个创建于 1280 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近想做一个便民类的 app 或者小程序,但是苦于没有官方的接口可以调用,想到一个思路是通过解析 ZF 网站的 HTML 页面从而提取到相关内容,最终做成一个接口供调用。考虑到以后该 app 可能加广告盈利(后话),不知这样做是否违法?

    第 1 条附言  ·  2021-06-21 17:32:37 +08:00

    首先谢谢大家的解惑。 可能没说清楚,我的操作其实很简单,就是别人请求我的接口时,我在接口中请求一次对应的ZF公示页面(已公开,任何人都可以用浏览器访问),然后解析得到的 HTML 字符串,加工成我需要的信息。

    27 条回复    2021-06-21 23:29:35 +08:00
    uselessVisitor
        1
    uselessVisitor  
       2021-06-21 15:46:16 +08:00
    不是人家公开开放的数据都是非法的吧
    vindac
        2
    vindac  
       2021-06-21 15:49:45 +08:00
    页面地址发出来
    poorcai
        3
    poorcai  
    OP
       2021-06-21 15:50:51 +08:00
    @beichenhpy #1 但是这个数据( HTML 页面)是公开的呀,我只是通过加工一下 HTML 页面给自己提供接口
    poorcai
        4
    poorcai  
    OP
       2021-06-21 15:51:16 +08:00
    @vindac #2 就普通的 zf 公示页面
    tsungkang
        5
    tsungkang  
       2021-06-21 15:51:42 +08:00
    不要去搞他们的内部接口,理论上来说问题不大……
    当然,具体背后有什么操作我就不知道了,公交地铁满地打广告的查老板查企业的那个网站,他们的数据就是抓取于[国家企业信用信息公示系统]( http://www.gsxt.gov.cn/) ,我看他们现在反而还挺生龙活虎的。
    poorcai
        6
    poorcai  
    OP
       2021-06-21 15:52:49 +08:00
    @tsungkang #5 我的操作很简单,就是请求公开的页面地址,然后解析 HTML 字符串而已😂
    vindac
        7
    vindac  
       2021-06-21 15:52:56 +08:00
    @poorcai 那没问题的,爬了很多个了
    x86
        8
    x86  
       2021-06-21 15:53:00 +08:00
    理论上 gov 的东西你没它的授权就不要去碰
    ronman
        9
    ronman  
       2021-06-21 15:53:44 +08:00 via Android
    这种东西没事就没事,要真要找你茬,怎么着不都能给你扣个帽子?
    uselessVisitor
        10
    uselessVisitor  
       2021-06-21 15:55:12 +08:00
    @tsungkang #5 公示的可以用啊。。
    poorcai
        11
    poorcai  
    OP
       2021-06-21 15:56:37 +08:00
    @ronman #9 你说的有道理,还挺吓人的😑
    EmotionV
        12
    EmotionV  
       2021-06-21 15:57:38 +08:00
    爬一下放自己服务器,再接口调用,没啥问题
    czfy
        13
    czfy  
       2021-06-21 16:00:35 +08:00
    不盈利还好说,盈利的话 gov 如果想搞你总是能找到依据
    clino
        14
    clino  
       2021-06-21 16:01:59 +08:00
    是不是给结果的时候提供来源地址会好一些?
    poorcai
        15
    poorcai  
    OP
       2021-06-21 16:04:54 +08:00
    @clino #14 这个提议可以考虑采纳一下
    CYKun
        16
    CYKun  
       2021-06-21 16:07:08 +08:00 via iPhone   ❤️ 1
    建议谨慎,如果要搞的话一定做好限流。这类网站普遍容量不大,万一你的 app 火了然后把公务网站拉崩了,少不得得喝顿茶。
    poorcai
        17
    poorcai  
    OP
       2021-06-21 16:11:46 +08:00
    @CYKun #16 😂你说的这个也是我考虑过的,他们网站基本上扛不住什么大风大浪,万一我的接口被攻击真的完蛋。
    zhaokun
        18
    zhaokun  
       2021-06-21 16:37:13 +08:00
    这不是 google 、百度干的事儿嘛
    l0wkey
        19
    l0wkey  
       2021-06-21 17:14:04 +08:00
    别每次请求都去爬,自己缓存就可以。
    poorcai
        20
    poorcai  
    OP
       2021-06-21 17:18:59 +08:00
    @l0wkey #19 有此意,但是这个数据是实时的,说不定明天就变了
    locoz
        21
    locoz  
       2021-06-21 17:19:54 +08:00 via Android
    爬了自己展示处理后的数据可以,直接做成跟反代差不多的接口不行。
    jjianwen68
        22
    jjianwen68  
       2021-06-21 17:23:21 +08:00
    统一 21L
    poorcai
        23
    poorcai  
    OP
       2021-06-21 17:26:00 +08:00
    @locoz #21
    @jjianwen68 #22
    好的明白了,就是自己爬取后进行一次加工的,不是反代
    ho121
        24
    ho121  
       2021-06-21 17:27:52 +08:00
    之前好像有过一个人爬到了还未正式发布的文件并自行公开,然后进去了
    cpstar
        25
    cpstar  
       2021-06-21 17:35:24 +08:00   ❤️ 1
    16# 说的直接上缓存就行了
    信息本来就是公开的,只不过你做了一个聚合罢了。没啥事。
    scxiazi
        26
    scxiazi  
       2021-06-21 19:08:37 +08:00
    进去的不少 你可以试试
    akira
        27
    akira  
       2021-06-21 23:29:35 +08:00
    自动抓取应该是有风险的,具体咨询下律师吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2857 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 14:26 · PVG 22:26 · LAX 06:26 · JFK 09:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.