V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
James369
V2EX  ›  问与答

关于爬虫爬取数据的法律风险规避问题

  •  
  •   James369 · 2021-06-30 10:31:48 +08:00 · 2463 次点击
    这是一个创建于 1271 天前的主题,其中的信息可能已经有所发展或是发生改变。
    爬虫很好用,但爬取的数据存在法律风险,特别是商业公司的数据,你一爬可能把你告上法厅。

    但如果是非商业公司的数据,比如 ZF 机构、事业单位等一些面向公众 /大众公开的数据,使劲爬这些数据是不是没有什么问题呢?(为自己的机智点个赞,嘿~)
    16 条回复    2022-04-24 11:02:22 +08:00
    AoEiuV020
        1
    AoEiuV020  
       2021-06-30 10:37:07 +08:00   ❤️ 1
    爬虫除了数据应该还涉及影响服务器正常运作,破坏信息系统罪风险?
    fank99
        2
    fank99  
       2021-06-30 10:40:23 +08:00
    我就一直很纳闷,天眼查不也是爬 zf 数据吗,怎么一点事都没有
    xingshu1990
        3
    xingshu1990  
       2021-06-30 10:43:01 +08:00
    @fank99 #2 有一些是线下沟通交谈了以后,现场拷数据的。一直爬的话,爬虫成本也很大(破掉验证码什么的)
    DarkFire
        4
    DarkFire  
       2021-06-30 10:45:05 +08:00
    @fank99 有果汁背景的,难道要自己办自己啊?
    James369
        5
    James369  
    OP
       2021-06-30 10:45:41 +08:00
    @fank99 我认为这种应该是商业合作,比如给你开个接口调用数据之类
    coderluan
        6
    coderluan  
       2021-06-30 13:12:54 +08:00
    这要没事, 爬虫不就是合法的服务器攻击手段了吗, 使劲爬肯定不行的, 只能单线程高延迟慢慢爬, 甚至可以用浏览器前端爬, 这样对方发现不了, 你甚至完全可以说, 咱就是一个个打开页面, 手动复制粘贴的, 笑死, 根本没有爬.
    James369
        7
    James369  
    OP
       2021-06-30 13:39:32 +08:00
    @coderluan 并不是说爬取的技术手段上的问题,而是数据的合法性,获取的合法性,使用的合法性
    alexmmog
        8
    alexmmog  
       2021-06-30 13:49:23 +08:00
    看用户协议
    imn1
        9
    imn1  
       2021-06-30 13:59:47 +08:00
    我爬豆瓣是 10 秒开一页,比我浏览还慢,只是自动化了,不用逐个输入查找再 copy/paste

    如果一秒开一万页,你看看哪个网站没意见?包括 ZF 事业单位
    我没有让你去试哦,别说我教唆,先免责一下,🐶
    coderluan
        10
    coderluan  
       2021-06-30 14:03:14 +08:00
    @James369 获取是肯定合法的, 你拿到手什么都不干, 这个状态可能是没任何问题的, 但是使用的话, 得具体情况具体分析了.
    zictos
        11
    zictos  
       2021-06-30 14:09:29 +08:00
    @James369 #7 法律从没规定过数据合法性。
    相关侵入计算机的法律都指的是技术手段,比如破解别人服务器密码获取数据。不会因为数据没有版权问题就是合法的,数据是否有版权问题不会改变违法的性质。真要处理版权侵权问题,是有侵犯著作权的相关法律的,那是另一回事了。
    zictos
        12
    zictos  
       2021-06-30 14:12:22 +08:00
    @imn1 #9 10 秒一页问题不大,但是如果有验证码并且用自动化的方式去识别验证码就难说了
    antalwang
        13
    antalwang  
       2021-07-01 08:32:06 +08:00 via iPhone
    这么一说我突然有点害怕,之前帮老师(文本研究用)爬取了一些视频网站的视频弹幕和评论数据,想问下这会涉及法律问题嘛...
    James369
        14
    James369  
    OP
       2021-07-01 08:50:39 +08:00
    @antalwang 没有用于商业目地,没有侵犯他人隐私,一般没什么问题的
    sean233
        15
    sean233  
       2021-07-08 17:40:51 +08:00
    爬国外网站,应该可以避免这个问题
    Nostalgia
        16
    Nostalgia  
       2022-04-24 11:02:22 +08:00
    @imn1 老哥,求问下你是用自己的账号爬,还是用一批账号去爬…
    某也在爬豆瓣,方便加微信聊下么?
    c2lsZW50X3doYWxl ( base64 )
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2687 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 08:30 · PVG 16:30 · LAX 00:30 · JFK 03:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.