V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
jerrry
V2EX  ›  问与答

爬 gov cn 网站上的公开数据然后交给大模型向量化处理,是否有风险

  •  
  •   jerrry · 3 天前 · 2425 次点击

    个人感觉有两个风险

    • 第一个是爬虫 gov cn 网站本身就有风险
    • 第二个是爬到的数据交给大模型处理会有数据泄漏的风险(虽然都是公开的数据),特别是如果使用的是境外的大模型接口

    所以有点犹豫。如果只是参与这个项目的其他部分,不涉及爬虫这块,是否有风险呢?

    29 条回复    2024-06-27 10:07:30 +08:00
    povsister
        1
    povsister  
       3 天前   ❤️ 3
    你这个想法很刑,还主动传出境外,那还能更刑
    wbrobot
        2
    wbrobot  
       3 天前   ❤️ 1
    直接说结果:无期
    ospider
        3
    ospider  
       3 天前   ❤️ 1
    刑与不刑,即和法律没有关系,也和爬虫没有关系。人在境内,最安全的就是搞国外的数据;想搞国内的数据,最安全的方法就是肉身润。

    理论上来说,公开的数据当然随便爬了,但是至于实际执行,懂的都懂吧。就技术角度而言,你用国外的服务器爬,其实也很难追溯,但是技术总是有漏洞,代码总是有 bug 的,也说不准。

    实际情况来说,如果是你自己爬了少量数据用,放心搞就好了,没人 care 。真正会被盯上,一定是经济或者政治上产生了一定的影响,比如承德的程序员。
    1145148964
        4
    1145148964  
       3 天前
    其实很多网站在境外打不开的。或者网速奇慢无比。墙是双向的。
    yyzh
        5
    yyzh  
       3 天前 via Android
    深圳的话这里有不用爬
    https://opendata.sz.gov.cn/
    另外爬虫是犯法的
    wonderfulcxm
        6
    wonderfulcxm  
       3 天前 via iPhone
    不被发现就没有问题
    jerrry
        7
    jerrry  
    OP
       3 天前
    @ospider 是一个兼职项目,所以我在想有没有必要承担风险
    duanxianze
        8
    duanxianze  
       3 天前
    这东西抓不住你就没事,抓住了你必进去
    AnonymousUser
        9
    AnonymousUser  
       3 天前
    第一点,数据类型和量级吧。你要是爬一些统计数据,比如财政、产业数据应该还好。如果是法院判例、税务之类可能敏感点?因为涉及到具体个人/公司。
    第二点,太敏感了,建议好好考量风险和收益
    signin
        10
    signin  
       3 天前   ❤️ 1
    公开数据,随便拿,不要听楼上胡说,但要把握一个度,就是尽量不要把网站爬挂了
    Features
        11
    Features  
       3 天前
    就怕是披着羊皮的狼
    表面包装成大模型,实则是间谍项目。。。
    ivvei
        12
    ivvei  
       3 天前
    有的是汇总了公开数据被当间谍处理的。
    YDCHYD
        13
    YDCHYD  
       3 天前 via iPhone
    只要你肉身在国内,哪天被地方网警翻到这个帖子,你就是业绩。
    国内即便是公开的数据也不允许合订本出现,更遑论你爬数据给境外。
    jerrry
        14
    jerrry  
    OP
       3 天前
    谢谢大家,看来感觉还是有风险的
    kong0bbs
        15
    kong0bbs  
       3 天前
    ZF 网站一般会脆弱,访问量稍大就会挂。
    如果爬的过程中挂了,可能会导致蹲苦窑。

    国内有先例,有公司爬深圳的 ZW 网站上的公开数据。
    但是程序写有 bug ,出现死循环,导致以近 100qps 的频率访问这网站。
    最终把网站打挂了,事情发生在周末,无人恢复,网站挂了一整个周末。
    引起了很多市民的投诉,最终,技术总监和程序员都进去了。
    27
        16
    27  
       3 天前
    xie8fei
        17
    xie8fei  
       2 天前
    事小罪大
    且不说盈利多少,行为犯没收益都会可能判。
    当然也可以赌,赌输了就刑事
    amon
        18
    amon  
       2 天前
    咨询律师,不管是全职还是兼职,有些底线不要碰。

    我真的见过写程序(灰产)进去的,关到过年才放出来。
    aminobody
        19
    aminobody  
       2 天前
    @yyzh #5 403 403 Forbidden
    Request forbidden by administrative rules.
    yyzh
        20
    yyzh  
       2 天前 via Android
    @aminobody 你在外国?
    belin520
        21
    belin520  
       2 天前
    @yyzh #5 我靠,深圳真的是太太太太先进了。。。
    sneezry
        22
    sneezry  
       2 天前
    政府的东西别碰
    yangliudi123
        23
    yangliudi123  
       2 天前 via iPhone
    还记得宋朝的莫须有吗,也许有吧
    wbrobot
        24
    wbrobot  
       2 天前
    @signin 公开数据你也不能拿,比如公安的治安处罚信息,是拒绝转载的,阅读过网站说明吗?
    不是你能看到的数据就可以随便抓的,最简单的判断标准,.gov.cn 的,略过。
    dingyaguang117
        25
    dingyaguang117  
       2 天前 via iPhone
    生在中国 龙非盘着 虎非缩着, 何况你是个程序员 P 民
    yvkino
        26
    yvkino  
       2 天前
    这还用想,不抓别人不代表不抓你
    hahasong
        27
    hahasong  
       2 天前
    破坏计算机系统罪 一抓一个准
    EndlessMemory
        28
    EndlessMemory  
       2 天前
    爬虫抓进去的不少,关键就在于又没有人找你
    abersheeran
        29
    abersheeran  
       2 天前
    有价值,那就可以,比如企查查之类的,工信部挂了号的,数据随便他抓。做着玩,别把人打崩了也可以。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2529 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:06 · PVG 18:06 · LAX 03:06 · JFK 06:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.