V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
guoziq09
V2EX  ›  问与答

请教个爬虫问题,请问这样有风险吗?会被请喝茶吗

  •  
  •   guoziq09 · 215 天前 · 2420 次点击
    这是一个创建于 215 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目标:
    1.爬取目标是国内的小说站点,起点、晋江等。
    2.爬取的数据主要是榜单、收藏、订阅等数据。不包含小说本身的文章。
    3.爬取时间每小时一次。

    用途:
    1.主要用来做数据分析。
    2.次要目的想自己做个导览网站/应用。

    robots.txt
    以起点举例:
    User-agent: ClaudeBot
    Disallow: /

    User-agent: ChatGPT-User
    Disallow: /

    User-agent: GPTbot
    Disallow: /

    User-Agent: *
    Allow: /
    Disallow: /*.css
    Disallow: /*.js
    Disallow: /so/*

    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap2.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap3.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap4.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap5.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap6.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap7.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap8.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap9.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap10.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap11.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap12.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap13.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap14.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap15.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap16.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap17.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/page-sitemap.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/sr_playlist-sitemap.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-archive-sitemap.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/category-sitemap.xml


    以上,会有法律风险吗?
    ----------------------------------------------------

    进一步:
    如果以上数据我作为收费项目,会有法律风险吗?
    18 条回复    2024-05-21 21:33:33 +08:00
    taipei
        1
    taipei  
       215 天前
    别碰, [非法获取计算机信息系统数据、非法控制计算机信息系统罪] ,以及非法经营罪,可以了解一下
    忙活一场,一旦有事,都是非法所得,全部收缴
    guoziq09
        2
    guoziq09  
    OP
       215 天前
    @taipei 所以我只是根据他的 robots.txt 的规范爬取数据自用也会有法律风险么
    hereIsChen
        3
    hereIsChen  
       215 天前
    爬虫写得好,牢饭吃到饱

    如果是免费的,问题应该不大,优书这些差不多
    收费的话,就有风险
    darkengine
        4
    darkengine  
       215 天前
    收费必吃牢饭。免费的,解释权也不在你手上,就看他们搞不搞你了。
    Jinnrry
        5
    Jinnrry  
       215 天前
    @guoziq09 法律不认 robots.txt ,我记得有前例的,按照 robots 爬,照样是非法入侵计算机罪
    Ericcccccccc
        6
    Ericcccccccc  
       215 天前
    搜索 爬虫 坐牢
    q727729853
        7
    q727729853  
       215 天前   ❤️ 1
    有风险。但是基本和你翻 qiang 一样,一般都没啥太大问题。
    这么低的频率,并且又不是爬取付费内容。
    moluyouwo
        8
    moluyouwo  
       215 天前
    3 个要点。公开数据,没阻塞服务器,非盈利。触碰任何一个别人都有依据起诉。
    gaobh
        9
    gaobh  
       215 天前 via iPhone
    放国外,找个抗投诉的 vps
    Y25tIGxpdmlk
        10
    Y25tIGxpdmlk  
       215 天前
    @Jinnrry #5 那为啥搜索引擎可以爬?因为有执照吗
    Jinnrry
        11
    Jinnrry  
       215 天前 via Android
    @Y25tIGxpdmlk 我不知道,我只知道法官不懂 robots 也不认 robots 。对方真有证据证明你爬了,也用了他的数据,起诉你的话照样进入
    guoziq09
        12
    guoziq09  
    OP
       215 天前
    @taipei
    @guoziq09
    @hereIsChen
    @darkengine
    @Jinnrry
    @Ericcccccccc
    @q727729853
    @moluyouwo
    @gaobh
    @Y25tIGxpdmlk
    多谢各位,主要是最近看了看 flutter ,想自己写个跨平台的 app 用来练练手。小说是我平时比较喜欢打发时间的方式,后边发散的可能很多人跟我有同样的感觉。做好了能否收费。
    看了几位的,感觉还是自己坐着玩比较好。
    ----------------
    话说我这样跟搜索引擎有啥区别吗?
    Y25tIGxpdmlk
        13
    Y25tIGxpdmlk  
       215 天前   ❤️ 1
    @guoziq09 #12 自己练手写着玩没啥问题,你也就一小时一次,别把人家服务器爬挂了,没人管你。
    收费那就性质变了,有些东西随便搞搞没人管你,但是按法律来说要上纲上线,怎么样都能给你套上去用
    dedad558
        14
    dedad558  
       215 天前 via Android
    前怕狼,后怕虎,事情就做不了。人言可畏。
    热榜网站爬虫授权了吗?
    AI 侵犯知识产权授权了吗?
    虽然这话大逆不道,违反正常思维,但...
    mythjava
        15
    mythjava  
       215 天前
    你要怕你就多跳几层
    我之前的公司 搞多好多好多手机卡 专门来处理爬虫流量的 什么都爬什么都不看 就是干
    leesa
        16
    leesa  
       215 天前
    已经有类似的网站了,叫起点图
    https://www.qidiantu.com/booklists/
    hujun528
        17
    hujun528  
       215 天前
    建议打工
    mumbler
        18
    mumbler  
       214 天前
    爬虫本身不违法,看你怎么用爬下来的数据,如果你盗版,那肯定要坐牢的,但如果你用于训练大模型,就没事
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2861 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 12:25 · PVG 20:25 · LAX 04:25 · JFK 07:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.