V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
WhyLiam
V2EX  ›  问与答

爬虫到底侵不侵权

  •  
  •   WhyLiam · 2015-02-05 12:04:23 +08:00 · 8322 次点击
    这是一个创建于 3603 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我去年写了个网站,因为没有什麽信息量,所以爬了2000条数据。这星期接到了对方的信息,让我把爬的数据删了。
    对于这次处理,我会近期把网站关了。因为我的网站可以说完全没有用户,就是大学练手留下来的东西,也没有什麽损失。

    但是对于以后无信息量建网站的时候,

    1. 该不该使用爬虫
    2. 爬了数据怎麽处理可以避免侵权
    45 条回复    2015-02-05 22:58:23 +08:00
    imlonghao
        1
    imlonghao  
       2015-02-05 12:16:58 +08:00 via Android
    看爬的是什么吧...

    如果爬的是他们的内容,那么正常情况下都算是侵权吧

    我自己爬过一些站,只爬标题和相关访问量之类的,目前没有遇到什么纠纷

    对于一个新网站来说,建议还是不要吧,从0开始才能见证自己网站的成长!
    WhyLiam
        2
    WhyLiam  
    OP
       2015-02-05 12:30:33 +08:00
    @imlonghao 一個從0開始的網站,沒有信息,沒有索引,沒有收入。很難做吧。

    我當時想過先爬2000,之後在慢慢的把這兩千條刪掉。
    sNullp
        3
    sNullp  
       2015-02-05 12:34:38 +08:00
    爬虫本身不侵权。把爬到的内容作为自己的展示的内容(的一部分)则侵权。
    WhyLiam
        4
    WhyLiam  
    OP
       2015-02-05 12:44:18 +08:00
    @sNullp 那現在是不是大部分的新聞網站和聚合網站都存在侵權
    sNullp
        5
    sNullp  
       2015-02-05 12:47:47 +08:00
    @WhyLiam 是,但是侵权也要有人投诉才会 enforce 相应的保护。况且实际情况是很多时候根本没人 enforce。
    powtop
        6
    powtop  
       2015-02-05 12:48:09 +08:00
    默默地问一句 爬虫是啥 怎么写?
    CopyPaste
        7
    CopyPaste  
       2015-02-05 12:51:27 +08:00
    今日头条是怎么搞定的?
    CopyPaste
        8
    CopyPaste  
       2015-02-05 12:52:43 +08:00
    是不是除非标明 [严禁转载] 的才算是,其他只要标明源出处就可以了?
    WhyLiam
        9
    WhyLiam  
    OP
       2015-02-05 12:53:33 +08:00
    @sNullp 這次的情況是我爬了人家的數據,但是後來google的關鍵字我比他靠前,所以就來找我了。
    WhyLiam
        10
    WhyLiam  
    OP
       2015-02-05 12:56:49 +08:00
    @CopyPaste 我也不清楚是一定要去獲取許,可還是說留下出處就可以。
    今日頭條 類的估計有合作吧。

    知乎日報 版權意識挺好的
    WhyLiam
        11
    WhyLiam  
    OP
       2015-02-05 12:59:42 +08:00
    9hills
        12
    9hills  
       2015-02-05 13:00:47 +08:00 via iPhone
    可叹国内的版权意识,竟然有人说只要他不声明禁止转载就可以随便转载?简直就是强盗
    CopyPaste
        13
    CopyPaste  
       2015-02-05 13:03:28 +08:00
    @WhyLiam 今日头条的源方那么多,不会一个一个谈合作吧。
    CopyPaste
        14
    CopyPaste  
       2015-02-05 13:04:11 +08:00
    @9hills 不知道的还不能问了?了解的就普及下,别在这装清高。
    msg7086
        15
    msg7086  
       2015-02-05 13:04:45 +08:00   ❤️ 1
    @CopyPaste 说反了。
    版权法规定,任何作品默认由作者版权所有,拥有一切权利,除非主动声明放弃。
    比如说有人在 GitHub 上传了一个自己写的项目,但是没有写任何版权说明。
    你把项目下载回来,编译以后发布出去,就属于侵权。
    Stof
        16
    Stof  
       2015-02-05 13:05:22 +08:00
    @CopyPaste 今日头条是什么都用

    @9hills 这说明了国内的版权意识不强,不过话说回来正因为版权意识不强才可以免送好大一桶金给外国人
    CopyPaste
        17
    CopyPaste  
       2015-02-05 13:07:47 +08:00
    @msg7086 版权当然归原作者,但是大部分人的文章挂网上,还是希望广泛传播被更多人看到吧?是不是卖给出版商的文章才会在意这些。
    youxiachai
        18
    youxiachai  
       2015-02-05 13:10:03 +08:00
    @CopyPaste 今日头条已经被人告了....
    WhyLiam
        19
    WhyLiam  
    OP
       2015-02-05 13:10:27 +08:00
    @CopyPaste 剛剛查新聞了 今日头条 是侵權了,也在整改中
    CopyPaste
        20
    CopyPaste  
       2015-02-05 13:12:30 +08:00
    @youxiachai 之前想过他们怎么这么大胆的做,但回过头想想,他们敢这么做应该做好了相应的对策,或者说法律上又说不清的地方?
    WhyLiam
        21
    WhyLiam  
    OP
       2015-02-05 13:16:33 +08:00
    @msg7086 那我在註明版權歸對方所有的時候,可否轉載文章。
    還有比如github上的代碼 我在註明版權歸對方所有的時候編譯,發布 呢?
    感覺自己有點鑽牛角尖了
    em70
        22
    em70  
       2015-02-05 13:18:04 +08:00
    爬虫不侵权,用爬来的数据才可能侵权
    msg7086
        23
    msg7086  
       2015-02-05 13:19:54 +08:00
    @CopyPaste 不要揣测他人的意图。或者说,揣测他人意图没事,别拿来当做理由就行了。
    别人怎么想的,是别人说了算,不是你说了算啊……

    @WhyLiam 在法律框架内,不可以。
    只有一种方式,那就是合理使用。
    比如说新闻报道或者搜索引擎,为了报道或者为了提供搜索服务,局部转载小幅片段是可以的。
    9hills
        24
    9hills  
       2015-02-05 13:20:29 +08:00
    @WhyLiam 不能,你在你的盗版windows桌面写一行大字『本系统版权归微软所有』,就不侵权了?

    @CopyPaste 你真不知道么,呵呵
    9hills
        25
    9hills  
       2015-02-05 13:23:11 +08:00
    @CopyPaste 既然你不知道,那我明确告诉你,未得到版权人允许的转载,对说的就是你的做法就是侵权。怎么样,得到答案了吧。还不去乖乖删掉侵权文章。

    注:版权人允许包括直接授权,根据Licence授权等
    pockry
        26
    pockry  
       2015-02-05 13:23:41 +08:00
    本来想打一大段话,但想想也说服不了有先入为主的想法的人,干脆不说了,还是用实际行动吧。

    我自己写的文章都随便人转的,你们能把它们玩出花来,是你们的本事,如果你能标个来源和署名,那是你素质高,说不定我们还能交个朋友。
    glasslion
        27
    glasslion  
       2015-02-05 13:28:35 +08:00
    @msg7086 这里举GitHub为例有点不恰当。当代码托管在 GitHub, 其版权授权应该满足GitHub 的ToS
    https://help.github.com/articles/open-source-licensing/

    Generally speaking, the absence of a license means that the default copyright laws apply. This means that you retain all rights to your source code and that nobody else may reproduce, distribute, or create derivative works from your work. This might not be what you intend.

    Even if this is what you intend, if you publish your source code in a public repository on GitHub, you have accepted the Terms of Service which do allow other GitHub users some rights. Specifically, you allow others to view and fork your repository.
    CopyPaste
        28
    CopyPaste  
       2015-02-05 13:32:15 +08:00
    算了不说了,讨论个事情真费劲,@9hills你哪里看到我转侵权文章了,说的是网站文章的事情,把github拿出来干嘛?github有各种Licence声明好么。
    9hills
        29
    9hills  
       2015-02-05 13:38:36 +08:00
    @CopyPaste
    =============
    我去年写了个网站,因为没有什麽信息量,所以爬了2000条数据。这星期接到了对方的信息,让我把爬的数据删了。
    =============

    请问你获得对方授权了么?这个不是无授权的转载是什么?你不应该关掉?关掉还BB?
    9hills
        30
    9hills  
       2015-02-05 13:39:12 +08:00
    @CopyPaste 另外如果作者没有声明任意Licence,则默认是保留全部权利,你无权转载
    CopyPaste
        31
    CopyPaste  
       2015-02-05 13:39:33 +08:00
    @9hills 你丫看看这是谁写的
    9hills
        32
    9hills  
       2015-02-05 13:41:42 +08:00
    @CopyPaste 另外上面@的是lz,@错了。。
    msg7086
        33
    msg7086  
       2015-02-05 13:42:09 +08:00
    @CopyPaste
    1. 我举个栗子而已。
    2. 有License的时候遵循License,不写License遵循网站TOS与美国版权法。
    9hills
        34
    9hills  
       2015-02-05 13:42:57 +08:00
    @CopyPaste
    ============
    CopyPaste 37 分钟前
    @9hills 不知道的还不能问了?了解的就普及下,别在这装清高。
    ============================

    你这个发言让我把你当lz了
    miao
        35
    miao  
       2015-02-05 13:52:24 +08:00
    google baidu等大公司,爬了互联网几乎所有网页和内容. 到底他们侵权了没?

    大量有版权的内容都被他们爬了
    @9hills
    9hills
        36
    9hills  
       2015-02-05 13:59:21 +08:00   ❤️ 2
    @miao 爬虫遵守的是robots协议,这个协议允许爬就能爬。

    如果网站没有robots文件,按照Google的解释是不会爬。也是遵循着版权人不允许就不抓取的原则。

    另外爬取和展现是两回事,爬取相当于网页本地浏览,展现相当于二次分发。目前搜索引擎的展现仅限于两个:1. 在搜索结果中显示摘要非全文。2. 网页快照

    这两个在美国都打过官司,被认为是合理使用,不构成侵权。
    miao
        37
    miao  
       2015-02-05 14:30:09 +08:00
    @9hills 谢谢解惑.
    shakoon
        38
    shakoon  
       2015-02-05 15:04:12 +08:00
    @WhyLiam “一個從0開始的網站,沒有信息,沒有索引,沒有收入。很難做吧。”
    是不容易,但也并非不可能。我做过的一个网站就是完全白手起家,半年左右才有比较多的访问量,八九个月时就排到搜索引擎第一位了,而我自始至终未采集任何外站数据、未做任何seo。所以说,真心想做网站,是不需要更是不应该去爬什么东西的,搜索巨头们不是傻瓜,那些东西是抄的一目了然。
    peartail
        39
    peartail  
       2015-02-05 15:26:56 +08:00
    从网站的角度看,爬虫不仅侵权,还浪费了网站的带宽。

    我个人觉得有必要通过立法,让robots.txt这种东西不仅仅是一个君子协议,更要有法律效力。
    alexkh
        40
    alexkh  
       2015-02-05 16:06:22 +08:00
    爬虫只是内容采集的方式而已,本身并没有侵权不侵权一说。

    是否侵权主要针对网站内容而言,如果是被版权保护的内容被采集了,那肯定是属于侵权了;反之就随便采集了。

    如果是版权保护内容,不要说用爬虫采集,就是ctrl+c,ctrl+v手动复制粘贴,也仍然是侵权。
    xuwenmang
        41
    xuwenmang  
       2015-02-05 19:02:18 +08:00
    微博的分享怎么没人说侵权?
    百度/google的搜索引擎怎么没人说侵权?

    你发现什么不同了么?
    WhyLiam
        42
    WhyLiam  
    OP
       2015-02-05 21:01:41 +08:00
    @shakoon 理是這個理,應該要向你學習
    lecher
        43
    lecher  
       2015-02-05 22:04:03 +08:00
    搜索引擎有协议
    爬取内容之后,展现必须保留源站地址,同时积极处理源站所提的版权相关问题。

    所以搜索引擎不违规。

    微博使用的用户协议就已经注明了,微博平台拥有站内转发用户所发布的文章的权利,当然也还是要保留源地址的。

    至于做爬虫爬完全文发布还不保留作者和源地址的,原创方可以提出注明来源、删除的请求,如果发布方不响应这些请求,是违法的,可以提起民事诉讼。
    imlonghao
        44
    imlonghao  
       2015-02-05 22:39:17 +08:00 via Android
    问楼上全部,

    例如

    我爬了v2ex的全部帖子,按照评论数、收藏数等等排序发表在我的网站上,我的网站上仅仅只有帖子的标题以及收藏数,并链接到v2ex的这个帖子。

    这样应该不算侵权吧
    a154312237
        45
    a154312237  
       2015-02-05 22:58:23 +08:00 via iPhone
    @imlonghao 我也想知道 只贴出标题 作者 时间 以及原帖地址算侵权么
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5545 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 03:36 · PVG 11:36 · LAX 19:36 · JFK 22:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.