V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Va1n3R
V2EX  ›  Python

万能的 V2er,有没有大牛爬取了过网易云的所有评论..

  •  
  •   Va1n3R · 2017-12-28 23:59:06 +08:00 · 5958 次点击
    这是一个创建于 2546 天前的主题,其中的信息可能已经有所发展或是发生改变。

    楼主用的是 python,自己写太蛋疼了,数据量太大了,还需要购置 IP 写代理池,穷学生没有资金。想问问有没有什么简约点的方法可以爬取或者有现成的数据。
    看到了 https://github.com/Binaryify/NeteaseCloudMusicApi 这个项目,想使用这个大兄弟的接口,但是怕调用量太大了,被网易端掉,不想害人...
    之前没有想过做这么大的爬虫,主要目的想做成数据库,让用户可以查询自己名字有没有被告白过~~可能很无聊~~

    等实现了,想用这些做很酷的事情...

    30 条回复    2017-12-29 18:55:04 +08:00
    Va1n3R
        1
    Va1n3R  
    OP
       2017-12-28 23:59:57 +08:00
    V2 对 markdown 的支持好迷啊...
    lhx2008
        2
    lhx2008  
       2017-12-29 00:05:21 +08:00 via Android
    没爬过,如果封 ip 的话,去买那种可以快速失效的 ip,大概一个 1 毛这样子,不过这个数据量太大了,就算开多进程 0.1s 一个一天也爬不了多少。
    Va1n3R
        3
    Va1n3R  
    OP
       2017-12-29 00:07:27 +08:00
    @lhx2008 是的,量实在太大了。
    yu099
        4
    yu099  
       2017-12-29 00:09:24 +08:00 via Android
    搜索引擎索引不到吗?得自己抓?
    scriptB0y
        5
    scriptB0y  
       2017-12-29 00:12:14 +08:00
    @yu099 不太好搜,网易对搜索引擎没做很好

    Va1n3R
        6
    Va1n3R  
    OP
       2017-12-29 00:15:28 +08:00
    想到了一个方法
    爬取数据,然后如果有包括人名的评论,就把这条评论的定位信息(歌曲,多少条)记录下来,数据应该会小几个几何倍
    现在机器学习这么火热的情况下,不知道有没有大牛训练了识别人名的模型,集成好了库..
    爬虫我也想尝试一下写一个分布式爬虫出来,但就是怕封 IP...
    haozibi
        7
    haozibi  
       2017-12-29 00:22:17 +08:00 via Android
    网易云都是段子,有什么好看的
    oonnnoo
        8
    oonnnoo  
       2017-12-29 01:13:22 +08:00 via Android   ❤️ 2
    上次有个兄弟爬,收到过律师函哟
    Va1n3R
        9
    Va1n3R  
    OP
       2017-12-29 01:22:09 +08:00
    @haozibi 查看有没有在评论中提到过你....
    Va1n3R
        10
    Va1n3R  
    OP
       2017-12-29 01:22:42 +08:00
    @oonnnoo 爬虫并不犯法...那个新闻好久之前了吧,搞得好多人觉得爬虫是违法的...
    AlwaysBehave
        11
    AlwaysBehave  
       2017-12-29 02:44:41 +08:00
    @Va1n3R 准备好 1kw 了吗
    https://music.163.com/html/web2/service.html
    不过网易应该要不起 1kw
    tadtung
        12
    tadtung  
       2017-12-29 07:56:57 +08:00 via Android
    @Va1n3R 爬虫本身不违法,但是使用爬去的数据就有法律风险了。
    当年大众点评赢过评论爬取官司,baidu 也告赢过 360。

    目前来说网易云的评论,著作权和使用权属于网易,如果你爬去后用作商业,网易轻松告你的。
    qu3290052
        13
    qu3290052  
       2017-12-29 08:13:02 +08:00 via Android
    @tadtung 那就是数据二次利用的问题,跟爬虫无关,爬虫不背锅
    uolcano
        14
    uolcano  
       2017-12-29 08:16:09 +08:00 via Android
    @Va1n3R 前几天逛微博时看到个人名分词库。看看这条微博? http://overseas.weico.cc/share/12850316.html
    Flobit
        15
    Flobit  
       2017-12-29 08:49:19 +08:00 via Android
    我尝试过,只是爬了很少很少的一部分,至于你说的 ip 我用的是免费的那种高匿 ip。
    tadtung
        16
    tadtung  
       2017-12-29 08:54:47 +08:00 via Android
    @qu3290052 我不是第一句就说了爬虫不违法。。。。你这没看清
    MrXiong
        17
    MrXiong  
       2017-12-29 08:57:17 +08:00
    我试过,爬了 1kw 左右,就爬不动了,ip 消耗太大,10 个线程爬的,慢点的话估计消耗慢些,但是很浪费时间
    shmon
        18
    shmon  
       2017-12-29 08:58:49 +08:00
    我有,1.6 亿条,17.5G
    shmon
        19
    shmon  
       2017-12-29 09:09:03 +08:00
    看错了。。。是另一个平台的。。。。。忽略忽略
    holajamc
        20
    holajamc  
       2017-12-29 09:48:48 +08:00   ❤️ 2
    hluo7054
        21
    hluo7054  
       2017-12-29 09:59:30 +08:00
    爬过。不过那是两年前的了,也是直接访问 API,不用全部链接都爬。可以省很多事情,还有 ip 复用也很重要,当时还是慢慢爬的基本没事,所以不想花钱那找免费的代理然后慢点来,
    omghonor
        22
    omghonor  
       2017-12-29 11:31:26 +08:00   ❤️ 1
    我只爬了曲库,歌手库以及热评(没有爬全部的,就是上面的热门评价,包括点赞数等),还没触发网易云的底线~~
    https://github.com/Charley-Hsu/spider_music
    F1024
        23
    F1024  
       2017-12-29 16:50:08 +08:00
    PythoneerDev6
        24
    PythoneerDev6  
       2017-12-29 16:56:07 +08:00
    给你个传送门 :github.com/xiyouMc/ncmbot
    Va1n3R
        25
    Va1n3R  
    OP
       2017-12-29 17:44:02 +08:00
    @F1024 爬虫我会写啊...这个简单的很。热评都没有经过加密
    vtwoextb
        26
    vtwoextb  
       2017-12-29 17:52:25 +08:00
    更换 IP 策略
    vtwoextb
        27
    vtwoextb  
       2017-12-29 17:54:27 +08:00
    用这个就行 github.com/hizdm/dynamic_ip 采用重启或重新拨号路由器就可以
    Va1n3R
        28
    Va1n3R  
    OP
       2017-12-29 18:30:03 +08:00
    @vtwoextb 我校园网,正好是 DHCP,可行!
    Va1n3R
        29
    Va1n3R  
    OP
       2017-12-29 18:30:32 +08:00
    @luohaihao 感觉就是构建代理池太麻烦了
    vtwoextb
        30
    vtwoextb  
       2017-12-29 18:55:04 +08:00
    @Va1n3R 你看看 重启一下 宿舍的路由器 ip 变不变 要是变就行 要是不变 那就只能用代理了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2601 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 15:43 · PVG 23:43 · LAX 07:43 · JFK 10:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.