1
varrily 2013-12-26 16:01:20 +08:00
还以为把mv文件采集出来了
|
3
Ansen 2013-12-26 16:08:29 +08:00
与其数据,我更新关心脚本
|
4
slax 2013-12-26 16:17:12 +08:00
我擦... 我会告诉你我就是音悦台的嘛....
|
5
manhere 2013-12-26 16:19:38 +08:00
音悦台那也叫高清....
|
6
chervun 2013-12-26 16:28:26 +08:00
啧啧……
|
7
xujialiang 2013-12-26 16:34:35 +08:00
服务器 压力山大啊
|
10
letitbesqzr 2013-12-26 16:59:34 +08:00
同想看看代码...python多线程一直掌握的不太好,很多种写法.. 自己写的总控制不好琐。。
|
11
pc10201 OP @letitbesqzr 我没有用锁,就是用了一个队列
|
12
pc10201 OP |
16
csx163 2013-12-26 20:37:30 +08:00
楼主...都是标题啊,当初我可是弄的直接下载地址啊
|
18
tryv2eex 2013-12-26 20:42:59 +08:00
v2ex 还是没有哪几个国外网站好 我是说用户体验 忽略上面的回复 只是在try v2ex
|
19
tryv2eex 2013-12-26 20:43:42 +08:00
对了 每次发新帖都要刷新一次页面? 试试
|
20
tryv2eex 2013-12-26 20:44:33 +08:00
好象是的 刷新以后 居然又回到了页面顶端 我用的是Chrome 用用其他浏览器看看
|
21
tryv2eex 2013-12-26 20:46:37 +08:00
Traceback (most recent call last):
File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 1141, in _when_complete callback() File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 1162, in _execute_method self._when_complete(method(*self.path_args, **self.path_kwargs), File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 2293, in wrapper return method(self, *args, **kwargs) File "/www/v2ex/galaxy/handlers/web/topic.py", line 74, in post return self.finalize('topic/newbie.html') File "/www/v2ex/galaxy/handlers/web/__init__.py", line 74, in finalize o = template.render(self.values) File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 969, in render return self.environment.handle_exception(exc_info, True) File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 742, in handle_exception reraise(exc_type, exc_value, tb) File "/www/v2ex/galaxy/templates/desktop/topic/newbie.html", line 1, in top-level template code {% extends 'desktop/common/layout0.html' %} File "/www/v2ex/galaxy/templates/desktop/common/layout0.html", line 63, in top-level template code {% block wrapper %} File "/www/v2ex/galaxy/templates/desktop/common/layout0.html", line 126, in block "wrapper" {% block main %} File "/www/v2ex/galaxy/templates/desktop/topic/newbie.html", line 4, in block "main" <div class="header">{{ breadcrumb([node.title + ':/go/' + node.name, '创建新主题:/new/' + node.name, '请ç¨ç‰']) }}</div> File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 397, in getattr return getattr(obj, attribute) UndefinedError: 'node' is undefined |
22
tryv2eex 2013-12-26 20:47:26 +08:00
刚才v2ex出现了错误 一下子曝光好多信息 python tornado
|
24
binux 2013-12-26 21:45:11 +08:00
book.douban.com豆瓣读书 600+万数据采集
1. id不是连续的,而且id不一定是数的,不过可以根据跳转后的域名是不是book判断 http://book.douban.com/subject/25785270/ 2. 如何更全地获取全量数据 由于douban是没有穷举接口的,要获取所有的书很不方便,于是有 方案一:follow tag列表,但是会经常遇到重复的书,follow的量都快赶上书的量了 方案二:isbn穷举,从dangdang、amazon、京东商品列表是可以遍历的,通过获取他们的图书信息,获得isbn库,通过 https://api.douban.com/v2/book/isbn/ 接口获得书的地址 3. 豆瓣有防采集机制,大约每秒1个以上就会被封,早期导致我们的一个IP被封了一年 解决方案:抓取公开的代理列表,通过代理抓取,多重试 |
25
nimini 2013-12-26 21:49:44 +08:00
无图 你说个JB
|
26
tryv2eex 2013-12-26 22:04:47 +08:00
@没有这个人 会怎么样
|
28
lj0014 2013-12-27 00:39:51 +08:00 via Android
曾经遍历了豆瓣一亿以内的id...
|
30
asca 2013-12-27 08:30:39 +08:00
音悦台有水印,清晰度也不高,下载下来也没多大意思。
|