V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  PeterD  ›  全部回复第 13 页 / 共 13 页
回复总数  253
1 ... 4  5  6  7  8  9  10  11  12  13  
2013-07-14 10:46:22 +08:00
回复了 krfantasy 创建的主题 奇思妙想 我想做个AV评分网站。
@regent 用west-chamber-season-3代理抓取webcache.googleusercontent.com,不会出现单一ip请求次数的限制。

-----------
使用的west-chamber-season-3版本为 https://github.com/liruqi/west-chamber-season-3/tree/3e633e7950df3438ce9f2ec2913a745a20c277e7
west-chamber基于的是goagent,我想google没有限制appengine上的appid抓取webcache.googleusercontent.com
我不清楚google的防火墙是否也如此。
2013-07-11 00:30:45 +08:00
回复了 krfantasy 创建的主题 奇思妙想 我想做个AV评分网站。
爬虫跑了4天,得到44199部影片的信息,平均每天10000个左右,数据在 https://docs.google.com/file/d/0B-FIgFlYXgPtaGhiTkN4ZkJpSUk

-------------
数据都为有码影片的信息,遗憾没有找到无码的数据。
-------------
哪位大神知道有像dmm.co.jp一样的网站提供所有的无码片的数据。
2013-07-06 18:15:25 +08:00
回复了 krfantasy 创建的主题 奇思妙想 我想做个AV评分网站。
2013-07-06 15:39:56 +08:00
回复了 krfantasy 创建的主题 奇思妙想 我想做个AV评分网站。
我在抓取fanhao.org和dmm.co.jp的数据,估计有45474部影片的数据。估计7月10日左右可以抓完。

以下是我的做法:(代码用shell写)
1. 用wget备份cn.fanhao.org
2. 从备份的cn.fanhao.org中抓取番号,作品名称,发行商,出版日期,片长,演员和简介。
3. 从google缓存中获得一部影片在dmm.co.jp上的大封面,小封面,影片截图,影片类型和最总要的评分(ratings)。

数据储存为json。
-------------
鉴于dmm.co.jp在天朝不能访问,选择从google抓取dmm.co.jp缓存。
由于webcache.googleusercontent.com限制访问次数,用west-chamber-proxy (https://github.com/liruqi/west-chamber-season-3) 可突破访问限制。
www.google.com/search?q=data每次可连续访问100请求,每限制请求后2min后解除限制,但多次限制后会出现图片识别认证,需要手动输入。(奇怪的是不能用代理解决)
-------------
访问dmm.co.jp的图片没有地域限制,如:
http://pics.dmm.co.jp/mono/movie/adult/1star399/1star399pl.jpg
-------------
代码贴在:
https://gist.github.com/PeterDing/186332d7716fab7a64e2
2013-06-27 20:48:28 +08:00
回复了 krfantasy 创建的主题 奇思妙想 我想做个AV评分网站。
影片图片爬虫解决方案:
---------------------------
#!/usr/bin/env sh
fanhao='star+399'

useragent='Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.45 Safari/537.36"

curl -A $useragent "http://www.amazon.co.jp/s/?url=search-alias%3Ddvd&field-keywords=$fanhao" | grep -o -P 'http://ecx.images-amazon.com.+?jpg' | sed 's/\._.*_\./\./g' | head -n1
2013-06-27 18:38:52 +08:00
回复了 krfantasy 创建的主题 奇思妙想 我想做个AV评分网站。
得番号得图片:
---------
$ curl -A Mozilla/5.0 http://www.amazon.co.jp/s/ref\=nb_sb_noss\?__mk_ja_JP\=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A\&url\=search-alias%3Daps\&field-keywords\=star-399 | grep -o -P 'star-399" target="_blank"><img src="http:.+?.jpg"'
---------
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/41F7HXPRQXL._AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/31AfZE0zv1L._AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/61uJ9TFSsRL._AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/515bGBla7hL._SL160_PIsitb-sticker-arrow-dp,TopRight,12,-18_SH30_OU09_AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/41WxGmIdu5L._AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/51MW7YlvisL._AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/51hisucJKhL._SL160_PIsitb-sticker-arrow-dp,TopRight,12,-18_SH30_OU09_AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/51C4G4Q5YSL._AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/51UuDc19xcL._AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/41eP-tFE1DL._SL160_PIsitb-sticker-arrow-dp,TopRight,12,-18_SH30_OU09_AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/51Zo5Xs%2BraL._SL160_PIsitb-sticker-arrow-dp,TopRight,12,-18_SH30_OU09_AA160_.jpg"
star-399" target="_blank"><img src="http://ecx.images-amazon.com/images/I/41qrWGIU64L._SL160_PIsitb-sticker-arrow-dp,TopRight,12,-18_SH30_OU09_AA160_.jpg"
2013-06-27 18:19:35 +08:00
回复了 krfantasy 创建的主题 奇思妙想 我想做个AV评分网站。
av番号库已经有现成的了:
fanhao.org
----------
每部影片的封面图可以从www.amazon.co.jp上抓。
2013-06-25 15:26:01 +08:00
回复了 kDolphin 创建的主题 V2EX 今天在新厂穿V2EX的Tee,被一兄弟半路拦下
在一起了?
2013-04-14 16:45:09 +08:00
回复了 PeterD 创建的主题 音乐 baidu mp3 专辑下载 python 脚本
@Ken_Adams 现在已经调试好了
--------
按以下步骤操作:
step1:登陆music.baidu.com,拷贝出cookie并加入代码(见代码)
step2:将要下载的音乐或专辑保存到百度云音乐
step3:按原来的方法运行脚本
2013-04-06 10:37:06 +08:00
回复了 anonymity 创建的主题 问与答 求一个软件,可以批量下载YouTube某个特定用户的视频
2013-03-06 17:08:40 +08:00
回复了 sedgwickz 创建的主题 Python Pythoner们,说说你写Python的工作环境是什么?
archlinux + vim + sublimetext2 + logging
2013-02-22 20:27:00 +08:00
回复了 PeterD 创建的主题 音乐 baidu mp3 专辑下载 python 脚本
@liewen1108 我觉得脚本就够了,把脚本dir加入shell的$PATH就行
2012-12-20 11:35:23 +08:00
回复了 snriud 创建的主题 程序员 像 VIM 那样阅读pdf文件
zathura 支持vim操作方式, pdf ,djvu, ps, cb
1 ... 4  5  6  7  8  9  10  11  12  13  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4057 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 05:13 · PVG 13:13 · LAX 21:13 · JFK 00:13
Developed with CodeLauncher
♥ Do have faith in what you're doing.