1
kungfuchicken 2015-02-16 13:59:40 +08:00
煎蛋防护比较弱...
|
2
zqjilove 2015-02-16 14:26:42 +08:00
近期正好想了解python爬虫。看了视频,有些收获。谢了
|
3
jason52 OP @zqjilove 欢迎提问,我觉得后面讲的有点快了,有网上教人画马那个梗的感觉,是个圈圈画好,下一步,直接就是一匹栩栩如生的马出来了。
不过有没法讲的太详细,必须假设有一定的html基础和python基础。边界的确定有点麻烦。。。 另外,在制作过程后期压制视频的时候,(之前没弄过),真心体会到 码率叫你做人这句话。第一个版本压制出来3G多。经过我多次试验,已经找到比较合适的参数,可以在20min下90m以内,比这个版本更加清晰,比较适合screencast。 另外视频托管,优酷土豆之类都嫌贫爱富,上传上去转压的一塌糊涂,还是直接发布视频文件最为清晰。 同时不知道斗鱼用了什么黑科技,竟然这么清晰。。。烧钱吧 |
4
jimmy66 2015-02-16 15:04:41 +08:00
虽然之前看过这个了http://blog.fishc.com/3646.html,但是还是要感谢了
|
5
Sylv 2015-02-16 15:11:57 +08:00 via iPhone
|
7
jookr 2015-02-16 15:21:12 +08:00
谢了 谢了
|
8
caixiexin 2015-02-16 15:33:39 +08:00
看到好多人写爬虫第一个作品就是爬煎蛋23333
|
9
SquirrelMAN 2015-02-16 15:42:23 +08:00
说话中气不足啊,要多运动了。。
视频内容不错,有帮助 |
10
jason52 OP @SquirrelMAN 大概早上debug妹子图时间长了╮(╯▽╰)╭~~~所以拿无聊图来演示~~
|
11
doomgiant 2015-02-16 16:12:52 +08:00
非常感谢,mark回去看!
|
12
reticentfat 2015-02-16 16:20:09 +08:00
谢谢,下班回家练练
|
13
xiaket 2015-02-16 17:41:26 +08:00
看了两三分钟后觉得用Linux下的工具抓会更方便, 于是又花几分钟测试写脚本, 在第八分钟前就能跑了...
新人入手玩爬虫还是入Linux的坑更合适, curl/sed/awk做这个事情比pyquery方便太多了, 而且方便多进程提高效率. 顺便慰问下在Windows下开发的同学们, 你们真是辛苦了... |
14
zhangchioulin 2015-02-16 18:15:50 +08:00
有空就把视频看了,谢谢
|
15
66beta 2015-02-16 18:18:07 +08:00
煎蛋把全文RSS给关了,楼主有兴趣做一个不?
|
16
ZHenJ 2015-02-16 18:59:50 +08:00
应该加个帅选,只要NSFW的(跑
|
17
ETiV 2015-02-16 19:26:33 +08:00 via iPhone
我只想知道淘宝上卖代理的关键词是啥
|
18
Earthman 2015-02-16 20:16:01 +08:00 via Android
楼主试试传bilibili,可以直传,免二压
|
19
mozutaba 2015-02-16 21:32:44 +08:00
难道不是先抓1024?
|
20
jason52 OP @ETiV 我一直以为他不是独立托管的。。。没有邀请码呀~~
@xiaket 简单的是shell方便,要带cookie,代理起来就麻烦一点了。而且正则表达式技术完全是对字符串的解析嘛~~~库还是要用用的。。import 在手,天下我有耶shahua٩(๑`^´๑)۶ @mozutaba 出门左转hard--seed走起 O(∩_∩)O哈哈~ @kungfuchicken 站长你好~~摸摸头~~~站长不要改版~~~放新人一条生路~~~阿门~~~ @66beta 雅虎不有个管道啥的。。。专门搞这个~~~ |
21
lightryanking 2015-02-16 23:12:28 +08:00
= =你们玩的太高级了。。。不会python啊
以前火车头采过1024 |
22
Twinkle 2015-02-16 23:13:48 +08:00
写的第一个爬虫也是爬妹子图,可谓动力十足 >.>
|
23
aaaa007cn 2015-02-17 01:17:06 +08:00
@jason52
我觉得简单的用用 urllib、urllib2 差不多 要是 cookie、referer、ua、代理一起上 我宁可在 python 中调用 curl 也不想和各种 opener 去搅 直到遇到了 requests 但是 curl 直接支持 socks 代理在某些情况下还是要比 python 方便点 |
24
gyorou 2015-02-17 16:54:09 +08:00
http://blog.nigbee.pink:3000/ 这个行么。
打开前先确定周围没人特么。 |
26
yepinf 2015-02-18 08:49:26 +08:00
“先上淘宝买代理吧。。。。” 求个靠谱链接
|
27
jimmy66 2015-02-20 19:42:41 +08:00
re.findall 返回的是list不是元组。。原谅我的强迫症吧
|
29
Delbert 2015-02-26 10:40:40 +08:00
你视频里面是 cat pic |sed 's/"/\n/g'| grep 'http.*(gif|jpg)'
但是我需要改成 cat pic |sed 's/"/\n/g'| grep 'http.*[gif|jpg]' 才可以正常正则筛选。 是我和你grep的版本不同吗? |
30
wind3110991 2015-04-01 19:49:25 +08:00
mark下先~
|
32
ivanchou 2015-04-21 12:32:50 +08:00
百度云链接失效了?
|
33
plantparknet 2015-07-12 03:56:48 +08:00
现在这种方法失效了,必须要用header~~
|
34
plantparknet 2015-07-12 04:21:55 +08:00
jandan增加反爬虫了。。。
|
35
jason52 OP @plantparknet 大概练手的家伙太多了。。。
|
36
plantparknet 2015-07-12 12:58:13 +08:00
@jason52 终于有机会需要把教程更新下啦~~
|
37
jason52 OP @plantparknet 最近忙成狗,应该暂时不更新啦~~~不过要加个header你可以仿照后面几课试试。~~~
|
38
Want 2016-08-15 23:29:47 +08:00
你的视频链接掉了
··· 快点更新啊 |
39
ibiner 2016-08-16 04:09:23 +08:00
不错。
1 呢? |
40
kela 2016-08-16 23:27:10 +08:00 via Android
求视频
|
41
Dye8 2016-08-26 11:59:36 +08:00 via Android
视频链接挂了
|