忽然想写个自动下图的小玩意儿 目前进度才接近分离出图链……就卡住了
src="https://40.media.tumblr.com/235d904d7f799dfc95fdf50099652d6a/tumblr_inline_nw0i4ib1VH1snoibe_540.png"
一行大概就长这样,后缀有 jpg/png/gif 三种,总共十几行
求问怎么去掉前缀单独把链接拉出来?
非常感谢
1
dqh3000 2015-10-11 19:13:21 +08:00
不用 Beautiful Soup?
|
2
pkuphy 2015-10-11 19:17:24 +08:00
Python requests + BeautifulSoup
|
3
rming 2015-10-11 19:19:55 +08:00
pyquery 也很好
|
4
AWWBWG 2015-10-11 19:21:27 +08:00
小 H 图是学习 Python 的动力~
|
6
Tink 2015-10-11 19:23:44 +08:00 via iPhone
就这么简单的正则不用上那么重的东西
|
7
imn1 2015-10-11 19:26:32 +08:00
<img[^>]+src="([^"]+)"
|
9
linghutf 2015-10-11 20:24:53 +08:00 via Android
nodejs cheerio ,我就是这样下图片的之前用 python 可惜文档比较烦
|
10
humanfans 2015-10-11 20:44:22 +08:00
当年批量下云图 就是用 linux 下的 bash 用的 wget...
|
12
gimp 2015-10-11 22:38:28 +08:00
str.split('"')
|
13
iamnuomi 2015-10-11 23:37:16 +08:00
这不就是该用正则的东西吗
|
14
ClutchBear 2015-10-12 01:04:35 +08:00
bs4
然后 soup.get('src') 就出来了啊 |
16
C1ara OP @ClutchBear 装了两个小时也没装上 BS ……给跪
|
17
neutrino 2015-10-12 08:38:09 +08:00 via Android
strstr(URL, 5, strlen(URL-6))
|
18
macroideal 2015-10-12 09:50:27 +08:00
xpath
|
19
C1ara OP @gimp 感谢
但是问题又来了……随手写的时候(无 class/init/self ) str.split 是可行的 脑袋一热准备整理下结果: class downloader(string): TypeError: Error when calling the metaclass bases module.__init__() takes at most 2 arguments (3 given) 谷歌出来是 module/class 弄混了,改成 class downloader(string.string): AttributeError: 'module' object has no attribute 'string' 还是错误 再试 import string from string 仍然错误 _(:3 奶奶的我不要格式了! |
20
exoticknight 2015-10-12 12:43:44 +08:00
|
21
znoodl 2015-10-12 13:56:53 +08:00
|