BeautifulSoup 为什不能抓取豆瓣简介 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3361 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在学 python 爬虫，利用 beautifulsoup 爬学校图书馆书籍信息，但发现豆瓣简介信息无法抓取，求助大神
下面是主要代码:
url = 'http://202.119.112.133:8080/opac/item.php?marc_no=0000365400'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
book = str(content)
book_soup = BeautifulSoup(book,"lxml")
book_intro = book_soup.find_all('dl',{'class':'booklist'})
for item in book_intro:
print(item.get_text('',strip=True))

12 条回复 • 2015-10-22 10:32:08 +08:00

1

ynztyl10

2015-10-21 19:16:48 +08:00

你需要把 xhr 的链接也爬到，比如：
http://202.119.112.133:8080/opac/ajax_douban.php?isbn=9787200069761

2

wuhuaji

2015-10-21 19:24:26 +08:00

因为这个豆瓣信息是异步加载的，并不存在你原先的页面中，你查看网页源代码就能看到了，并没有这部分信息。然后你重新打开，看 http 链接，会发现打开网页之后，请求了 http://202.119.112.133:8080/opac/ajax_douban.php?isbn=9787200069761 链接，此时豆瓣的东西才加进来。

3

wuhuaji

2015-10-21 19:25:09 +08:00

我记得前两天 v2 上有人问查不到京东的物品价格，和你这个一样，都是异步加载的。

4

honmaple

OP

2015-10-21 19:34:05 +08:00

@ynztyl10 原来是 json,请教如何才能高效地爬到 http://202.119.112.133:8080/opac/ajax_douban.php?isbn=9787200069761 这样的链接，是使用 json 模块解析吗

5

honmaple

OP

2015-10-21 19:37:53 +08:00

@wuhuaji 多谢，怪不得查找 p 节点时只能得到一个<p></p>,请教如何才能爬取到具体链接并显示内容

6

Slienc7

2015-10-21 19:49:49 +08:00 via Android

F12->网络
建议找个简短 JS 教程先看一下

7

honmaple

OP

2015-10-21 20:29:36 +08:00

找到解决方法了，使用 Selenium 和 Phantomjs 很容易的抓取到豆瓣简介

8

Victor215

2015-10-21 20:31:50 +08:00 via Android

你先抓包看看能不能拿到 api,用浏览器模拟很慢，也容易出问题

9

honmaple

OP

2015-10-21 20:45:53 +08:00

@Victor215 我刚刚也发现了，使用 Phantomjs 解析大概 10 次中会有一次无法得到想要的内容，我还以为是网络的问题

10

cszhiyue

2015-10-21 20:58:54 +08:00

模拟一下发包

11

Victor215

2015-10-21 21:59:36 +08:00

@honmaple 而且用 phantomjs 还要注意各种设置，比如说不要载入图片，而且适时的拿到 html 源码就行了，不需要一直浏览器模拟，太慢了。。

12

joshz

2015-10-22 10:32:08 +08:00 via Android

bs 是拿来解析网页的吧，莫名背锅

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 5544 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 31ms · UTC 08:00 · PVG 16:00 · LAX 00:00 · JFK 03:00
Developed with CodeLauncher
♥ Do have faith in what you're doing.