亚马逊爬虫返回乱码，有经验的帮忙指点一下。 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2781 天前的主题，其中的信息可能已经有所发展或是发生改变。

上个星期，测试直接用 requests 请求目标页面，headers 里面就设置了一下 user-agent、host，都能正常返回数据。这个星期再测试，发现返回了一堆乱码。测试的时候，请求次数并不多，加起来才几十次，换了一台机器直接测试，也是一样。于是上 burpsuite 抓包，返回包片段这样的： resp_data

一般来说，爬虫获取到乱码也不是什么很奇怪的事情，很多情况下是对方判定请求来源为爬虫后，故意整的，可这次让我觉得疑惑的是，上面这个截图的返回内容，在浏览器里面显示是正常的。也就是说，我把 burp 的拦截设置为 off，浏览器请求目标页面后，同样的返回数据，在 burp 的 response 看到的是乱码，但浏览器却能正常解析。

这是什么原理？返回内容里包含 js，检测是否浏览器环境？

这是首次遇到这种情况，还望有经验的指点一下。

8 条回复 • 2017-09-11 00:39:29 +08:00

1

ljcarsenal

2017-09-05 13:12:51 +08:00 via iPhone

https 呗

2

mengskysama

2017-09-05 13:13:34 +08:00 via iPhone

1

看 content encoding，brotil 编码

3

paragon

2017-09-05 15:39:38 +08:00

网易云课堂有一门专门的爬虫课就是讲爬 amazon 的~

4

Marsss

OP

2017-09-05 19:33:45 +08:00

经二楼提醒，问题已经解决了。谢谢。

5

wingyiu

2017-09-05 22:50:18 +08:00

你看到的乱码不一定是乱码

6

jerryshao

2017-09-06 03:52:39 +08:00

上周监测到大量来自中国的 robot，还把 agent 伪装成 Android...

7

ila

2017-09-10 03:35:11 +08:00 via iPhone

@jerryshao 亚马逊的？

8

Heron

2017-09-11 00:39:29 +08:00

第一次知道这个 brotil 编码，涨知识了。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 3026 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 21ms · UTC 13:35 · PVG 21:35 · LAX 06:35 · JFK 09:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.