百度等其他搜寻引擎爬虫爬取的网页原始码是? - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Google SEO Starter Guide

› Google 站长工具

› Bing 站长工具

› 百度站长工具

› 向 Google 提交 URL

这是一个创建于 811 天前的主题，其中的信息可能已经有所发展或是发生改变。

拿大家最常用的 chrome 浏览器来看，网页查看原始码方式有二种 1.键盘 Ctrl+U 查看源代码：就是别人服务器发送到浏览器的原封不动的代码，也就是最原始的代码 2.键盘 F12 检查元素：看到的就是最终的 html 代码。即：源代码 + 网页 js 渲染有些网页是 Javascript 渲染的技术建置,所以会有 Ctrl+U 查不到文字,而 F12 查的到内文因此想问大家，百度爬虫的话,是爬取 Ctrl+U 还是 F12 的原始码?

4 条回复 • 2022-11-17 12:28:54 +08:00

1

TimePPT

2022-11-16 16:12:32 +08:00

1

好多年没做这块了。
我了解的情况是：
首先看站方想让爬虫怎么爬。有些站点（比如过去的知乎，现在不清楚）给 spider 的内容是静态化过的，给用户的是 js 动态渲染的。
另外，动态渲染的页面早在十几年前搜索引擎就能做了，但百度一直做的不好。现在啥情况不清楚。

2

TimePPT

2022-11-16 16:15:38 +08:00

还有就是，如果站点想让搜索引擎收录并有排名，肯定是搜索引擎爬虫怎么方便怎么来。一般都会做对应优化。这是所谓 SEO 优化的一部分。
以及，有些家的爬虫也不讲武德。经常无视 robot.txt 的协议，且非增量爬取。过去有搜索引擎 spider 把站点爬瘫痪的笑话发生。

3

Sue6080

OP

2022-11-16 17:30:29 +08:00

To TimePPT：
这样感觉搜寻引擎爬虫比较方便是
抓還沒渲染文字的 Javascript?也就是 Ctrl+U

4

Sue6080

OP

2022-11-17 12:28:54 +08:00

@TimePPT 这样感觉搜寻引擎爬虫比较方便是
抓還沒渲染文字的 Javascript?也就是 Ctrl+U

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2347 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 20ms · UTC 11:51 · PVG 19:51 · LAX 03:51 · JFK 06:51
Developed with CodeLauncher
♥ Do have faith in what you're doing.