淘宝现在的 html 都做的这么深？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3707 天前的主题，其中的信息可能已经有所发展或是发生改变。

http://s.taobao.com/search?q=9787802134379&sort=price-desc&fs=0&fcheckbox_clk=1&tab=all&style=list

点击右键看到的源代码基本上和页面上展现的没什么关系了。

这是用到了什么技术

源代码

HTML

页面

6 条回复 • 2014-12-31 10:23:19 +08:00

fumer

2014-12-30 23:51:20 +08:00

是为了防爬虫吗？这种页面爬虫是不是也束手无策了

Daniel65536

2014-12-31 00:30:09 +08:00 via iPad

你看看源代码第四十六行，全在里头，太方便爬虫了。

这只是用js来生成页面罢了

lincanbin

2014-12-31 02:04:16 +08:00

http://www.taobao.com/robots.txt

淘宝本来就禁爬虫的，或者说禁百度，实际上对爬虫不友好。
说用什么技术的话，大概就是前端模板渲染了。
你可以看看第46行，所有数据都存在Dict里了，这样做的好处是可以在前端用模板渲染，大大节约流量。整个页面才60KiB。
如果在后端做模板渲染，单页面尺寸会大好几倍的。

这样做爬虫可以说再方便不过了，直接提取出那一行然后decode，就可以装数据库了。

typcn

2014-12-31 07:46:47 +08:00

方便爬虫+1 找出JSON来，解码一下，结构化数据更省事了

防的是“小学生”爬虫，比如那种用易语言花钱让别人写正则匹配页面内容的。

qdwang

2014-12-31 09:06:36 +08:00 via Android

weibo也是一样还节约了服务器生成页面内容的开销

xoxo

2014-12-31 10:23:19 +08:00

JSON
+
JS模板