比如http://news.qq.com/a/20150722/037755.htm的发布日期是2015-07-22 15:15
html代码里是<span class="article-time">2015-07-22 15:15</span>
可是不同的网页标识是不一样的,搜索引擎是怎样识别的呢
sitemap里可能有,但很多网站不提供sitemap
header里有last-modified,可视很多都没有
难道是搜索引擎实时爬取的吗~_~
1
msg7086 2015-07-23 02:39:45 +08:00
还有第一次爬到的时候。
|
2
Septembers 2015-07-23 06:44:41 +08:00
我记得以前Firefox可以直接获取文件的修改时间 好像现在隐藏起来了
|
3
inmyfree 2015-07-23 09:21:54 +08:00
你可以看http请求的response heads就知道了,里面有个返回是创建时间,最后一次修改时间的,这个就和http状态码304联系的
|
4
inmyfree 2015-07-23 09:24:18 +08:00
楼主你已经知道答案了...通过这种策略就已经可以显示大部分的发布时间了
|
5
lujjjh 2015-07-23 10:31:07 +08:00 2
你看很多搜索结果没有日期,有日期的也不一定有 Last Modified 就知道这东西跟 Response Header 或者 Google 的最后一次抓取时间没什么关系了。
Google 还有个“Structured data markup”的概念,可以实现的效果比如豆瓣搜索结果的评分显示: 甚至还可以放一些图表上去 不过 Date Author 之类的跟 Structured data markup 没什么关系,就是硬生生从 HTML 里分析出来的,不信你可以自己写个网站测试一下。这可能是个双向的过程,一方面 Google 根据最常见的 date、author 或者时间的格式来适配获取日期,另一方面网页设计师看这样 Google 能获取到日期和作者那就把 className 直接拿过来用吧。 只能说 Google 在搜索体验上下了很大的功夫。 |
6
logonod OP |