网站优化知识>正文

搜索引擎仅对html支持友好的问题分析

2014-03-20 13:27

一直听说搜索对动态页面的收录程度很差，而对HTML网页青睐有加。

细想一下既然爬虫都是获得的服务器返回HTML档内容并加以分析收录，那动态与静态的页面在技术上没有区别，实际被抓取的都是最终呈现的html内容。既然技术上没有局限性那为何还要多区分收录的优劣程度呢？难道是开发搜索的人一时偷懒或历史限制？仅认为网络上html扩展名的的东西才是信息的最主要载体？
这个想法简直太荒谬了，自己都觉得说不通。

正好最近要规划一个基于模板技术的大规模静发信息平台+知道与商城系统，不得不艰难的分析百度知道系统。通过对网页最后一次更新时间的抓取发现知道内*.html文件几乎都是动态的，很有可能是php文件，只不过在apache中将php解析扩展名改为html而已。继续分析360百科和爱问系统也得出同样的结果。
这样问题又出现了，既然是动态的页面为什么静态发布出来N多独立的php还要伪装为静态格式？这无非也就是要欺骗搜索引擎收录内容吧。
说了这么多，关键还在于从技术角度说静态与动态对爬虫分析内容文字是没有影响的。只不过我们忽略了考虑用户需求问题。

搜索的关键问题不在于如何搜索到更多，而是在于搜索的准确程度。从信息稳固性来说，静态的html是存在于网络节点的某目录层次下的固定文件，这就相当于买了房的固定住户，有产业跑不了，只要网站域名在，该文件的url地址是相对固定的。因此检索出来的信息稳固性也高，同时实际存在于硬盘的数据文件也可以访问到文件的更新日期，便于爬虫比较该文件与搜索引擎数据库内纪录的文件更新时间是否一致，以此来决定是否需要重新抓取该页。

相反，动态的页面，存在于物理介质上的文件仅为数据显示的中转框架，真正的数据存在于无法被爬虫爬到的后台数据库内，当引擎访问到该页后得到只是某一URL下的动态生成信息，且信息的更新时间无法从http头中获得，更无法与引擎数据库内的更新信息比较。这就相当于户籍部门永远无法详细统计流动人口信息但能对户籍人口各项明晰统计较精准结果是一样的道理。同样对引擎公司来说，收录的URL与内容仅是本次访问的结果，当用户使用搜索后得到的结果也仅是爬虫爬到的结果，用户再次访问时可能会出现与搜索结果完全不一样的信息内容。从而使用户产生搜索结果不准确的印象，影响该引擎的使用广泛度。更重要的是印象引擎所在公司的商业利益。

现在理解静态化技术并不能停留在生成纯HTML观念上，即使生伪装html的动态文件也是可以的，前提是保证将需要提供给搜索的重要信息内容静态化，其余只要抱着不频繁访问数据库的意图可以任意使用动态逻辑来控制输出。

本文链接：https://www.0937.biz/post-112.html

上一篇:尽可能写对搜索引擎友好的Javascript代码
下一篇:网页同时出现noindex和Canonical标签？

网站优化知识>正文

搜索引擎仅对html支持友好的问题分析

猜你喜欢