
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看和抓取的,哪些是不必查看和抓取的。当搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
软优化建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。国内著名的电商网站淘宝网为了网站的数据不外泄,对所有搜索蜘蛛进行了屏蔽。
这样做的好处在于,更好的保护网站的隐私,比如后台文件,用户注册信息等。对于SEO来说,robots.txt可以对重复内容、低质量但是用户必须要看的内容进行屏蔽,比如关于我们,联系我们等页面,还有样式、js等文件都可以通过robots.txt屏蔽,也就是给搜索蜘蛛呈现的是网站好的一面,对用户体验度差的进行屏蔽,避免蜘蛛对网站造成不必要的困扰。我们在屏蔽的时候一定要反复推敲,避免将有价值的内容进行了屏蔽。
在SEO应用中常见的屏蔽还有,比如你用了伪静态技术,就出现了两个路径或者多个路径,这时候就要屏蔽动态链接和其他链接,避免出现多个链接的情况,保证每个页面访问路径的唯一性。