[心得] Search Console设定SEO robots.txt文件

楼主: moodyblue   2020-05-31 22:08:02
【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关
键字搜寻
网志图文版:
https://www.b88104069.com/archives/4510
robots.txt是网站SEO重点文件,本文以赞赞小屋网站的Google Search Console涵盖范围
报告为实际范例,介绍robots.txt文件的作用以及如何编写,可以提高网页收录和关键字
搜寻的效率。
一、Google Search Console涵盖范围
登入Google Search Console之后,左边字段选择“涵盖范围” ,这里共有四个类别,将
光标移到每个类别右下角的问号会有相关说明,其中“有效”指的是Google已经建立索引
的网页,意思是网站有948个网页文件被收录在Google图书馆,当有人搜寻和网页有关的
关键字,Google会考虑呈现该网页,网站SEO便是致力于提高被Google选中的机率。
二、详细资料
同一页面下方的详细资料中,有效状态的网页又分成两个类型:“已提交并建立索引”和
“已建立索引,但未提交至Sitemap”。已提交Sitemap意思是自己有写好一份网页目录提
交给Google参考。此时我的Wordpress总共有891篇文章,也提交了Sitemap,Google只收
录869,没有照单全收这倒是可以理解,但是有79篇不在我目录里面,Google却帮我建立
索引了,这比较奇怪,为了网站SEO有必要进一步了解,点击进入明细清单。
三、已建立索引,但未提交至Sitemap
看了明细比较清楚。“https://www.b88104069.com/profile”是赞赞小屋网站的介绍页
面,“https://www.b88104069.com/”是网站首面,因为我是利用PHP程式让Wordpress自
动产生Sitemap,只会有文章页面,这两个页面确实会漏掉,Goggle帮忙收录最好。
其余网页以“https://www.b88104069.com/archives/date/2015/03/page/6”和“
https://www.b88104069.com/archives/author/b88104069/page/60”为典型,从网址结
构大略可知是依照日期和作者的分页目录,日期还有些久远,这应该我以前有设定过相关
网站机制,现在已经不用了,没想到Google还留着。
四、网站分页目录
实际浏览网页,果然和我猜想的一样,像这样的网页目录页面其实并没有全部文章内容,
如果真的出现在搜索结果,读者点进来发现不如预期的话,马上离开,这个讯息会反馈到
Google那里,Google因此会降低网站分数,对于SEO不是件好事。
五、robots.txt文件
这种事读者不高兴、Google不想要、我当然也不喜欢。为了有效避免,SEO技术中有一种
robots.txt文件,可以很清楚告诉各家搜索引擎,网站中有哪些网页并不是要给读者的,
如此一来,提高了网络读者的使用者体验,同时也增加搜索引擎收录效率。以Goggle为例
,www全球资讯网这么多网站网页,如果能预先知道哪些没有必要收到图书馆中,大大减
轻馆员工作负担,利己利人。
robots.txt文件必须放在网站入口、亦即网站根目录,没有架过网站的读者,把网站想成
电脑资料夹、网页是资料夹里的文件,应该会比较容易理解。截图是赞赞小屋网站范例,
第一次看可能难以理解,同样以电脑文件,Windows里面有很多系统文件和使用者操作无
关,网站也是如此,可想见会有很多网站运作有关的程式文件,这里很多的“Disallow:
”就是要避免这些技术被Google收录为www网页,类似于Windows系统隐藏文件的效果。
六、Search Console说明
由于对双方有利,Google在Search Console说明中心提供很多robots.txt的说明文件,具
体到完整语法和示例语句,有兴趣读者可以参考。
七、遭到robots.txt封锁
到这里已经基本了解robots.txt文件,回到第一步骤涵盖范围中有个“排除”,有2976个
之多,其中237个是被robots.txt文件挡掉的网站文件,可想见如果没有robots.txt的话
会很麻烦。
以第一个被排除的网页为例:“
https://www.b88104069.com/archives/category/journey”,这是分类页面的网页,参
照第五步骤的“Disallow: /archives/category/”,robots.txt的实际作用和如何设定
应该很清楚了。
八、robots.txt的Disallow设定
终于到达本文最后步骤,依照Google Search Console的索引报告相对应修改robots.txt
文件:“Disallow: /archives/date/”、“Disallow: /archives/author/”。
这篇文章出现了几次Sitemap,从Google Search Console网站工具上便可知道SEO少不了
Sitemap,以后在系列文章会再作介绍。另外在涵盖范围的报告中有很多类别,这篇文章
是集中在robots.txt排除的部份,其他部份同样留后往后的系列文章。
延伸阅读:
Google Search Console除了网站搜寻量,可查询网页关键字排名报告,转Google文件或
Excel
https://www.b88104069.com/archives/4484
Google Analytics网站分析与Google Search Console网站排名,两大工具资料共用容易
卡死的盲点
https://www.b88104069.com/archives/4430
Google Adsense广告拖慢网站速度不利SEO?删掉重复的网页Async Script异步程式码
https://www.b88104069.com/archives/4420

Links booklink

Contact Us: admin [ a t ] ucptt.com