Google内部文件外泄,搜寻引擎运作细节引猜疑
iThome
文/李建兴 | 2024-05-31发表
近期网络上流传一份Google内部描述搜寻引擎运作细节的API文件,在一段时间的沉默后,G
oogle终于发出声明,警告外界不要根据缺乏脉络与不完整的资讯,对搜寻做出不准确的假
设,并强调他们已经分享了大量搜寻运作的方式,同时也致力于保护搜寻结果不被操纵。
之所以该文件引起搜寻引擎最佳化(SEO)专家的注意与兴趣,是因为其中描述的细节与Goo
gle过去公开声明的资讯相矛盾,包括不使用网域权重、不使用点击评份以及没有使用沙箱
等。
Sparktoro共同创办人Rand Fishkin在5月初的时候收到了一份匿名寄送的信件,内容是一份
Google搜寻部门内部的API文件,而这份文件经过前Google员工、iPullRank执行长同时也是
SEO专家的Mike King检视,初步认定可信度极高,再加上Google最新的声明,更间接证实了
该份文件确实来自Google。
Google遭泄漏的API文件超过2,500页,涵盖2,596个模组14,014项属性,Mike King指出,这
份文件的内容与不少Google过去所公开的搜寻规则相矛盾,他认为,Google的发言人从系统
运作方面误导SEO工程师,以及潜在的垃圾邮件发送者,使得外界无法得知影响寻引擎的方
法。
Mike King提及数项文件与Google公开宣称不符的资讯,包括Google曾经多次说过,Google
搜寻不使用网域权重,但是文件中载明有一个称为siteAuthority的指标,用于评估网站权
重,siteAuthority指标存在于Google的Compressed Quality Signals中,并在Q*排名系统
中使用,而这项资料与Google官方声明相矛盾。
Google官方过去也否认使用点击资料进行排名,但是Google搜寻中的NavBoost系统显示,Go
ogle确实使用不良点击、良好点击和最后的长点击(Long Click)行为作为排名算法的一
部分指标。不只如此,官方多次否定的沙箱机制,在文件中的PerDocData模组,显示出确实
存在一个hostAge属性,Mike King指出,Google在某些情况下会根据网站年龄和缺乏信任的
讯号,来对网站进行隔离处理。
另外,Google也多次对外宣称不使用Chrome资料作为搜寻的一部分,但是Mike King根据泄
露的文件表示,Google确实使用了Chrome资料,来自Chrome存取的资料被用于即时增强讯号
的一部分,用于提升搜寻结果的品质和相关性。
不过值得注意的是,Mike King指出,虽然有许多Google搜寻用到的特征被揭露出来,但是
从文件中,目前还无法看出各特征在下游的评分函式权重,因此也不确定这些特征具体使用
方式。不过,由于该文件泄漏了2024年3月Google搜寻内容储存的现行架构,以及相关程式
码提交历史,证明这份资料是新资讯。
https://www.ithome.com.tw/news/163204