[新闻] Google内部文件外泄，搜寻引擎运作细节 thelittleone PTT批踢踢实业坊

[新闻] Google内部文件外泄，搜寻引擎运作细节

楼主: thelittleone (thelittleone) 2024-05-31 14:26:33

Google内部文件外泄，搜寻引擎运作细节引猜疑
iThome
文/李建兴 | 2024-05-31发表
近期网络上流传一份Google内部描述搜寻引擎运作细节的API文件，在一段时间的沉默后，G
oogle终于发出声明，警告外界不要根据缺乏脉络与不完整的资讯，对搜寻做出不准确的假
设，并强调他们已经分享了大量搜寻运作的方式，同时也致力于保护搜寻结果不被操纵。
之所以该文件引起搜寻引擎最佳化（SEO）专家的注意与兴趣，是因为其中描述的细节与Goo
gle过去公开声明的资讯相矛盾，包括不使用网域权重、不使用点击评份以及没有使用沙箱
等。
Sparktoro共同创办人Rand Fishkin在5月初的时候收到了一份匿名寄送的信件，内容是一份
Google搜寻部门内部的API文件，而这份文件经过前Google员工、iPullRank执行长同时也是
SEO专家的Mike King检视，初步认定可信度极高，再加上Google最新的声明，更间接证实了
该份文件确实来自Google。
Google遭泄漏的API文件超过2,500页，涵盖2,596个模组14,014项属性，Mike King指出，这
份文件的内容与不少Google过去所公开的搜寻规则相矛盾，他认为，Google的发言人从系统
运作方面误导SEO工程师，以及潜在的垃圾邮件发送者，使得外界无法得知影响寻引擎的方
法。
Mike King提及数项文件与Google公开宣称不符的资讯，包括Google曾经多次说过，Google
搜寻不使用网域权重，但是文件中载明有一个称为siteAuthority的指标，用于评估网站权
重，siteAuthority指标存在于Google的Compressed Quality Signals中，并在Q*排名系统
中使用，而这项资料与Google官方声明相矛盾。
Google官方过去也否认使用点击资料进行排名，但是Google搜寻中的NavBoost系统显示，Go
ogle确实使用不良点击、良好点击和最后的长点击（Long Click）行为作为排名算法的一
部分指标。不只如此，官方多次否定的沙箱机制，在文件中的PerDocData模组，显示出确实
存在一个hostAge属性，Mike King指出，Google在某些情况下会根据网站年龄和缺乏信任的
讯号，来对网站进行隔离处理。
另外，Google也多次对外宣称不使用Chrome资料作为搜寻的一部分，但是Mike King根据泄
露的文件表示，Google确实使用了Chrome资料，来自Chrome存取的资料被用于即时增强讯号
的一部分，用于提升搜寻结果的品质和相关性。
不过值得注意的是，Mike King指出，虽然有许多Google搜寻用到的特征被揭露出来，但是
从文件中，目前还无法看出各特征在下游的评分函式权重，因此也不确定这些特征具体使用
方式。不过，由于该文件泄漏了2024年3月Google搜寻内容储存的现行架构，以及相关程式
码提交历史，证明这份资料是新资讯。
https://www.ithome.com.tw/news/163204

继续阅读

[问卦] 为什么女生背上都没有痘痘？VeryGoodBoy [问卦] 小牛比较强还是独行侠？henin2003 Re: [问卦] 表定工时八小时实际工时呢?b122771 Re: [问卦] 都在讲监察院那考试院呢?rtoday Re: [新闻] 叶元之成罢免立委首选？惊人发言回应：theskyofblue [新闻] 失智症治疗新曙光！中药“清脑一号”能KZS [问卦] 台湾爱配合老人是不是很怪的风气？denny41606 [新闻] 松绑！传拜登授权美援乌武器攻击俄境内touyuan [新闻] 韩国釜山超市严重爆炸！数百罐瓦斯瓶点燃FlashWolves [新闻] 安卓真不保值？这款新旗舰成台湾二手机asdf1256