作者:
DrTech (竹科管理处网军研发人员)
2026-02-20 01:11:00早期在没有Bert的时代,就有一堆类似工作。word2vec时代,都有许多变形了。只在特定垂直领域,训练短语级别,如果只是计算量比较低,可以做语意计算,看不出有什么特别新的东西。不使用 transformer或BERT,做短语embedding,其实早期大家都玩得蛮多了。看了一下,基底是用BGE 做词汇embedding,将预先计算的结果重复使用。就是用空间换时间啊。说不用S-Bert太牵强啦,还不是有用。最后benchmark只比时间,太取巧了吧,只比时间。你用储存空间换时间,当然时间上会硬赢阿。