PipOwl:可嵌入任何 Python 专案的轻量语义搜寻引擎(核心约 10KB)
PipOwl 是从我大型语义专案中抽离出来的
最安全、最不敏感、最容易被整合的一层。
它的定位是:
轻量语义搜寻引擎(Mini Semantic Engine)
纯 Python 实作,不含 C/C++ 原生模组
额外依赖皆为常见 NLP 套件(numpy / sentence-transformers)
可用于 CLI / API / Chatbot / IME本地即时执行(接近输入法候选速度)
适合做:语句相似度、意图比对、快速原型开发
安装方式:pip install pipowl
GitHub:https://github.com/galaxy4552/Pipowl
PyPI:pip install pipowl
如果你对中文语义系统、向量表示、或极简的 semantic engine 有兴趣,欢迎一起讨论。
作者:
oopFoo (3d)
2025-11-19 09:33:00all-MiniLM-L6-v2?有试过EmbeddingGemma-300m?现在中文那个embedding model是最推荐的?
作者: lchcoding 2025-11-19 10:36:00
上次-新酷鹰的事,有没有后续...?
我比较偏向做语义引擎 / pipeline 的研究所以没有大量 benchmark 各种模型。PipOwl 把 embedding layer 抽掉,想塞哪颗MODEL都行回lchcoding 谢谢你记得 这个就是后续 目前还在开发
作者: lchcoding 2025-11-19 10:59:00
理解,晚上看
作者:
DrTech (竹科管理处网军研发人员)
2025-11-19 19:16:00依赖sentence-transformers,强调核心 10KB有意义吗。 直接用sentence-transformers不就好了。认真看了一下,就是sentence-transformers再包一层,有必要吗。默认模型,还是中文能力特别差的all-MiniLM-L6-v2,真的蛮外行,又多余的套件。结论:套壳 sentence-transformers。
其实 pipowl 的重点不在重造 Sentence-Transformers本体还是用 sentence-transformers 没错 但我的目标是把整条 embedding pipeline (前处理、向量化normalization、top-k、API 统一化…)都包成应用层能直接用的三行程式all-MiniLM-L6-v2 当默认只是demo用 不是核心设计谢谢你深挖 也很感谢你花时间看程式码速度这块我自己实测过体感会比一般直接写SBERT顺很多
作者:
DrTech (竹科管理处网军研发人员)
2025-11-19 19:43:00你把实务上需要根据需求,需要调整的部分,例如怎么清洗文字,相似度怎么算,都包起来了,不能直接调整,确实很难用。sentence-transformers 不封装这些东西,就是为了实务上方便调整。如果是直接砍掉 sentence-transformers,从pytorch层级,轻量封装,取代sentence-transformers,对我会比较有帮助。
理解你的需求,这里的定位真的不太一样。pipowl-open 是做“开箱即用的语意搜寻”目标是让工程师不用碰到清洗、相似度公式encode cache 等细节 快速把 SBERT pipeline接进应用程式。你说的那确实是另一种方向 pipowl 不是瞄准那一块定位不太一样而已,完全理解你的 point
作者:
DrTech (竹科管理处网军研发人员)
2025-11-19 19:54:00谢谢友善回应
您刚刚分析的细节,其实能感受到您真的很有能力。我后面其实还有做一些更底层的向量技术等更稳定后会开放
作者: yunf 2025-11-20 04:43:00
讲到关键字大神要从美国跳出来了