Docs核心概念
核心概念
了解 FindIP 语义专利检索引擎的内部工作原理。
什么是向量嵌入?
向量嵌入是将文本转换为数百维数值向量的技术。语义相近的文本在向量空间中位置相近,因此即便关键词不同,也能基于语义找到相似的文档。
FindIP 的嵌入流水线
- 将专利文档按章节(标题、摘要、权利要求、详细说明)切分
- 用嵌入模型将每个章节向量化并存入向量数据库
- 用同一模型将检索查询向量化,并找出最近的向量
- 使用重排序(Re-ranking)模型对最终排序进行精细化
语义检索 (Semantic Search)
与传统关键词匹配不同,FindIP 使用语义嵌入捕捉查询背后的意图和含义。即便用自然语言句子、技术问题或解决方案表达,词语不同也能准确找到相关性高的专利。
检索示例
关键词检索: "锂电池发热" — 仅匹配完全相同的词
语义检索: "如何防止电动汽车电池组热失控" — 理解技术背景与意图
排序原理: 向量检索 + 重排序
FindIP 不使用关键词(BM25)匹配。其检索流水线完全基于语义,分为两个阶段:
阶段一 — 向量检索(段落 / 切块级)
每份专利被切分为段落、权利要求级别的切块并嵌入为向量。查询也用同一模型嵌入,引擎按向量相似度(similarity_score)检索出最相近的切块。
阶段二 — 重排序
重排序模型将检索到的候选与查询再次比对打分,精细地确定最终排序(rerank_score)。结果按该重排序分数返回。
由于匹配在段落 / 切块级别进行,相比简短的关键词堆砌,用自然语言描述具体的技术问题或解决方案往往能获得相关性更高的结果。
支持国家 (Supported Countries)
FindIP 索引并提供全球主要专利局的专利数据。
| 国家代码 | 国家 / 专利局 | 语言 |
|---|---|---|
US | 美国 (USPTO) | 英语 |
CN | 中国 (CNIPA) | 中文 |
JP | 日本 (JPO) | 日语 |
KR | 韩国 (KIPO) | 韩语 |
EP | 欧洲专利局 (EPO) | 英语、法语、德语 |
专利文档结构
每份专利文档由以下章节组成,可分别检索和查询。
Abstract简要总结发明的内容
Claims界定专利法律权利范围的权利要求
Description包含实施例的详细技术说明
Figures帮助理解技术的附图与示意图
Metadata申请日、公开日、申请人、IPC 分类等各种元数据