Docs핵심 개념

핵심 개념 (Core Concepts)

FindIP의 시맨틱 특허 검색 엔진이 내부적으로 어떻게 작동하는지 이해해보세요.

벡터 임베딩이란?

벡터 임베딩은 텍스트를 수백 차원의 숫자 벡터로 변환하는 기술입니다. 의미가 비슷한 텍스트는 벡터 공간에서 가까운 위치에 놓이게 되어, 키워드가 다르더라도 의미를 기반으로 유사한 문서를 찾을 수 있습니다.

FindIP의 임베딩 파이프라인

  1. 특허 문서를 섹션별(제목, 초록, 청구항, 상세설명)로 분할
  2. 각 섹션을 임베딩 모델로 벡터화하여 벡터 DB에 저장
  3. 검색 쿼리도 동일 모델로 벡터화한 뒤, 가장 가까운 벡터를 검색
  4. 리랭킹(Reranking) 모델로 최종 순위를 정밀하게 재조정

시맨틱 검색 (Semantic Search)

전통적인 키워드 매칭과 달리, FindIP는 시맨틱 임베딩을 사용하여 검색어의 숨겨진 의도와 의미를 파악합니다. 따라서 자연어 문장, 기술적 문제점, 또는 해결 방안으로 검색해도, 사용된 단어가 다르더라도 연관성이 높은 특허를 정확히 찾아냅니다.

검색 예시

키워드 검색: "리튬 배터리 발열" — 정확히 일치하는 단어만 검색

시맨틱 검색: "전기차 배터리 팩에서 과열을 방지하는 방법" — 기술적 맥락과 의도를 이해

순위 산정 방식: 벡터 검색 + 리랭킹

FindIP는 키워드(BM25) 매칭을 사용하지 않습니다. 검색 파이프라인은 전적으로 의미 기반(시맨틱)이며, 다음 두 단계로 동작합니다.

1단계 — 벡터 검색 (문단/청크 단위)

각 특허는 문단·청구항 단위의 청크로 분할되어 벡터로 임베딩됩니다. 검색어도 동일한 모델로 임베딩한 뒤, 벡터 유사도(similarity_score)가 가장 가까운 청크들을 찾아냅니다.

2단계 — 리랭킹

리랭킹 모델이 검색된 후보들을 검색어와 다시 비교해 점수를 매겨 최종 순위(rerank_score)를 정밀하게 정합니다. 결과는 이 리랭크 점수 순으로 반환됩니다.

매칭이 문단/청크 단위로 이루어지므로, 짧은 키워드 나열보다 구체적인 기술적 문제나 해결 방안을 자연어로 풀어 입력할 때 더 연관성 높은 결과를 얻는 경향이 있습니다.

지원 국가 (Supported Countries)

FindIP는 전 세계 주요 특허청의 특허 데이터를 색인하여 제공합니다.

국가 코드국가 / 특허청언어
US미국 (USPTO)영어
CN중국 (CNIPA)중국어
JP일본 (JPO)일본어
KR한국 (KIPO)한국어
EP유럽 특허청 (EPO)영어, 프랑스어, 독일어

특허 문서 구조

각 특허 문서는 다음과 같은 섹션으로 구성되어 있으며, 각각 개별적으로 검색 및 조회가 가능합니다.

Abstract
발명의 내용을 간략히 요약한 초록
Claims
특허의 법적 권리 범위를 정의하는 청구항
Description
발명의 실시예를 포함한 상세한 기술적 설명
Figures
기술의 이해를 돕는 도면 및 다이어그램
Metadata
출원일, 공개일, 출원인, IPC 분류 코드 등 각종 메타데이터
핵심 개념 — 시맨틱 특허 검색 원리 | FindIP