HWP Embedding (한글 문서 RAG)

entity project updated 2026-04-13

HWP Embedding

한 줄 정의

HWP → HTML → Triple 추출 → pgvector 저장. Hybrid Search(BM25+Vector) + 3-Layer Reranking. 수자원/댐 기술 문서 검색.

파이프라인

HWP → HTML 변환 → CSS 기반 헤더 추출 + 테이블 정규화
→ LLM 페이지 분석 (1회 호출, 모든 테이블 스키마 추출)
→ Triple 추출 (Subject, Predicate, Object, subject_type)
→ 청킹 + 임베딩 → Supabase pgvector

검색 스택

  • 인덱스: pgvector HNSW (벡터) + pgroonga BM25 (전문)
  • 재랭킹: Semantic Context 30% + Data Integrity 40% + Keyword Proximity 30%
  • Subject Type: PhysicalEntity(1.0) > Conceptual(0.5) > Attribute(0.2) > Time(0.1)

운영

  • Shadow Table Atomic Swap으로 무중단 전체 데이터 교체
  • Session-based 개발 (BUGS.md, PROGRESS.md, ADR/ 유지)

Relationships

uses concepts/triple-based-reranking
uses concepts/schema-caching-pattern