HWP Embedding (한글 문서 RAG)
HWP Embedding
한 줄 정의
HWP → HTML → Triple 추출 → pgvector 저장. Hybrid Search(BM25+Vector) + 3-Layer Reranking. 수자원/댐 기술 문서 검색.
파이프라인
HWP → HTML 변환 → CSS 기반 헤더 추출 + 테이블 정규화
→ LLM 페이지 분석 (1회 호출, 모든 테이블 스키마 추출)
→ Triple 추출 (Subject, Predicate, Object, subject_type)
→ 청킹 + 임베딩 → Supabase pgvector
검색 스택
- 인덱스: pgvector HNSW (벡터) + pgroonga BM25 (전문)
- 재랭킹: Semantic Context 30% + Data Integrity 40% + Keyword Proximity 30%
- Subject Type: PhysicalEntity(1.0) > Conceptual(0.5) > Attribute(0.2) > Time(0.1)
운영
- Shadow Table Atomic Swap으로 무중단 전체 데이터 교체
- Session-based 개발 (BUGS.md, PROGRESS.md, ADR/ 유지)
Relationships
uses concepts/triple-based-reranking
uses concepts/schema-caching-pattern
Backlinks
derived_from 계층적 Context Injection (RAG 청크 컨텍스트 유지)
derived_from Shadow Table Atomic Swap (무중단 데이터 교체)