계층적 Context Injection (RAG 청크 컨텍스트 유지)

concept updated 2026-04-13

계층적 Context Injection

한 줄 정의

모든 텍스트 청크 상단에 상위 헤더 경로를 주입하여, 청크가 단독으로 있어도 문서 전체 구조를 이해할 수 있게 한다.

형식

[위치: 제1편 > 제2장 > 제2절 > 일반 현황]

소양강댐의 총저수량은 2,900백만㎥이며...

효과

  • 본문에 키워드 없어도 상위 주제어로 검색 가능
  • 벡터 임베딩 시 헤더 정보가 의미론적 거리에 영향
  • 청크 단위로 독립적이어도 전체 문서 구조 이해 가능

구현

  • MarkdownHeaderTextSplitter 기반 계층적 분할
  • 청크 메타데이터에 헤더 경로 저장 → 재랭킹 시 활용
  • CJK Smart Join: 한국어 사이 불필요한 공백 제거 (소 양 강 댐소양강댐)

적용 맥락

계층 구조가 있는 문서 (법령, 매뉴얼, 기술 문서, 행정 문서). 특히 테이블이 많거나 페이지 분할로 컨텍스트가 끊기는 경우.

Relationships

related_to concepts/triple-based-reranking