계층적 Context Injection (RAG 청크 컨텍스트 유지)
계층적 Context Injection
한 줄 정의
모든 텍스트 청크 상단에 상위 헤더 경로를 주입하여, 청크가 단독으로 있어도 문서 전체 구조를 이해할 수 있게 한다.
형식
[위치: 제1편 > 제2장 > 제2절 > 일반 현황]
소양강댐의 총저수량은 2,900백만㎥이며...
효과
- 본문에 키워드 없어도 상위 주제어로 검색 가능
- 벡터 임베딩 시 헤더 정보가 의미론적 거리에 영향
- 청크 단위로 독립적이어도 전체 문서 구조 이해 가능
구현
MarkdownHeaderTextSplitter기반 계층적 분할- 청크 메타데이터에 헤더 경로 저장 → 재랭킹 시 활용
- CJK Smart Join: 한국어 사이 불필요한 공백 제거 (
소 양 강 댐→소양강댐)
적용 맥락
계층 구조가 있는 문서 (법령, 매뉴얼, 기술 문서, 행정 문서). 특히 테이블이 많거나 페이지 분할로 컨텍스트가 끊기는 경우.