배치 우선 + 캐싱 중심 아키텍처

concept updated 2026-04-13

배치 우선 + 캐싱 중심 아키텍처

한 줄 정의

실시간 계산 대신 사전 배치 계산 + 캐시 서빙. 별도 API 서버 없이 백엔드가 캐시에서 직접 조회.

구조

AWS Glue 배치 (학습/추론)
  → S3 (모델 저장)
  → Redis (추론 결과, TTL 48h)
  ← 백엔드 직접 조회 (API 서버 불필요)

핵심 원칙

  • 모델 장애 시 기존 Redis 캐시가 TTL까지 서빙 → 가용성 보장
  • 배포 안전성: latest.json 포인터 방식으로 4개 파일 모두 업로드 후 활성화 → 반쪽 배포 방지
  • 롤백: latest.json만 이전 버전으로 변경

Redis TTL 설계:

  • 추론 주기의 2배 = TTL (1회 실패 허용)
  • Dev: noeviction (문제 조기 발견) / Prod: allkeys-lru (서비스 중단 방지)

적용 맥락

트래픽 민감 클라이언트 (마케팅 플랫폼 등). 추천 결과가 실시간 정확도보다 안정성이 중요한 경우. 독립 API 서버 인프라 부담을 줄이고 싶을 때.