STT 파이프라인 설계 원칙
STT 파이프라인 설계 원칙
한 줄 정의
실시간 전사(WebSocket) + 회의 종료 후 LLM 요약. 화자 구분과 지연 사이의 trade-off가 핵심.
핵심 Trade-off: 지연 vs 화자 구분
| 파일 기반 (화자 구분 O) | 실시간 (화자 구분 X) | |
|---|---|---|
| 모델 | gpt-4o-transcribe-diarize | gpt-4o-transcribe (Realtime API) |
| 지연 | 2~4분 (1시간 회의 기준) | |
| 구현 난이도 | 낮음 | 중간 (WebSocket) |
결론: “1분 내 회의록” UX 요구사항 → 실시간 MVP 우선, 화자 구분은 후속.
발견된 기술 제약 (API 구조, stale 가능성 있음)
- OpenAI: 실시간 + 화자구분 동시 불가 (diarize 모델은 Realtime API 미지원)
- OpenAI Whisper API: 파일 크기 25MB 제한 → 1시간 wav는
50100MB → mp3 64kbps 압축 시 ~14MB로 해결 - chunk 분할 시 화자 ID 리셋 → 단일 파일 처리가 화자 연속성 보장
채널 분리 원칙 (실험으로 검증)
- 합성 녹음(mic+speaker 합산)에서 스피커 음량 > 마이크 음량이면 내 발화가 STT에서 누락
- 해결: mic / speaker 채널 분리 녹음 후 timestamp 기준 병합
Cross-batch 화자 불일치 해결
- 배치 크기 55초 → 5분으로 확대 시 화자 구분 정확도 향상 (2.1명 → 4명)
- Overlap 배치 (2개 MediaRecorder 시간차 운용) — chunk 간 화자 ID 매핑 가능
Granola 아키텍처 (참고 모델)
로컬 오디오 캡처 → 실시간 스트리밍 전사 → 오디오 즉시 삭제
+ 사용자 수동 메모
↓ (회의 종료)
LLM이 전사 + 메모 병합 → 최종 회의록 Relationships
related_to ../concepts/browser-audio-capture-limits
applies_to ../entities/lattice
related_to ../../../../concepts/deterministic-verification-before-llm — 확정적 검증(STT) 후 LLM 요약 패턴과 동일 구조