STT 파이프라인 설계 원칙

한 줄 정의

실시간 전사(WebSocket) + 회의 종료 후 LLM 요약. 화자 구분과 지연 사이의 trade-off가 핵심.

핵심 Trade-off: 지연 vs 화자 구분

	파일 기반 (화자 구분 O)	실시간 (화자 구분 X)
모델	gpt-4o-transcribe-diarize	gpt-4o-transcribe (Realtime API)
지연	2~4분 (1시간 회의 기준)	2030초
구현 난이도	낮음	중간 (WebSocket)

결론: “1분 내 회의록” UX 요구사항 → 실시간 MVP 우선, 화자 구분은 후속.

발견된 기술 제약 (API 구조, stale 가능성 있음)

OpenAI: 실시간 + 화자구분 동시 불가 (diarize 모델은 Realtime API 미지원)
OpenAI Whisper API: 파일 크기 25MB 제한 → 1시간 wav는 50100MB → mp3 64kbps 압축 시 ~14MB로 해결
chunk 분할 시 화자 ID 리셋 → 단일 파일 처리가 화자 연속성 보장

채널 분리 원칙 (실험으로 검증)

합성 녹음(mic+speaker 합산)에서 스피커 음량 > 마이크 음량이면 내 발화가 STT에서 누락
해결: mic / speaker 채널 분리 녹음 후 timestamp 기준 병합

Cross-batch 화자 불일치 해결

배치 크기 55초 → 5분으로 확대 시 화자 구분 정확도 향상 (2.1명 → 4명)
Overlap 배치 (2개 MediaRecorder 시간차 운용) — chunk 간 화자 ID 매핑 가능

Granola 아키텍처 (참고 모델)

로컬 오디오 캡처 → 실시간 스트리밍 전사 → 오디오 즉시 삭제
                                        + 사용자 수동 메모
                                        ↓ (회의 종료)
                              LLM이 전사 + 메모 병합 → 최종 회의록

STT 파이프라인 설계 원칙

STT 파이프라인 설계 원칙

한 줄 정의

핵심 Trade-off: 지연 vs 화자 구분

발견된 기술 제약 (API 구조, stale 가능성 있음)

채널 분리 원칙 (실험으로 검증)

Cross-batch 화자 불일치 해결

Granola 아키텍처 (참고 모델)

Relationships