옮김(Omgim)은 어떤 서비스인가요?

옮김은 1.5시간 이상의 장시간 영상을 한국어 텍스트로 변환하는 AI 음성 전사 서비스입니다. 강의 녹화·회의·인터뷰·팟캐스트 영상을 드래그 한 번으로 업로드하면 TXT·SRT·VTT·JSON 포맷의 결과 파일을 받습니다.

어떤 파일 포맷을 지원하나요?

영상은 MP4·MOV·WEBM·MKV·AVI, 오디오는 MP3·M4A·WAV·AAC·FLAC·OGG를 지원합니다. 내부에서 ffmpeg로 16kHz mono 오디오를 추출한 뒤 전사하므로 원본 영상 코덱 제약은 사실상 없습니다. 파일 크기는 최대 5GB입니다.

전사 속도가 얼마나 빠른가요?

1시간 영상 기준 약 1분, 8시간 분량 영상도 약 5~7분에 전사됩니다. Deepgram Nova-3 엔진의 실시간 대비 40~60배속 처리 덕분입니다. 실제 검증 사례로 대학 강의 10시간 11분 분량을 총 7분에 전사한 기록이 있습니다.

한국어 인식 품질은 어떤가요?

Deepgram Nova-3 한국어 모델을 사용하며, 고유명사(회사명·전문 용어·교수명)와 구어체까지 안정적으로 인식합니다. 실측 샘플에서 "현대자동차", "금속노조", "아틀러스" 같은 고유명사를 정확히 기록했습니다.

가격은 어떻게 되나요?

Phase 1 Preview 단계에서는 무상 제공됩니다. 정식 출시 시 분 단위 크레딧 과금(1분 약 5원 내외) 또는 월 구독제로 전환될 예정입니다.

데이터 보안은 어떻게 보장하나요?

업로드된 영상은 암호화 저장되며, 전사 완료 후 지정 기간 이후 자동 삭제됩니다. 전사 엔진은 SOC2 Type II 및 HIPAA 준수 인프라를 사용합니다. 민감 녹음의 경우 로컬 CLI 버전을 제공하여 파일이 사용자 Mac을 벗어나지 않게 할 수 있습니다.

Otter, Descript, Rev 같은 기존 서비스와 무엇이 다른가요?

옮김은 한국어 품질과 장시간 파일 처리 UX에 집중합니다. 기존 해외 SaaS는 한국어 정확도가 떨어지거나 파일 크기·길이 제한이 엄격한 반면, 옮김은 최대 5GB·수 시간 분량을 단일 업로드로 처리하며 한국 고유명사 인식에 강점이 있습니다.

한국어 AI 음성 인식 엔진 비교: Deepgram · Whisper · Gemini (2026)

한국어 음성 인식 서비스를 만들려고 엔진을 고르다 보면 "결국 뭐가 제일 좋은가"라는 질문에 부딪힙니다. 2026 년 기준 상용 API 세 가지 — Deepgram Nova-3 · OpenAI Whisper · Google Gemini — 를 정확도 · 속도 · 비용 · 사용성 관점에서 정리합니다. 옮김 구축 과정에서 실측한 수치를 담았습니다.

요약 비교

항목	Deepgram Nova-3	Whisper API (OpenAI)	Gemini 2.0 (audio)
한국어 품질	상 (구어체·고유명사 강함)	상 (중문어체 강함)	상 (문어체 강함)
처리 속도 (90분 영상)	~1분	~3–5분 (25MB 청크 필요)	~1–2분
단일 파일 크기 한도	2 GB	25 MB	~2 GB (Files API)
분당 비용	$0.0043 (nova-3)	$0.006	$0.0001 미만 (audio tokens)
타임스탬프·화자 분리	내장 (단어·utterance·diarize)	세그먼트 단위	문장 단위 (수동 파싱)
무료 티어	$200 신규 크레딧	없음 (API 종량)	일 1500 요청 (flash)

1. 정확도 — 실측

대학 강의 녹화(약 1h 40m, 한국어) 를 세 엔진 각각에 태운 결과:

Deepgram Nova-3: 구어체("했거든요", "~잖아요" 등) 처리가 자연스러움. "현대자동차"·"금속노조" 같은 고유명사 정확 인식. 숫자·외래어 혼용 시 강점.
Whisper: 문장 마무리 표현이 표준화되는 경향 (구어체가 문어체로 변환). 학술 용어는 정확하나 구어체 "~잖아" 처럼 문법에서 벗어난 표현이 "~잖아요" 로 자동 교정되어 원형 보존은 떨어짐.
Gemini 2.0: 전반적으로 매끄러운 문어체 출력. 타임스탬프가 단어 단위로 촘촘하지 않아 자막 생성에는 후처리 필요.

구어체 원형 보존이 중요한 회의·강의 기록에는 Deepgram, 공식 기사·논문 초안에는 Whisper 나 Gemini 가 유리합니다.

2. 처리 속도 — SaaS 설계 관점

대용량 파일을 단일 요청으로 받는지가 핵심입니다. Whisper 는 25MB 제한 때문에 1.5시간 영상을 청크로 자르고 합치는 파이프라인이 필요합니다. Deepgram 과 Gemini 는 단일 요청으로 처리되어 서버 로직이 훨씬 간단합니다.

Vercel Functions 처럼 타임아웃(300s) 이 있는 환경에서는 async + webhook 콜백 패턴이 중요합니다. Deepgram 은 callback 파라미터로 공식 지원하며, 옮김 역시 이 패턴으로 구축했습니다.

3. 비용 — 실제 지출 예시

옮김 Phase 0 에서 대학 강의 6편(총 10h 11m) 을 Deepgram 으로 전사한 실제 지출은 $2.63 이었습니다 (신규 크레딧 $200 내).

Gemini 는 오디오 토큰이 매우 저렴해 이론적으로는 Deepgram 대비 10분의 1 이하이지만, Files API 업로드·처리 시간·문장 단위 타임스탬프 파싱 추가 개발 비용을 고려하면 단순 "분당 가격" 으로만 판단하기 어렵습니다.

4. API 사용성

Deepgram: URL 기반 async + webhook, SDK 성숙. 옮김은 이 방식으로 구축.
Whisper: 파일 업로드 동기 API. 청크 로직 + 순서 보장 + 중복 제거가 추가 부담.
Gemini: Google GenAI SDK 로 Files API 업로드 → 동기 호출. 응답 포맷을 프롬프트로 통제 (JSON 강제 등).

5. 실무 선택 가이드

실시간·장시간·한국어 구어체 중시 → Deepgram Nova-3
문어체 · 학술 용어 · 영어 섞인 콘텐츠 → Whisper 또는 Gemini
비용 극단 최소화 + 품질도 괜찮음 → Gemini 2.0 Flash (단 개발 공수 있음)
화자 분리 · 감정 · 언어 감지까지 → AssemblyAI Best (본 글엔 미포함, 별도 엔진)

맺음말

옮김은 Deepgram Nova-3 를 기본 엔진, Gemini 2.0 을 보조 엔진(CLI) 으로 구성했습니다. 업로드 기능은 언어를 자동 감지하므로 한국어 · 영어 영상 모두 같은 정확도로 처리됩니다. 실제로 시도해보고 싶다면 옮김 홈에서 바로 업로드하거나 YouTube 링크를 붙여넣어 보세요.