ComfyUI 튜토리얼 텍스트 오디오 변환

AI 실험실/ComfyUI

ComfyUI 튜토리얼 텍스트 오디오 변환 | ComfyUI 05

이리븅 2026. 1. 22. 22:20

728x90

오늘은 ComfyUI 시작하기 다번째 시간.

텍스트 프롬프트를 이용하여 오디오를 생성해보자.

텍스트→오디오 (신규)

템플릿 > 시작하기 >텍스트 → 오디오(신규)를 클릭한다.

이번 튜토리얼은 ACE Step v1 모델을 이용하여 텍스트 프롬프트에서 오디오 생성을 해본다.

지난번과 마찬가지로 또 한 번 모델을 다운받아주자. 꽤 오래 걸렸다.

checkpoints / ace_step_v1_3.5b.safetensors (7.17 GB)

1. 모델

이번 텍스트 → 오디오 튜토리얼에 사용되는 모델은 ace_step_v1_3.5b 이다.

ACE-Step 모델은 중국의 두 AI 기업인 StepFun과 ACE Studio가 공동으로 개발한 모델이다.

ACE-Step은 음악 쪽의 Stable Diffusion 모델로 Music Foundation Model로 불린다.

Music Foundation Model이란 음악 전반의 공통 표현(latent)를 학습하여

다양한 음악 작업의 기반으로 쓰일 수 있는 범용 모델을 뜻한다.

ACE-Step 이전의 기존 음악 생성 모델들은

목적(단순 BGM 생성, 멜로디 스케치 등), 출력(짧은 길이, 보컬 불가)이 한정되어 있었다.

그러나 Music Foundation Model은 단일 태스크가 아닌 한 모델로 작곡, 편곡, 보컬 노래, 장르 전환 등

다양한 태스크가 가능하여 다운스트림 작업의 기반 모델로 사용이 가능한 모델이라 하여 Foundation Model로 명칭한다.

Stable Diffusion 모델이 이미지를 노이즈에서 깎아내듯이 ACE-Step 모델은 소리의 노이즈를 깎아서 노래를 만들어낸다.

2. 구조

이번 튜토리얼 역시 구조가 매우 단순하다.

Text-to-Song AceStep (Simplified)와 오디오 저장 (MP3), 단 둘 뿐이다.

2-1. Text-to-Song AceStep (Simplified)

Text 프롬프트를 적는 곳이다.

Vocal Volume Multiplier은 보컬 트랙의 상대적 음량을 얼마나 키우거나 줄일지 정하는 배율이다.

이 값이 1.0 보다 커질수록 보컬이 강조되며, 작아질수록 보컬이 반주에 묻히게 된다.

위 텍스트박스는 음악의 스타일, 장르, 분위기를 적는 칸이다.

예시를 보면 Synthwave, techno, 128pm 같은 단어들을 보니 복고풍의 빠른 음악이 나올 것으로 예상된다.

아래 텍스트박스는 가사를 적으면 된다.

그 아래에 생성될 음악의 길이를 설정하면 끝나게 된다. 아주 간단하다.

이번 튜토리얼에서는 Simplified 노드를 사용하기 때문에 매우 간단하고 더 세세한 설정을 할 수도 있지만

오늘은 맛보기로 모델을 사용해보자.

어떤 음악이 나올지 기대가 된다.

3. 결과

티스토리에서는 오디오를 바로 들을 수 없어서 아쉽다.

아직 ACEStep을 경험해보지 못한 이들은 꼭 체험해보길 바란다.

로컬 모델에서도 꽤 자연스러 노래가 뚝딱 생성되었다.

그럼 한글 가사도 될까?

아쉽게도 우리가 사용하는 모델은 multi-language를 지원하지 않는다.

하지만 하는 방법이 있다.

친절한 영어 설명은 보면,

ACE-Step v1은 내부적으로 모든 언어를 로마자로 변환해서 처리한다.

하지만 ComfyUI에서는 아직 다국어 -> 영어 변환 기능을 구현하지않아서 예시처럼 직접 로마자로 변환해서 적어야한다.

[verse]
[ko]hamkke si-kkeuleo-un sesang-ui sodong-eul pihae
[ko]honja ogsang-eseo dalbich-ui eolyeompus-ileul balaboda

자, 이제 이리븅 주제가를 만들어보자.

위처럼 음악 스타일과 한글 가사를 적었다.

결과는~~~

ComfyUI_00007_.mp3

1.93MB

두둥

이리븅 주제가가 뚝딱나왔다.

물론 작사: GPT, 작곡: ACEStep.

4. 정리

이번 텍스트 → 오디오(신규)

튜토리얼에서는 ACE Step 모델을 이용하여

아주 간단하게 텍스트 프롬프트만으로 원하는 음악 스타일, 분위기를 적고 가사를 넣어서 음악을 생성해보았다.

비록 로컬에서 실행되는 작은 모델이라 아주 고퀄리티의 음악을 만들지는 못하지만

전체적인 분위기나 보컬 수준이 상당하였다.

로컬 환경에서 이 정도 결과를 보여준다는 점이 인상적이다.

728x90

'AI 실험실 > ComfyUI' 카테고리의 다른 글

ComfyUI 튜토리얼 텍스트 이미지 변환 \| ComfyUI 06 (1)	2026.02.03
ComfyUI 이미지 3D 변환 튜토리얼 \| ComfyUI 04 (3)	2026.01.16
ComfyUI Stable Diffusion모델로 이미지 생성하기! \| ComfyUI 03 (3)	2026.01.13
ComfyUI 튜토리얼! 로컬에서 텍스트로 이미지 생성하기 \| ComfyUI 02 (0)	2026.01.13
ComfyUI란? 개념부터 설치까지 정리 \| ComfyUI 01 (0)	2026.01.12

현재글ComfyUI 튜토리얼 텍스트 오디오 변환 | ComfyUI 05

이리븅

AI 개발자의 인생 만사 모든 리뷰

250x250

돈, 칭다오, Generative AI, gd하이볼, 맛집, comfyUI, 텍스트 이미지 생성, 하이볼리뷰, ai 이미지 생성, 생성형 AI, 하이볼추천, 마곡맛집, 적금, 지드래곤하이볼, ComfyUI 튜토리얼, 피스마이너스원하이볼, 홍대맛집, ComfyUI 사용법, 편의점하이볼, 이미지 생성 AI,

Today :
Yesterday :

이리븅