학습 모델 기반 감정 텍스트-음성 합성 방법 및 장치가 개시된다. 본 발명의 일실시예에 따른 감정 텍스트-음성 합성 방법은 텍스트 및 상기 텍스트에 대한 감정 정보를 식별하는 단계; 및 상기 텍스트 및 상기 감정 정보를 트레이닝된 학습 모델에 입력하여, 상기 감정 정보에 대한 음성 신호를 획득하는 단계를 포함하고, 상기 학습 모델은, 상기 감정 정보를 모델링하여 상기 스타일 정보를 결정하는 변이 오토인코더(variational autoencoder), 상기 텍스트 및 상기 스타일 정보에 기초하여 상기 음성 신호의 음향 특징을 생성하는 음성 합성 계층 및 상기 음향 특징에 따라 상기 음성 신호를 생성하는 보코더(vocoder)를 포함하고, 상기 오토인코더는, 상기 감정 정보를 미분가능한 연속적인 데이터로 모델링하여 상기 스타일 정보를 추출할 수 있다.