멀티모달 데이터를 이용한 감성 분석 및 감정 탐지 방법은 분석장치가 대상자의 멀티모달 데이터를 입력받는 단계, 상기 분석장치가 상기 멀티모달 데이터에 속한 텍스트 데이터, 이미지 데이터 및 음성 데이터를 입력 계층에 입력하여 임베딩 벡터를 생성하는 단계, 상기 분석장치가 상기 텍스트 데이터, 상기 이미지 데이터 및 상기 음성 데이터 각각에 대한 임베딩 벡터를 트랜스포머 기반 모델에 입력하여 상기 텍스트 데이터 기준 상기 이미지 데이터 및 상기 음성 데이터에 대한 관계성을 나타내는 임베딩 벡터를 생성하는 단계, 상기 분석장치가 상기 트랜스포머 기반 모델이 출력하는 임베딩 벡터에 대한 셀프 어텐션을 수행하는 단계 및 상기 분석장치가 상기 셀프 어텐션을 수행한 임베딩 벡터를 분류 계층에 입력하여 감성 분석 및 감정 탐지 중 적어도 하나를 수행하는 단계를 포함한다.