모바일 메뉴 닫기
 

   

소개

 

“말뭉치(corpus)”란 대규모의 전산화된 언어자료의 집합으로, 언어를 연구하는 각 분야에서 필요로 하는 연구 재료이며, 언어의 본질적이고 다양한 변이를 총체적으로 보여줄 수 있다.

연세말뭉치는 1986년 ‘한국어 사전 편찬회’가 발족함과 동시에 준비를 시작하였고, 1988년에 ‘연세말뭉치의 구체적인 표본 선정에 들어감으로써 본격적으로 구축이 시작되었다. 초기에는 사전 편찬을 목적으로 말뭉치를 구축하였으나 국어 연구, 한국어 교육, 국어 교육, 인문언어학 등 여러 분야에서 활용할 수 있는 다양한 언어 자료를 전산화하였다. 현재까지 언어정보연구원에서 구축한 ‘연세 말뭉치’의 구성을 한 눈에 보이면 다음 그림과 같다. 색으로 표시한 부분에 해당하는 말뭉치는 ‘연세 말뭉치 용례 검색 시스템(링크)’을 통해 활용할 수 있다.

 

 

목록

 

번호 항목 개요 규모
1 연세말뭉치 1 연세 말뭉치 중 가장 이르게 구축된 말뭉치로, '현대 한국인의 독서 실태'에 관한 설문 조사에 의해 구축된 균형 말뭉치. 표본의 대표성을 확보하고 표본 선정 기준을 마련하기 위해, '전문가 조사'에서는 교과서의 배제 또는 표집 비율 조정, 문제 번역물의 표집과 관계된 문제, 독서물의 유목 분류 문제에 대한 조사가 이루어졌으며, '일반인 조사'에서는 전문가 연구의 결과를 토대로 구축됨. 샘플 텍스트 말뭉치. 자세한 것은, 정찬섭 외 (1990:7~70) 참조 바람. 2,900,000
2 연세말뭉치 2

도서 대출 빈도에 따른 균형 잡힌 말뭉치를 구성할 목적으로 주제별 선정 기준을 사용함. 문헌정보학적 방법을 응용한 것으로, 가능한 모든 주제 분야의 낱말이 망라되도록 하기 위해 듀이 십진 분류법(Dewey Decimal Classification) 을 이용하여 한국어 문헌을 크게 열 가지 대범주(총류, 철학, 종교, 사회, 과학, 언어학, 순수과학, 응용과학, 예술, 문학, 역사 등의 분야)로 나누어 수집함. 또한 도서의 대출 빈도는 각 낱말의 인지도를 간접적으로 나타낸다는 전제 아래, 주로 1987~1988년의 도서를 대상으로 대출빈도가 높은 자료를 중심으로 하여, 234개의 표본을 선정하여 1990년~1998년에 걸쳐 구축됨. 총류(7.8%), 철학(9.9%), 종교(10.7%), 사회과학(12.8%), 언어(5.7%), 순수과학(11%), 응용과학(11.7%), 예술(8.1%), 문학(11.2%), 역사(11.3%) 등의 주제별 구성으로 구축되어 있음.

1,100,000
3 연세말뭉치 3 사람들이 많이 접하는 문헌에 각 낱말의 인지도가 간접적으로 반영된다고 보고, 1980년대 우수 출판물 목록에서 표본을 선정. 5,980,000
4 연세말뭉치 4 실제 사용된 입말을 녹음하여 전사하는 '순수 입말'(구어)과, 희곡, 방송 대본, 시나리오 따위를 중심으로 한 '버금 입말'(준구어)로 구성. 대화(26%), 강연(24%), 상담(14%), 희곡·대본(13%), DJ방송(13%), 토론(8%), 회의(2%) 등의 내용으로 구성되어 있다. 다른 글말뭉치와는 달리, 여기에는 발화자 참여자의 나이, 성별, 직업에 대한 정보, 발화참여자의 수와 발화의 성격, 전사자의 정보, 녹음시간 정보 등이 덧붙여져 있음. 770,000
5 연세말뭉치 5 1970년대 문헌을 대상으로 하여, 교과서에서 신문에 이르는 다양한 문헌 자료로 구성. 1970년대 문헌을 대상으로 하여, 신문(10%), 소설·수필(50%), 일반 서적(35%), 교과서(5%) 등의 문헌 자료를 수집함으로써 구축됨. 8,600,000
6 연세말뭉치 6 해방 이후의 우리말의 모습을 제대로 반영한 말뭉치 구축을 위해, 1960년대 문헌을 대상으로 하여 말뭉치를 구축하기 시작하였으며, 1000만 어절을 목표로 하고 있음. 7,230,000
7 연세말뭉치 7 1990년대 중반까지의 자료로 주로 소설과 수필로 이루어져 있음. 1994년부터 1995년에 걸쳐 구축됨. 13,670,000
8 연세말뭉치 8 초등학교 전 과목 및 중·고등학교의 국어, 사회를 중심으로 구성. 제5차(한영균 말뭉치), 제6차 교과과정의 두 종류. 870,000
9 연세말뭉치 9 순 우리말의 사용 빈도가 높고 문장도 비교적 우리말의 구조에 맞게 사용되는, 아동 교육용 도서 중에서 적합한 자료를 선정하여, 1996년에 구축됨. 1,500,000
10 연세말뭉치 10 편찬을 위해 보완된 1시기(1945~1965년) 말뭉치 중 단행본으로 구성. 780,000
11 연세말뭉치 11 편찬을 위해 보완된 1시기(1945~1965년) 말뭉치 중 교과서로 구성. 730,000
12 연세 20세기 한국어 말뭉치 20세기 문헌을 출판 시기와 텍스트 유형을 기준으로 수집하여 구축한 문어 원시 말뭉치 150,378,870
13 한국어 교재 말뭉치(전체) 1990년대 한국어 교육 기관의 한국어 교재 텍스트를 입력하여 구축한 말뭉치 724,856
14 한국어 교재 말뭉치(대화) 1990년대 한국어 교육 기관의 한국어 교재 텍스트 중 도입부의 대화만을 입력하여 구축한 말뭉치 119,598
15 연세 한국어 학습자 말뭉치 연세대 언어연구교육원의 수강생이 생산한 작문을 제공받아 구축한 한국어 학습자 말뭉치 278,542
16

광복 이후 초등 국어 교과서 말뭉치

교수요목기 이후 발간된 초등학교 국어 교과서를 모두 입력하여 구축한 말뭉치 1,496,280
17 6,7차 초등 교과서 말뭉치 6차, 7차 교육과정의 교과서를 연세한국어사전 기준으로 동형어 수준까지 주석한 말뭉치 1,681,769
18 연세 문어 균형 말뭉치 다양한 장르의 텍스트를 포함하여 구축한 문어 말뭉치 1,054,362
19 연세 구어 균형 말뭉치 공적 대화와 사적 대화, 독백과 대화를 골고루 포함하는 구어 말뭉치 998,934
20 연세 다의어 말뭉치 한국어 의미 빈도 사전을 위해 구축한 다의어 수준까지 주석이 된 말뭉치 1,165,224
21 연세 한글 대장경 말뭉치 불설류를 비롯한 경문과 서문 및 해제로 구성된 말뭉치 386,472
22 독립신문 말뭉치 독립신문의 국문 텍스트 원자료를 구축한 후 원문 대조 교정을 거친 말뭉치 144,309
23 근대 유행가요 말뭉치 1930~1940년대 음반에 실린 유행가요 가사 말뭉치 29,339
24 연세 다면자료 말뭉치 발화 촬영 영상, 음성 전사 텍스트, 비언어 행위 주석으 구성된 말뭉치 18,986
25 트위터 말뭉치 2011년 10월 한 달간 작성된 한국어 트위터를 수집하여 구축한 말뭉치 945,175,620
26 정치 담화 말뭉치 담화 분석을 위해 주제를 정치로 한정하여 구축한 말뭉치 306,681
  합계   1,148,089,842