회원교류
질의응답 상세조회화면
질의응답 상세조회화면
제목 세종 말뭉치의 오류를 개선한 내용을 공개하고 싶습니다.
올린사람 임재수 올린날짜 2017-10-18
저작권 조회 수 / 내려받기 수 1227 / 35
내용 안녕하세요? 카카오의 임재수입니다.



저희는 세종 말뭉치를 이용해 형태소 분석이나 구문 분석 등의 연구를 하고 있는 카카오 내의 자연어 처리 팀입니다.



국립 국어원에서 지난 21세기 세종 계획을 통해 구축한 말뭉치는 전산 언어 처리 분야의 연구 발전에 많은 기여를 하였고,
저희도 이점에 대해 매우 감사하게 생각하고 있으며 유용하게 활용하고 있습니다.



한 가지 아쉬운 부분은 세종 말뭉치는 상당한 오류를 포함하고 있지만 이 오류들을 수정한 개정판이 나오고 있지 않아,
연구자마다 매번 이 오류를 수정하는 데 중복적으로 노력을 기울이고 있다는 것입니다.



과제가 이미 종료되었고 국립 국어원에서 결과물을 지속적으로 유지 관리하는 것이 예산이나 인력 등 여러 측면에서 쉽지 않을 것이라는 점은 이해합니다.



그래서 저희는 이번에 2017 한글 및 한국어 정보처리 학술대회에서 이러한 오류를 지속적으로 개선해 나가기 위한 방법을 제안하였습니다.
아래 링크의 한글날 학회 프로그램의 P13 “공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법” 논문이 그것이며, 첨부 파일로도 업로드 해 두었습니다.

- https://sites.google.com/view/hclt2017/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8

요약한 논문과 저희가 추진하려는 방향에 대한 자세한 내용 또한 첨부하였으니 참고하시기 바랍니다.



저희의 이러한 취지와 방향을 자연어 처리를 연구하시는 몇 분 교수님께 의견을 여쭤 보았고 지지해 주신다는 답변을 받았습니다.



그래서 국립 국어원에서 저희의 이러한 공개를 허락해 준다면 여러 연구자들과 함께 지속적으로 개선해 나가려고 합니다. 이에 대한 국립 국어원의 긍정적인 답변을 기다리겠습니다.



감사합니다.
붙임자료 munjong.zip
답변
질의응답 상세조회화면
답변자 관리자 답변날짜 2017-11-08
답변내용 안녕하세요

언어정보나눔터 관리자입니다.

우선 답변이 늦어져 대단히 죄송합니다.

말씀하신 오류를 수정한 말뭉치 배포에 대한 답변 드립니다.

국어원에서도 세종 계획 말뭉치에 대한 모든 저작권을 가지고 있는 것이 아닙니다.

따라서 국어원에서 배포한 말뭉치를 재배포할 시 저작권 문제가 발생하게 됩니다.

내부에서 논의한 결과, 안타깝지만 저작권 문제로 인해 재배포는 불가능한 것으로 결론이 났습니다.

원하시는 답변을 드리지 못해 죄송합니다.

감사합니다.
윗글 아랫글
인코드 전환 문제
아랫 글 말뭉치 검색