세타원 AI, 유럽 최대 AI 학회 EACL 2026에서 코드 스위칭 음성인식 논문 발표
세타원 AI가 유럽 최대 자연어처리(NLP) 학회인 **EACL 2026 (European Chapter of the Association for Computational Linguistics)**에서 한국어-영어 코드 스위칭 음성인식 연구 논문을 발표하였습니다.
이번에 발표된 논문은 **HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition**으로, 한국어와 영어가 혼용되는 음성을 AI가 얼마나 정확하게 인식하는지 체계적으로 평가할 수 있는 세계 최초의 한-영 코드 스위칭 음성인식 평가 프레임워크를 제안한 연구입니다.
IT, 의료, 교육 등 다양한 분야에서 한국어와 영어를 섞어 사용하는 것은 이미 일상이 되었습니다. "오늘 meeting에서 issue 공유해 주세요"와 같은 발화는 직장인이라면 누구나 익숙한 표현이죠. 그러나 Whisper를 비롯한 최신 다국어 음성인식 모델조차도 이러한 코드 스위칭 환경에서는 단일 언어 대비 최대 14배 높은 오류율을 보이는 것으로 나타났습니다. 그동안 이 문제를 객관적으로 측정하고 비교할 수 있는 기준이 없었던 만큼, HiKE의 등장은 관련 연구 커뮤니티에 중요한 이정표가 됩니다.
HiKE(Hierarchical Korean-English Code-Switching Benchmark)는 단어(word), 구(phrase), 문장(sentence) 단위의 3단계 계층적 분류 체계를 통해 음성인식 모델의 코드 스위칭 처리 능력을 정밀하게 평가하며, 실제 코드 스위칭이 빈번한 8개 주제에서 수집한 자연 발화 기반 데이터셋을 함께 제공합니다. 연구진은 이를 통해 주요 다국어 ASR 모델들의 코드 스위칭 성능 한계를 실증적으로 규명하고, 합성 데이터 기반 파인튜닝으로 성능 개선이 가능함을 입증하였습니다.

EACL 2026 현장에서 HiKE 논문은 국내외 자연어처리 연구자들로부터 높은 평가를 받았습니다. 특히, 단어·구·문장 단위의 계층적 평가 체계가 코드 스위칭의 다양한 양상을 정밀하게 포착할 수 있다는 점과, 한국어 문맥에서의 영어 외래어(loanword)를 별도로 라벨링하여 순수한 코드 스위칭과 구분한 세밀한 설계가 연구자들의 큰 관심을 끌었습니다. 코드 스위칭 음성인식 연구에서 외래어 처리 문제는 오랫동안 간과되어 온 영역인데, HiKE가 이를 체계적으로 다룸으로써 보다 정확한 성능 평가가 가능해졌다는 점에서 실질적인 연구 기여로 평가받고 있습니다.
이러한 관심은 수치로도 확인됩니다. HiKE 데이터셋은 Hugging Face와 GitHub를 통해 공개된 이후 6개월 만에 700회 이상의 다운로드를 기록하며 전 세계 연구자들에게 활발히 활용되고 있습니다. 한-영 코드 스위칭이라는 특수한 영역임에도 이처럼 높은 관심을 받고 있다는 것은, 그만큼 코드 스위칭 음성인식에 대한 연구 수요가 크고, HiKE가 이 분야의 공백을 정확히 메우고 있음을 보여줍니다.
지난 ACL 2025에서의 멀티모달 AI 연구 발표에 이어, 이번 EACL 2026에서의 HiKE 논문 발표까지 세타원 AI는 국제 무대에서 꾸준히 연구 성과를 알리고 있습니다. 세타원은 AI 기술로 교육과 소통의 문제를 해결하는 스타트업으로, 음성인식과 멀티모달 AI 분야에서의 연구 역량을 바탕으로 Langflix 등 AI 기반 영어 교육 서비스를 개발·운영하고 있습니다. 또한, HiKE 연구로 축적된 코드 스위칭 음성인식 기술력을 바탕으로 코드 스위칭 특화 음성인식(CS-ASR) API를 세타원 AI 플랫폼을 통해 제공하고 있으며, 아동 음성인식, 영어 발음 평가 등 교육 현장에 특화된 음성 AI 솔루션을 함께 서비스하고 있습니다.
논문: HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition 저자: Gio Paik, Yongbeom Kim, Soungmin Lee, Sangmin Ahn, Chanwoo Kim 학회: Findings of EACL 2026 데이터셋: Hugging Face | GitHub
