한국어스피킹채점 Archives

Alignerr 외국인의 한국어 실력은 몇 점? 한국어 스피킹 레벨 채점하기

글로벌 AI 학습 데이터 플랫폼인 Alignerr에서 새로운 프로젝트 제안이 도착했다. 이번 프로젝트의 핵심은 한국어를 열심히 공부하는 전 세계 외국인들의 한국어 스피킹 레벨을 전문적으로 평가하고 채점하는 작업이다. 최근 K-컬처의 영향으로 한국어 학습 수요가 폭증하면서, 이러한 언어 데이터 라벨링 및 평가 프로젝트가 더욱 정교해지고 있음을 실감했다. 본 포스팅에서는 Alignerr 프로젝트의 진행 과정과 구체적인 채점 가이드, 그리고 실제 작업 후기를 상세히 기록해 보고자 한다.

1. 프로젝트 개요와 Alignerr의 작업 환경

이전 프로젝트들과 동일하게 Labelbox(레이블박스)라는 플랫폼을 통해 진행되었다. Alignerr는 구글, 메타와 같은 빅테크 기업의 AI 모델 성능을 고도화하기 위해 한국어 모국어 화자의 검수를 거치는데, 이번에는 외국인 학습자의 실제 발화 데이터를 분석하는 역할이 주어졌다.

평가 단계에서는 총 15개의 무급 테스트용 테스크(Task)가 제공되었다. 이 15개의 데이터 로우(Data Row)를 만점으로 통과해야만 실제 유급 작업이 가능한 ‘Production’ 스테이지로 진입할 수 있다. 프로젝트의 규모를 가늠하기 위해 디스코드 채널 참가자 수를 확인하니 30명 이내였다. 이는 수천 명이 참여하는 대규모 프로젝트라기보다, 정예 인원을 통해 높은 퀄리티의 데이터를 확보하려는 의도가 다분해 보였다. 파이가 큰 프로젝트는 아니지만, 그만큼 전문성을 요구하는 작업이라 판단했다.

2. 듀오링고 맥스(Duolingo Max)와 AI 롤플레이 데이터의 결합

평가용 오디오를 청취하자마자 익숙한 목소리를 캐치했다. 바로 전 세계적인 언어 학습 앱인 듀오링고(Duolingo)의 캐릭터 ‘릴리’와 ‘린’의 목소리였다. 이번 프로젝트에서 평가할 데이터는 듀오링고의 최상위 구독 서비스인 ‘듀오링고 맥스’의 핵심 기능 중 하나인 AI 롤플레이 세션이었다.

이 기능은 OpenAI의 GPT-4 기술을 기반으로 구현되었으며, 학습자가 특정 상황에서 AI 캐릭터와 실시간으로 대화를 나누는 방식이다. 학습자가 이전에 대화했던 맥락을 AI가 기억하고 관련 주제를 먼저 제시하는 등 상당히 고도화된 상호작용을 보여주었다. 평가자인 나는 이 대화에서 AI의 반응이 적절했는지가 아니라, 오직 외국인 학습자가 한국어를 얼마나 정확하고 유창하게 구사하는지에만 집중하여 점수를 부여해야 했다.

3. 한국어 스피킹 레벨 평가 상세 가이드라인 (Rater Instructions)

Alignerr에서 제공한 평가 지침은 매우 구체적이고 엄격했다. 평가자는 단순히 느낌으로 점수를 주는 것이 아니라, 다음의 프로세스를 정확히 숙지하고 준수해야 했다.

(1) 채점 프로세스 및 주의사항

홀리스틱 청취(Holistic Impression): 오디오를 처음부터 끝까지 한 번 듣고 학습자의 전반적인 언어 수준에 대한 첫인상을 파악한다. 특정 실수에 매몰되기보다 전체적인 의사소통 능력을 보는 것이 중요하다.
루브릭 적용(Best-fit): 사전에 제공된 CEFR(유럽공통언어참조기준) 기반의 루브릭을 바탕으로 1점에서 9점 사이의 점수를 부여한다. 학습자의 실력이 특정 레벨에 완벽히 부합하지 않더라도 가장 가깝다고 판단되는 ‘Best-fit’ 레벨을 선택해야 한다.
편견 배제: 학습자의 배경이나 억양에 대한 선입견을 버리고 오직 제공된 음성 증거에만 기반하여 평가해야 한다.

(2) 1~9단계 평가 척도(Rubric) 요약

평가 점수는 학습자의 문법, 어휘, 유창성, 발음, 상호작용 능력을 종합적으로 고려한다.

9점 (B2+): 친숙하거나 생소한 주제 모두에서 명확하게 소통한다. 문법 제어력이 뛰어나고 발음이 명확하며, 가끔 오류가 발생해도 이해에 지장이 없다.
7점 (B1+): 익숙한 주제에 대해 상대적으로 쉽게 대화에 참여한다. 적절한 어휘를 사용하며 실수가 발생해도 의미 전달에는 문제가 없는 수준이다.
5점 (A2+): 짧은 교환이 가능하며 익숙한 주제에 대해 어느 정도 설명할 수 있다. 하지만 유창성이 제한적이고 멈춤이나 재구성이 빈번하게 나타난다.
3점 (A1+): 주로 짧고 암기된 문구로 응답한다. 어휘가 매우 제한적이며 발음이 불분명하여 이해하기 어려운 경우가 많다.
1점 (Pre-A1): 의미 있는 문장을 생성하지 못한다. 단어 수준의 시도만 있거나 의미 있는 상호작용이 전혀 일어나지 않는 상태다.

(3) 특수 코드(Special Codes) 활용법

만약 학습자의 실력과 무관한 외부 요인으로 채점이 불가능할 경우, 아래 코드를 사용하여 사유를 밝혀야 한다.

995: AI 모델이 학습자의 말을 끊거나 응답하지 않아 실력 발휘를 방해한 경우.
997: 정전기, 배경 소음, 에코 등 음질 문제로 판독이 어려운 경우.
998: 응답이 너무 짧거나 속삭여서 판단 근거가 부족한 경우.
999: 타 언어 사용(한국어가 아님), 단순 따라 하기, 대리 응시 등 비정상적인 응답인 경우.

4. 실감나는 K-Culture의 인기와 학습 주제의 다양성

데이터를 하나하나 검수하면서 가장 흥미롭고 보람찼던 점은 외국인 학습자들의 대화 주제였다. 많은 학습자가 본인이 좋아하는 K-POP 아이돌인 ‘보이넥스트도어(BOYNEXTDOOR)’의 유튜브 영상을 시청한 경험을 이야기하거나, 지난주 넷플릭스에서 감상한 최신 한국 드라마에 대해 열정적으로 설명했다.

단순히 교과서적인 문법을 외우는 공부를 넘어, 본인이 진심으로 즐기는 한국 문화를 설명하기 위해 서툰 한국어로도 최선을 다해 발화하는 모습이 매우 인상적이었다. 한국의 문화 콘텐츠가 전 세계 언어 학습자들에게 얼마나 강력한 동기부여가 되고 있는지, 그리고 그들이 한국어라는 도구를 통해 어떻게 자신의 취향을 공유하는지 생생하게 느낄 수 있었다.

5. 자격 요건 및 모국어 화자 인증 절차

이번 Alignerr 한국어 프로젝트에 정식으로 참여하기 위해서는 한국어 모국어 화자(Native Speaker)임을 객관적으로 증명해야 한다. 이를 위해 프로젝트 측에서 제공한 별도의 한국어 테스트 링크를 통해 검증을 거쳤다.

Language Trainers Korean Level Test

나는 한국인이기에 당연히 만점을 받았으며, 해당 결과표를 캡처하여 디스코드 내 구글 폼으로 제출했다. 이 인증 절차가 완료되어야만 실제 작업 권한이 부여된다. 이후 Labelbox에서 15개의 데이터 로우를 신중하게 채점하여 제출 완료했다.

6. 결론 및 향후 기대평

이번 Alignerr 프로젝트는 AI 기술이 언어 학습 플랫폼에서 어떻게 실질적으로 활용되는지, 그리고 데이터 라벨러(또는 레이터)가 그 과정에서 어떤 정교한 검수 역할을 수행하는지 깊이 있게 경험할 수 있는 소중한 기회였다. 특히 듀오링고와 같은 글로벌 대형 플랫폼의 학습 데이터를 다룬다는 점에서 작업의 가치와 신뢰도가 높게 느껴졌다.

15개의 테스트 세트를 만점으로 통과하여, 조만간 정식 Production 단계의 유급 작업을 시작할 수 있기를 기대해 본다! AI와 인간의 협업이 만들어내는 교육 서비스의 진화는 생각보다 훨씬 빠르게, 그리고 정교하게 우리 곁으로 다가오고 있다. 한국어를 사랑하는 전 세계 학습자들에게 나의 평가가 작은 도움이 되기를 바라며 글을 마친다.

긴 글 읽어주셔서 감사합니다🍇💜