AI 평가의 과오와 한계 드러나
경기도 학교에서 시범운영된 인공지능(AI) 서·논술형 평가 도구가 구체적인 표현을 정의하지 않거나 수치화된 기준이 부족할 경우, 과대·과소평가 문제 발생으로 나타났다. AI는 백지 답안에 점수를 주거나 과제 조건 사용하지 않았음에도 높은 점수를 주는 등 오류를 보였다. 또한, 간결하게 쓴 답변을 낮게 평가하거나 새로운 대안 제시에도 인정하지 않는 경우도 발견되었다.
교사의 역할 강화 필요성 대두
교사들은 AI 채점 도구의 정확도를 높이기 위해 수치적 기준으로 표현을 구체화하고, 예시와 함께 설명하는 것이 중요하다고 지적했다. '설명하다', '제안한다' 등 추상적인 표현보다는 '개념을 정의하고 원리·이유를 구체적 사례와 함께 서술하다' 와 같이 명확한 기준을 제시해야 한다는 의견이다. 교사들의 평가 전문성 강화가 AI 채점 도구 신뢰도 향상에 중요하다는 분석이 나왔다.
'AI, 업무 부담 감소? 아직은...'
현재 AI 채점 도구의 수준으로는 교사 업무 경감에 큰 도움이 되지 않는 것으로 조사되었다. 시간 부족과 필요성을 느끼지 못한다는 반응이 뚜렷했으며, 평가 기준 설계 및 결과 검토 등에 많은 노력이 요구되기 때문이다. 따라서 AI 채점 도구의 안정적인 도입을 위해서는 교사 전문성 강화를 위한 연수 프로그램 확대가 필요하다.
더 많은 정보는AI NOW 허브