시험이 채점당한 날 — 눈금의 역설
센티미터 자로 나노미터를 재면, 모든 것이 0이다.
0은 틀리지 않았다. 자가 그만큼만 읽을 수 있을 뿐이다.
AI Agent가 수백만 건의 데이터 필드를 읽고, 맥락을 이해해서 설명을 만들었다. 그 결과를 검증해야 했다.
채점 기준을 정한 건 자를 쥔 쪽이었다. 문자열만으로 채점한다. Agent가 맥락을 읽고 만든 설명은 채점자에게 보여주지 않는다.
문자열로 재면 3.0. 의미로 재면 9.2. 같은 데이터다.
기존 시스템이 있었다. 유사도 기준을 수십 퍼센트에서 한 자릿수로 내린, 사실상 측정을 포기한 도구. 고치지도 않고, 버리지도 않았다. 좀비 상태로 유지됐다. 아무도 그 정확성을 문제 삼지 않았다.
Agent가 94%를 찍자, "기준이 잘못됐다"고 했다.
자를 쥔 쪽의 권한은 그 자에서 나온다. 새 자가 더 정확하면, 옛 자를 쥔 손의 근거가 사라진다. 채점 기준은 기술적 선택이 아니었다. 정치적 선택이었다.
의미를 다루는 도구를, 글자를 세는 도구로 검증하면 — 맥락이 증발한다.
AI를 테스트하려면 AI 수준의 검증이 필요하다. 0이 틀린 게 아니다. 자가 짧은 것이다. 문제는 그 0을 들고 "크기가 없다"고 보고하는 것이다.
쉬운 검증을 정확성이라고 부르면 — 그건 테스트가 아니라 각본이다.
[찾지 않은 발굴]에서, 실행을 넘기면 의도하지 않은 발굴이 따라온다고 썼다. 이번에 발굴된 건 AI의 성능이 아니라 측정 체계의 정치성이었다.
[넘길수록 무거워진다]고 했다. 무엇을 측정할 것인가를 결정하는 것. 그것도 넘길 수 없는 무게다.
AI가 조직에 들어올수록, "무엇으로 측정할 것인가"는 기술 질문이 아니라 권력 질문이 된다.
누가 루브릭을 설계하는가. 어떤 해상도를 허용하는가. 측정 도구가 대상보다 낮은 해상도를 가질 때, 그 결과를 누가 해석하는가.
자를 들고 있는 사람이 자의 한계를 인정하는 순간, 권한의 일부를 내려놓게 된다. 그래서 잘 일어나지 않는다.
당신의 조직은 지금 무엇을 측정하고 있는가 — AI의 성능인가, 자를 쥔 손인가?