tech

찾지 않은 발굴 — 해상도의 역전

붓으로는 세지 못한다 — 발굴의 해상도
2018년, 과테말라 북부 밀림. 고고학자들이 수십 년간 붓으로 드러낸 마야 유적지 위로, 항공기 한 대가 라이다(LiDAR) 스캐너를 쏘았다. 정글 캐노피를 투과한 레이저가 돌아왔을 때, 지표면 아래에는 6만 채 이상의 건축물이 숨어 있었다.
붓이 틀린 게 아니었다. 붓이 닿는 범위가 문제였다.

어느 대기업에 이런 문제가 있었다.
전사 시스템 전체에 흩어진 데이터 필드를 공통 표준에 매핑하는 작업. "이 필드는 고객번호인가, 주문일자인가, 아무것도 아닌가." 규모는 수백만 건.
원래는 자동화가 있었다. 필드와 표준 사이의 유사도를 측정하는 시스템이 일정 수준 이상만 매핑했다. 하지만 경영진이 전사 데이터 표준화를 선언하면서, 사실상 모든 필드가 검토 대상이 됐다. 유사도 기준을 극단적으로 낮춘 것이다.
왜 이렇게까지 해야 했는가. 상당수 시스템이 필드 설명을 관리하고 있지 않았다. 설명이 비어 있거나, 필드명을 그대로 복사한 수준이거나, 아예 a1, a2 같은 이름뿐이었다. 유사도 기준이 문제였는지, 설명 자체가 없어서 측정이 무의미했던 건지 — 원인은 총체적이었다.
그래서 사람이 한 건씩 볼 수밖에 없었다. 수십 명이 시스템 하나씩 열고, 필드 하나씩 보면서 판정했다.
한편, 다른 프로젝트가 있었다. AI Agent가 전사 필드에 설명(Description)을 생성하는 작업이다. 관리되지 않은 채 방치된 필드들에 대해, 회사의 데이터 표준을 따르면서 LLM의 맥락 이해력을 활용해 설명을 붙이는 것. 목적은 표준 매핑이 아니었다. 작업 효율화이자, 전사 데이터 관리에 대한 행동 촉구였다.
그런데 Agent가 표준을 따라 설명을 생성하고, 그 결과를 검증하는 과정에서 — 매핑이 부산물로 나타났다.

그 부산물을 분해하면 세 층위다.
- 대부분 — 사람이 만든 규칙으로 이미 매핑된 것. 발굴이 아니라 배선이다.
- 일부 — Agent가 독립적으로 판단했는데, 사람과 같은 결론.
- 나머지 수십만 건 — Agent만 찾은 것. 사람은 하지 않은 매핑.

세 번째 층위를 열었다.
대부분은 기존 표준 밖이었다. 체계로 이름 붙일 수 없는 필드들. 여기까지는 "커버리지 밖"이라고 닫을 수 있었다.
그런데 그 안에서 패턴이 나타났다.
"삭제여부" — 수천 건. "사용여부" — 수천 건. "Status" — 수천 건.
전사 시스템에 걸쳐, 같은 개념이, 같은 이름으로, 반복되고 있었다.
공식 표준에는 없는 개념이다. 아무도 정의하지 않았지만 전사가 이미 쓰고 있었다. 다음 번 공통 언어 후보.
Agent는 이것을 찾으려 한 적이 없다. 설명을 쓰고, 표준에 맞는지 검증하다 보니 드러난 것이다.

라이다가 정글 아래 도시를 발견한 것과 같은 구조다. 라이다도 도시를 찾으려고 쏜 게 아니었다. 지형을 스캔하다 나타난 것이다.
붓으로 발굴하는 사람은 자기 구획에서 토기 하나를 세심하게 드러낸다. 문양을 읽고, 시대를 추정하고, 의미를 부여한다. 이 작업은 대체 불가능하다.
하지만 "같은 양식의 토기가 이 대륙에 수천 개 있다"는 사실은, 붓으로는 알 수 없다.
사람 프로젝트에서도 새로운 표준 후보를 발견하기는 했다. 대단한 일이다. 하지만 그 발견은 눈이 닿은 시스템 안에 갇혀 있었다. "이 패턴이 전사에서 얼마나 반복되는가"는 물을 수 없었다.
Agent는 수 분 만에 물었다. 그리고 답을 가져왔다.

해상도가 다르다.
같은 유적지를 두 가지 도구로 본 것이다. 하나는 한 점씩 정밀하게, 하나는 전체를 한 번에. 정확도의 문제가 아니다. 볼 수 있는 것의 범위가 다른 것이다.
[넘길수록 무거워진다]에서 "실행을 넘기고 판단을 남겨라"를 말했다. 이번은 그 철학의 실증이다.
Agent에게 넘긴 건 발굴이 아니었다. 설명을 쓰라는 실행이었다. 그런데 실행을 넘겼더니, 의도하지 않은 발굴까지 따라왔다. 사람에게 남은 건 "전사에서 수천 번 반복되는 이 개념을 공식 표준으로 만들 것인가"라는 판단이었다. 전사 규모의 근거 위에서 내리는 판단. 발굴에 묻혀 있었을 때보다 해상도가 높다.
사람이 발굴과 판단을 동시에 하면, 발굴 범위가 눈이 닿는 곳으로 제한된다. 판단의 재료가 줄어든다.
[코드가 완성된 날, 아무 일도 일어나지 않았다]에서 AI(펌프)는 조직 인프라(파이프) 없이 무력하다고 했다. 이번엔 반대 방향이다. 파이프(전사 표준 체계)가 이미 있었기 때문에, 펌프(Agent)의 출력이 소음이 아니라 발견이 됐다.

고고학에는 오래된 논쟁이 있다. 기술이 발굴을 대체할 것인가.
대체하지 않았다. 라이다가 도시를 찾은 뒤에도, 사람이 현장에 가서 의미를 읽었다.
하지만 어디를 팔 것인지는 완전히 달라졌다.

당신의 조직은 지금 어떤 해상도로 발굴하고 있는가 — 붓인가, 라이다인가?

찾지 않은 발굴 — 해상도의 역전

Read more

파장은 같아 보여도 - 무대에 새 배우가 섰다

흔들리지 않으면 떨어진다 - 줄 위의 두 사람

물 앞의 갈증 — 수문의 역설

시험이 채점당한 날 — 눈금의 역설