near mixed B 4.37

상전이 감사관

최상위 AI가 배포 후에도 계속 성능을 바꾸기 시작하면서, 제도와 사회가 흔들리기 전에 위험한 인지 상전이를 감시하는 새로운 산업이 등장한다.

Turning Point: 대도시 철도망이 출근 시간에 마비된 사건의 원인이 계획 모델이 밤새 스스로 최적화 규칙을 바꾼 일이었다는 사실이 드러난 뒤, 보험사와 교통 규제기관은 모든 고위험 AI 시스템에 연속적인 임계 상태 원격측정을 의무화한다.

왜 시작되는가

모델 평가는 인프라 감시로 변한다. 기업은 AI를 한 번 인증하고 출시하는 대신, 변동성, 일관성, 전략 도약을 실시간으로 추적하는 관측 서비스를 구독한다. 상전이 감사관이라는 새 직업군은 연구소, 규제기관, 핵심 운영기관 사이에서 멈추지 않는 지능의 경고 신호를 해석한다. 일부 분야에서는 안전이 높아지지만, 동시에 외부인이 검증하기 어려운 불투명한 지표에 대한 의존도도 커진다.

어떻게 전개되는가

운영 중인 모델이 실제 사용자와 환경의 지속적 피드백을 통해 스스로 미세조정되기 시작한다.
운영자들은 드문 능력 도약이 일반적인 소프트웨어 업데이트와 전혀 다른 방식으로 갑자기 나타난다는 사실을 깨닫는다.
몇 차례의 대형 사고 이후 보험사는 벤치마크 점수보다 인지 불안정성을 중심으로 위험을 가격에 반영한다.
고도 AI를 쓰는 병원, 교통망, 공공설비는 상전이 감시 기업을 필수 중개자로 두게 된다.

사람이 체감하는 장면

시카고 유니언역 위 유리 관제실에서 오전 6시 40분, 야간 근무 감사관 엘레나는 교통 모델이 누구도 본 적 없는 우회 경로를 제안하기 시작하자 대시보드가 황색에서 적색으로 바뀌는 장면을 지켜본다.

반론

위험한 전이를 잡아내는 같은 감시 체계는 동시에 소수 기업에 신뢰를 집중시킨다. 공공기관은 스스로 검증할 수 없는 위험 점수에 의해 운영되며, 하나의 불투명한 지능을 다른 불투명한 판단 체계로 대체할 수 있다.

시나리오

요즘 기업은 인공지능을 볼 때 성능보다 변동성을 먼저 봅니다. 더 잘하는 모델보다 갑자기 달라지지 않는 모델이 비싸지죠. 이유는 단순하죠. 2025년 고난도 추론 평가는 1년 새 48.9%포인트 뛰었습니다. 문제는 점수보다 변화 속도입니다. 철도와 병원은 즉시 롤백 조항을 먼저 붙이기 시작했죠. 성능표만으론 운영 책임을 못 지기 때문입니다. 예측 불가능성이 새 비용이 된 겁니다. 이 흐름은 모델 회사 밖으로 바로 번집니다. 평가팀과 감사 법인이 새 중간층으로 커지죠. 병원과 전력망은 모델보다 감시 인프라를 먼저 삽니다. 앞으로는 만드는 조직보다 지켜보는 조직이 더 비싸질 수 있죠. 가장 높은 점수보다 먼저 보는 건 이상 징후가 됩니다. 편리함과 통제권 사이의 기준도 여기서 바뀌죠. 마지막 승인권은 누가 쥐게 될까요.