2013년 제록스(Xerox) 복사기 회사에 이상한 현상이 발견되었다. 각각 14.13, 21.11, 17.42 제곱 미터의 방이 있는 집에 대한 평면도를 복사했더니, 14.13 제곱 미터 방이 세 개 있는 집이 되는 것이다.
조사해보니 복사기는 문서를 스캔한 후 JBIG2라는 손실 압축(lossy compression)된 이미지 파일을 인쇄하는데, 그 과정에서 정보의 일부가 손실되었던 것이다.
원본과 손실 압축 |
테드 창은 초거대 언어모델인 ChatGPT 역시 이러한 손실 압축의 원리로 설명한다. 사람들이 작성한 방대한 양의 텍스트를 바탕으로 학습되어, 압축된 정보를 생성하는 모델인 것이다.
웹에 존재하는 모든 글을 훨씬 적은 용량으로 압축하는 용도로는 적합할 지 모르지만, 웹이 계속 존재하는 한 출처를 추적할 수도 없는 압축본이 원본을 대체할 수는 없다. ChatGPT의 한계는 그것이 생성하는 문장이 손실 압축된 복사본이라는 점이며, 요약과 같은 용도를 제외한다면 원본만큼의 가치를 가질 수 없다는 것이다.
테드 창은 좋아하지 않을 것 같지만, 그의 통찰력 있는 칼럼을 세 문장으로 손실 압축하자면 다음과 같다.
1. ChatGPT는 원본 복원이 불가능한 손실 압축 알고리즘에 기반해 있기 때문에 태생적 한계를 지닌다.
2. 현재 ChatGPT가 생성하는 수많은 데이터는 다음 세대 GPT 모델을 학습시킬 때 필시 제외될 것이며, 그것은 아직 결과물의 수준이 원본에 미치지 못했다는 사실의 반증으로 볼 수 있다.
3. ChatGPT는 방대한 원본을 압축한 문장을 생성할 뿐이며, 독창적인 원본(original)을 생성할 수 없다.
테드 창의 칼럼 원본(original)은 2월 9일 THE NEWYORKER에 기고되었으며, 다음 링크에서 확인할 수 있다.
0 댓글