AI가 만든 문장은 누구의 것인가?

1. 낡은 판자와 새로운 문장 사이의 질문

우리는 오랫동안 창작을 인간 고유의 영역이라고 믿어 왔다. 글을 쓰고, 그림을 그리고, 음악을 만드는 행위는 인간의 경험과 감정, 기억이 응축된 결과라고 여겨졌기 때문이다. 하지만 고대 그리스의 '테세우스의 배' 역설처럼, 모든 판자가 교체된 배를 여전히 같은 배라고 부를 수 있는지에 대한 의문이 디지털 시대에 부활했다. 생성형 인공지능이 수 초 만에 만들어 내는 문장 앞에서 우리는 묻게 된다. “이 글은 과연 누구의 '원본'인가?”

2. 데이터로 이루어진 세계에서 태어나는 문장들

생성형 AI는 아무것도 없는 무(無)의 상태에서 결과물을 만들어 내지 않는다. 인터넷에 축적된 방대한 기록, 즉 인류가 남긴 데이터의 흐름 속에서 패턴을 학습한다. 이 과정은 단순한 복사가 아니다. 입력된 정보를 토큰(Token) 단위로 분절하고, 문장과 의미 사이의 거리를 계산하며, 다음에 올 단어를 통계적 확률로 예측하는 과정이다.

인간의 사고 역시 이와 닮아 있다. 우리는 책을 읽고 경험을 축적하며 기억 속에서 정보를 재배열해 새로운 생각을 만든다. 차이가 있다면 단지 속도와 규모일 뿐이다. AI는 수조 개의 파라미터(Parameter)*라는 지능의 세포를 통해 인간보다 훨씬 넓은 정보 범위에서 이러한 재조합을 수행한다.

3. 창작의 기준은 ‘출처’가 아니라 ‘맥락’이 될 수 있을까

디지털 시대의 저작권 논쟁은 바로 이 지점에서 발생한다. 최근 뉴욕타임스(NYT)와 오픈AI 사이의 법적 공방에서 보여지듯, 누군가의 글이 학습 데이터로 활용되었다면 그 결과물 역시 원저작자의 권리를 포함해야 하는가가 쟁점이다.

하지만 모든 창작이 과거의 영향에서 완전히 자유로울 수 있는가? 문학은 이전 문학의 토양 위에서 피어났고, 과학 역시 거인의 어깨 위에서 발전했다. 생성형 AI가 생성한 문장과 원본 데이터 사이의 코사인 유사도(Cosine Similarity)**가 충분히 낮다면, 즉 수학적으로 새로운 맥락이 형성되었다면 우리는 그것을 독립적인 창작물로 보아야 할지도 모른다. 창작의 본질은 “누가 재료를 제공했는가”가 아니라 “어떤 새로운 의미가 만들어졌는가”로 옮겨가고 있다.

4. 속도의 혁명이 만들어낸 창의성의 재정의

지금 우리가 경험하는 변화의 핵심은 기술 자체보다 변화의 속도에 있다. 과거에는 새로운 사상이 등장하기까지 수십 년의 시간이 필요했지만, 이제는 고차원 벡터 공간(Vector Space) 내에서 단 몇 초 만에 수많은 아이디어의 조합이 생성된다.

이처럼 창작의 과정이 극도로 압축되면서, 인간은 결과물의 출처보다 그 결과물이 사회에 미치는 영향과 가치에 더 주목하기 시작한다. 결국 창의성이란 완전히 새로운 재료의 발명이 아니라, 기존 요소들 사이에서 이전에 없던 연결을 만들어 내는 능력일지도 모른다. AI는 그 연결의 속도를 무한대로 확장하는 촉매제인 셈이다.

5. 새로운 시대의 항해를 위하여

생성형 AI는 인간의 사고 구조를 비추는 거울이다. 우리는 이 기술을 통해 기억과 학습, 모방과 창조 사이의 경계가 생각보다 유동적이라는 사실을 깨닫는다. 이제 인간은 아이디어의 유일한 생산자가 아니라, 기술과 협력하여 의미를 길어 올리는 공동 창작자의 역할을 부여받았다.

AI가 만들어 낸 문장은 과거의 흔적 위에 세워진 미래의 가능성이다. 테세우스의 배가 판자를 갈아 끼우며 항해를 이어가듯, 우리 역시 기술이라는 판자를 덧대어 지성의 지평을 넓혀가고 있다. 기술은 스스로 방향을 결정하지 않는다. 항해의 목적지를 정하는 것은 언제나 그 배에 올라탄 사람들이다.

* [참고]

파라미터 (Parameter): AI의 '지능'을 결정하는 세포

파라미터는 인공신경망 내에서 데이터 간의 관계를 정의하는 '매개변수' 또는 **'가중치(Weight)'**를 의미한다. 인간의 뇌로 비유하자면 시냅스(신경세포 간의 연결 강도)와 유사한 역할을 한다.

학습의 결과물: AI가 방대한 데이터를 학습한다는 것은, 특정 단어와 단어 사이의 상관관계를 나타내는 이 수조 개의 파라미터 값을 최적화하는 과정이다.
지능의 척도: 파라미터 숫자가 많을수록 AI는 더 복잡하고 미묘한 언어적 맥락을 파악할 수 있다. 예를 들어, GPT-3는 약 1,750억 개의 파라미터를 가지고 있으며, 최신 모델들은 이를 훨씬 상회한다.
텍스트 생성: 우리가 질문을 던지면 AI는 이 수조 개의 가중치를 통과시키며 계산을 수행하고, 그 결과로 가장 적절한 다음 단어를 내놓는다.

* *[참고]

코사인 유사도 (Cosine Similarity): '비슷함'을 측정하는 수학적 잣대

코사인 유사도는 두 텍스트(또는 데이터)가 얼마나 유사한지를 측정하는 대표적인 알고리즘이다. AI는 단어를 단순한 글자가 아니라 고차원 공간상의 **화살표(벡터, Vector)**로 인식한다.

방향의 일치성: 두 벡터(화살표) 사이의 각도를 측정하여 유사도를 구한다.
- 두 화살표의 방향이 완전히 일치하면(0도) 유사도는 1이다.
- 두 화살표가 직각(90도)을 이루면 유사도는 0이며, 관련이 없음을 뜻한다.
표현의 유연성: 단순한 단어 매칭과 달리, 코사인 유사도는 문맥적 의미를 파악한다. 예를 들어 '사과'와 '포도'는 글자는 다르지만 '과일'이라는 벡터 공간 내에서 서로 가까운 각도에 위치하므로 유사도가 높게 측정된다.

저작자표시 비영리 변경금지 (새창열림)

ethics-lab-1 님의 블로그