Skip links

저작권 전문 변호사, 저작권 법률칼럼 – “생성형 AI의 학습과정에 대해 : 해외 최신판례에 대한 소견”

저작권 전문 변호사, 저작권 법률칼럼 – “생성형 AI의 학습과정에 대해 : 해외 최신판례에 대한 소견”

안녕하세요, 법무법인 제하 저작권, AI, 지식재산권, 기업법무, 스타트업 컨설팅 전문 전세준 변호사입니다.

 

오늘은 생성형 AI의 학습과정 자체가 저작권침해가 될 수 있는지에 대해서 가장 최근에 해외에서 결정된 판례들에 대해서 이야기를 하고자합니다.

 

2025년 11월은 전 세계 지식재산권(IP) 법조계와 인공지능(AI) 산업계에 있어 역사적인 분기점으로 기록될 시기인 것 같습니다.

그 이유는 불과 일주일 간격으로 영국 런던 고등법원(High Court of Justice)과 독일 뮌헨 제1지방법원(Regional Court Munich I)에서

생성형 AI(Generative AI)의 학습 과정과 모델 가중치(Model Weights)의 법적 성격에 대해 정반대에 가까운 판결이 연이어 선고되었기 때문입니다.

 

런던 고등법원의 Getty Images v. Stability AI 판결과 뮌헨 지방법원의 GEMA v. OpenAI 판결은 동일한 기술적 현상을 두고

영미법계와 대륙법계가 얼마나 다른 법리적 해석을 내릴 수 있는지를 극명하게 보여준 것 같습니다.

이러한 사법적 판단의 불일치는 국경을 초월하여 서비스를 제공하는 글로벌 AI 기업들에게는 막대한 법적 불확실성을(Legal Uncertainty),

그리고 자국의 AI 산업 육성과 창작자 권리 보호 사이에서 줄타기를 해야 하는 각국 입법자들에게는 심각한 규제 딜레마를 안겨 준 것으로 보입니다.

 

1. 2025년 11월 4일, 런던 고등법원(Chancery Division)의 조안나 스미스 판사(Mrs Justice Joanna Smith)는 게티이미지(Getty Images)가

스테이블 디퓨전(Stable Diffusion)의 개발사 스태빌리티 AI(Stability AI)를 상대로 제기한 소송에서 피고 측의 손을 들어주는 판결을 내렸습니다.

이 소송은 당초 AI 학습 단계에서의 무단 복제(1차적 침해)와 모델 배포 및 수입에 따른 2차적 침해, 그리고 상표권 침해 등을 포괄하는 광범위한 쟁점을 다룬 것으로 보입니다.

그러나 소송 진행 과정에서 게티이미지 측은 스태빌리티 AI의 학습(Training) 행위가 영국 내에서 이루어졌다는 증거를 제시하지 못했고,

결국 변론 종결 직전 1차적 저작권 침해 및 데이터베이스권 침해 주장을 자진 철회한 것으로 보입니다.

따라서 재판부는 학습이 영국 밖(주로 미국)에서 이루어졌다는 전제하에,

영국 내로 모델을 들여오거나 배포하는 행위가 2차적 침해(Secondary Infringement)를 구성하는지, 그리고 생성된 결과물이 상표권을 침해하는지에 집중하여 심리하였습니다.

 

이 판결의 가장 핵심적이고 논쟁적인 부분은 AI 모델, 즉 ‘모델 가중치(Model Weights)’의 법적 성격에 대한 판단으로 보입니다.

게티이미지는 스태빌리티 AI가 영국 내 이용자들에게 스테이블 디퓨전 모델을 배포한 행위가 영국 저작권법(CDPA)상 2차적 침해(수입, 소지, 배포)에 해당한다고 주장했습니다.

그런데 이를 위해서는 해당 모델이 ‘침해 물건(Article)’이어야 합니다.

스미스 판사는 CDPA상 ‘물건(Article)’의 개념이 반드시 유형적인 물체일 필요는 없으며, 전자적 형태의 데이터(다운로드 가능한 모델 파일 등)도 포함될 수 있다고 판시했습니다.

이는 법률이 기술 발전에 따라 유연하게 해석되어야 한다는 ‘항상 말하는 법(Always Speaking Principle)’ 원칙을 적용한 것으로 판단됩니다만,

이는 EU의 배포권(Right of Distribution)이 유형물에 한정된다는 기존 원칙과 배치될 소지가 있어, 브렉시트(Brexit) 이후 영국 독자적인 법리 형성의 신호탄으로 해석될 것 같습니다.

 

가장 중요한 판단은 모델 가중치가 원본 저작물의 ‘복제물(Copy)’이 아니라는 점입니다.

법원은 “스테이블 디퓨전 모델은 학습된 관련 저작물의 복제물을 포함하거나 저장하지 않으며, 따라서 2차적 저작권 침해의 목적상 ‘침해 복제물(Infringing Copy)’이 아니다”라고 결론지었습니다.

법원은 AI 모델이 학습 과정에서 이미지의 시각적 정보를 그대로 저장하는 것이 아니라,

데이터들 사이의 패턴과 특징(patterns and features)을 학습하여 파라미터라는 추상적인 수치로 변환한다는 스태빌리티 AI 측의 기술적 항변을 전적으로 수용한 것으로 보입니다.

 

이는 “모델 안에 복제본은 없다(There are no copies in the model)”는 AI 개발자들의 오랜 주장을 사법부가 공식적으로 인정한 최초의 사례로 평가할 수 있을 것 같습니다.

법원은 모델 가중치가 원본 이미지를 픽셀 단위로 저장하거나 압축한 파일이 아니며, 새로운 이미지를 생성하기 위한 확률적 도구에 불과하다고 보았습니다.

따라서 이용자가 모델을 다운로드하거나 클라우드에서 실행하는 행위는 저작권법상 복제물의 소지나 배포에 해당하지 않는다고 판단하였습니다.

 

이 판결은 AI 개발사, 특히 오픈소스 진영에 막대한 승리를 안겨 준 것으로 보입니다.

만약 모델 가중치 자체가 침해물로 간주되었다면,

오픈소스 모델을 호스팅하는 허깅페이스(Hugging Face)나 이를 다운로드하여 사용하는 수많은 연구자, 기업들이 잠재적 범죄자가 될 위기에 처했을 것인데,

영국 법원은 기술의 작동 원리를 깊이 파고들어, ‘학습(Learning)’과 ‘복제(Copying)’를 엄격히 구분함으로써 AI 혁신을 저해하지 않는 방향을 선택한 것으로 판단됩니다.

 

또한, 1차적 침해(학습 행위)에 대한 판단을 유보함으로써,서버의 위치에 따른 ‘규제 차익(Regulatory Arbitrage)’의 가능성을 열어두었습니다.

즉, 데이터 마이닝이 합법인 국가(미국, 일본 등)에서 학습을 수행하고,

그 결과물인 모델만을 저작권법이 엄격한 국가로 가져와 서비스하는 비즈니스 모델이 법적으로 유효할 수 있음을 시사한 것으로 보입니다.

 

2. 영국 판결의 잉크가 채 마르기도 전인 2025년 11월 11일, 독일 뮌헨 제1지방법원은 정반대의 논리로 전 세계를 놀라게 했습니다.

독일 음악저작권협회(GEMA)가 챗GPT의 개발사 OpenAI를 상대로 제기한 소송에서, 법원은 AI 모델의 학습 및 출력이 저작권을 침해한다고 판결하며 강력한 제동을 걸었습니다.

이 사건의 핵심은 챗GPT가 독일의 유명 가요 가사를 학습하고, 사용자의 요청에 따라 이를 출력하는 행위의 위법성 여부였는데,

OpenAI는 챗GPT가 특정 텍스트를 저장하는 것이 아니라 통계적 확률에 따라 단어를 조합할 뿐이라고 주장했으나, 독일 법원은 이러한 기술적 항변을 배척하고 결과 중심적인 판단을 내렸습니다.

 

재판부는 거대언어모델(LLM)이 학습 데이터를 ‘암기(Memorization)’하는 현상 자체를 저작권법상 ‘복제(Reproduction)’로 규정했습니다.

법원은 “간단한 프롬프트(Simple Prompts)만으로 원본 가사의 본질적이고 독창적인 부분을 거의 그대로 출력할 수 있다면, 이는 모델 내부에 해당 저작물이 어떤 형태로든 고정(Fixed)되어 있음을 의미한다”고 판시했습니다.

 

이는 모델의 내부 구조가 확률적 파라미터로 구성되어 있다는 기술적 사실보다는, 그 모델이 ‘무엇을 할 수 있는가(Functionality)’에 초점을 맞춘 것으로 평가할 수 있을 것 같습니다.

법원은 모델 가중치 파일 내에 가사의 텍스트 파일이 물리적으로 존재하지 않더라도,

모델이 이를 재현할 수 있는 상태라면 독일 저작권법(UrhG) 제16조 및 EU 정보사회 지침(InfoSoc Directive) 제2조에 따른 복제권 침해에 해당한다고 보았습니다.

이는 영국 법원이 ‘추상화’에 주목한 것과 달리, 독일 법원은 ‘재현 가능성’을 복제의 기준으로 삼았음을 보여준다고 할 것입니다.

 

독일 판결은 유럽 내에서 AI 기업들이 저작권자의 허락 없이 데이터를 학습하는 관행에 급제동을 걸었습니다.

‘암기=복제’라는 등식이 성립함에 따라, AI 모델이 원본과 유사한 결과물을 출력할 가능성이 있는 한, 모든 학습 데이터에 대해 라이선스를 체결해야 한다는 결론에 이르게 됩니다.

이는 GEMA와 같은 저작권 집중관리단체(CMO)의 협상력을 극대화하며, AI 기업들에게 막대한 라이선스 비용 부담을 안겨줄 것으로 예상됩니다.

 

3. 한국의 경우에는 2025년 초, 한국의 지상파 방송 3사(KBS, MBC, SBS)는 네이버를 상대로 저작권 침해 소송을 제기했는데,

방송사들은 네이버가 자신들의 뉴스 콘텐츠와 방송 대본 등을 무단으로 자사의 초거대 AI인 ‘하이퍼클로바 X(HyperCLOVA X)’의 학습에 사용했다고 주장하며, 손해배상과 학습 중단을 요구했습니다.

https://www.yna.co.kr/view/AKR20251010110900017

[출처. 연합뉴스. 2025.10.13.]

 

이 소송은 한국 법원이 생성형 AI 학습을 어떻게 바라볼지 가늠할 수 있는 최초의 사례가 될 것으로 보입니다.

네이버 측은 기존의 뉴스 전재 계약 범위 내에서의 이용 혹은 공정이용(Fair Use)을 주장할 것으로 예상되나,

방송사들은 AI 학습이 기존 계약의 범위를 넘어서는 별개의 이용 행위이며, 뉴스 콘텐츠의 잠재적 라이선스 시장을 파괴한다고 주장하고 있습니다.

 

대한민국 저작권법 제2조 제22호는 복제를 “유형물에 고정하거나 다시 제작하는 것”으로 정의하고 있는데,

영국 판결을 따른다면, 하이퍼클로바 X의 모델 파라미터는 뉴스 기사의 ‘고정’이 아닌 ‘추상적 통계 정보’로 해석될 수 있고 이는 네이버에게 유리한 논리로 사용될 것으로 보입니다.

그러나 독일 판결의 논리를 적용한다면 상황은 달라지는데, 만약 하이퍼클로바 X가 특정 뉴스 기사의 문장을 거의 그대로 출력(암기)한다면, 한국 법원은 이를 ‘실질적 유사성’이 있는 복제물로 판단할 가능성이 높습니다.

 

우리 대법원은 프로그램의 소스코드나 데이터베이스의 경우에도 그 ‘창작적 표현’이 재생산되는지를 중요하게 보기 때문에,

모델의 내부 구조보다는 ‘산출물의 유사성’이 침해 판단의 핵심 기준이 될 것으로 예상합니다.

 

4. 만약 AI 학습에 관한 명확한 기준을 마련해야 한다면, 한국에서 어떤 규정·판례 방향을 가져가야 하는지에 대해

 

저의 개인적인 의견으로는 법적 불확실성을 해소하기 위해 저작권법 개정은 불가피한 것으로 보입니다.

다만, 일본식의 전면 허용이나 독일식의 엄격한 규제가 아닌, ‘조건부 면책’이 현실적일 것으로 생각하고 있습니다.

조금 더 자세하게 이야기하면 다음과 같은 부분을 고려해 봐야 할 것입니다.

 

  1. 원칙적 허용: 적법하게 접근 가능한(Lawful Access) 저작물에 대한 AI 학습(TDM)은 저작권 침해로 보지 않음을 명시해야 한다고 생각하며, 이는 AI 기술 개발을 위한 필수 전제 조건이라 할 것입니다.
  2. 옵트아웃 존중: 단, 권리자가 기계 판독 가능한(Machine-readable) 방식(예: robots.txt, AI 학습 금지 태그)으로 거부 의사를 표시한 경우에는 학습을 제한해야 하는 것이 당연하며, 이는 권리자의 자기결정권을 보장하는 최소한의 장치라 할 것입니다. 개인적으로는 저작권자들에게 유리한 제도인 옵트인 제도를 도입하는 것이 바람직하다고 생각하지만, AI발전이 시급한 국가과제라는 점을 고려하면 한시적으로 옵트아웃으로 진행하되, 일정 시점이 되면 옵트인으로 변경할 필요가 있습니다.
  3. 확장된 집중관리(Extended Collective Licensing): 신탁관리단체(KOMCA 등)가 비회원 권리자의 저작물까지 포괄하여 AI 기업과 포괄적 이용 계약을 체결할 수 있도록 허용하는 제도를 고려할 필요가 있습니다. 이를 통해 AI 기업은 법적 리스크 없이 데이터를 대량으로 확보하고, 창작자는 사용료를 분배받을 수 있으므로 옵트아웃제도를 유지하는 동안은 위와 같은 방식이 좋은 대안이 될 것으로 사료됩니다.
  4. 특별 보상금: AI 학습이 창작자의 시장을 잠식하는 경우(예: 뉴스, 음원), 기기나 매체에 부과하는 사적복제보상금처럼 AI 서비스 매출의 일정 비율을 기금으로 조성하여 창작자에게 분배하는 방안을 고려할 필요가 있습니다.

 

결국 해법은 “학습(Input)은 자유롭게, 표현(Output)은 책임 있게, 수익(Value)은 공정하게”라는 3원칙으로 요약해드릴 수 있을 것 같습니다.

 

  1. TDM 면책을 통해 학습의 길을 열어주되(Input),
  2. 암기된 원본의 유출을 기술적으로 차단하고(Output),
  3. AI가 창출한 부가가치가 창작 생태계가 형성될 수 있는 보상 체계(Value)를 마련해야 하는 것이 바람직할 것으로 사료됩니다.

 

이러한 ‘한국형 AI 저작권 대타협’이 이루어지지 않는다면,

현재의 혼란은 끝없는 소송전으로 이어져 한국의 AI 주권과 콘텐츠 경쟁력 모두를 약화시키는 결과를 초래할 것으로 판단되며,

지금 당장은 사법부의 판단을 기다리기보다, 입법부와 행정부가 주도하여 사회적 합의를 도출해야 할 골든타임이 아닌가 하는 생각이듭니다.

 

여러분의 소중한 권리와 비즈니스를 지키기 위해,

가장 명확하고 실질적인 솔루션으로 준비된 전세준 변호사입니다.

전세준 변호사 | 법무법인 제하

대한변호사협회 등록 저작권, 지적재산권 전문변호사

상담문의

전화 02-6226-7411

이메일 jhlee@jehalaw.com

홈페이지 https://jehalaw.kr/