“저작권 논란 넘어 방송영상 AI 학습데이터 확보”…방미통위, 2만시간 구축

[이데일리 김현아 기자] 생성형 인공지능(AI)의 핵심 경쟁력으로 ‘학습용 데이터’ 중요성이 커지는 가운데, 정부와 방송업계가 총 2만여 시간 규모의 고품질 방송영상 AI 학습데이터 구축에 나섰다.

해외 빅테크 중심의 무단 학습·저작권 분쟁 논란이 이어지는 상황에서, 국내 방송 콘텐츠를 기반으로 한 합법적·고품질 AI 데이터 확보라는 점에서 의미가 크다는 평가다.

방송미디어통신위원회는 한국전파진흥협회와 함께 7일 서울에서 ‘2025년 방송영상 인공지능 학습용 데이터 구축 사업 성과공유회’를 열고 구축 성과를 공개했다.

이번 사업은 방송사가 보유한 뉴스·다큐멘터리·드라마 등 방대한 방송영상 자료를 AI 학습이 가능한 형태로 정제·가공해 산업 전반에서 활용 가능한 데이터셋으로 구축하는 프로젝트다.

방송미디어통신위원회 박동주 사무처장이 7일 서울에서 열린 '방송영상 AI 학습용 데이터 구축사업 성과공유회'에서 환영사를 하고 있다. 사진=방미통위

“AI 시대 원유는 데이터”…방송영상 가치 재조명

최근 글로벌 AI 업계에서는 학습 데이터 확보 경쟁이 치열해지고 있다. 특히 생성형 AI 모델들이 인터넷 콘텐츠를 무단 수집·학습했다는 저작권 논란이 이어지면서, 저작권이 정리된 고품질 데이터 확보가 AI 산업 경쟁력의 핵심 변수로 떠오르고 있다.

방미통위 역시 AI 기반 방송미디어 혁신을 위해서는 양질의 영상 학습데이터 확보가 필수적이라고 판단하고 사업을 추진했다고 설명했다.

방송영상 자료는 언어·행동·음성·이미지 등 복합 정보를 담고 있어 AI 학습용 원천데이터로 활용 가치가 높다. 특히 뉴스·드라마·다큐멘터리 등은 한국 사회의 문화·역사·생활양식이 반영된 콘텐츠라는 점에서 국내형 AI 모델 개발의 핵심 자산으로 평가받는다.

200만 시간 중 4만 시간 선별…최종 2만3000시간 구축

이번 사업에는 총 200억원의 예산이 투입됐다.

방미통위는 200만 시간이 넘는 방송 원본 데이터 가운데 약 4만 시간을 엄선한 뒤 정제·가공 과정을 거쳐 최종적으로 2만3113시간 규모의 AI 학습용 고품질 영상 데이터를 구축했다.

데이터셋 규모는 약 460만개에 달한다.

정부는 구축된 데이터를 방송콘텐츠 제작 효율화를 위한 AI 서비스 개발뿐 아니라 제조·의료·재난·교통 등 다양한 산업 분야 AI 개발에도 활용할 수 있을 것으로 보고 있다.

성과공유회에서는 서울과학기술대학교 박구만 교수가 ‘방송미디어 분야 AI 데이터 기술 동향 및 전망’을 주제로 발표했다.

이어 KBS, MBC, MBC충북, KT ENA채널 등 참여 방송사들은 데이터 구축 과정과 AI 전환 전략을 공유했다.

현장에는 네이버클라우드와 LG AI연구원 등 AI 기업 관계자들도 참석했다.

박동주 방미통위 사무처장은 “이번 사업은 방송미디어 산업의 AI 혁신을 위한 중요한 첫걸음”이라며 “국내 방송미디어 산업이 AI를 기반으로 재도약할 수 있도록 관련 정책과 사업을 지속 추진하겠다”고 말했다.