해외 빅테크 중심의 무단 학습·저작권 분쟁 논란이 이어지는 상황에서, 국내 방송 콘텐츠를 기반으로 한 합법적·고품질 AI 데이터 확보라는 점에서 의미가 크다는 평가다.
방송미디어통신위원회는 한국전파진흥협회와 함께 7일 서울에서 ‘2025년 방송영상 인공지능 학습용 데이터 구축 사업 성과공유회’를 열고 구축 성과를 공개했다.
이번 사업은 방송사가 보유한 뉴스·다큐멘터리·드라마 등 방대한 방송영상 자료를 AI 학습이 가능한 형태로 정제·가공해 산업 전반에서 활용 가능한 데이터셋으로 구축하는 프로젝트다.
|
|
최근 글로벌 AI 업계에서는 학습 데이터 확보 경쟁이 치열해지고 있다. 특히 생성형 AI 모델들이 인터넷 콘텐츠를 무단 수집·학습했다는 저작권 논란이 이어지면서, 저작권이 정리된 고품질 데이터 확보가 AI 산업 경쟁력의 핵심 변수로 떠오르고 있다.
방미통위 역시 AI 기반 방송미디어 혁신을 위해서는 양질의 영상 학습데이터 확보가 필수적이라고 판단하고 사업을 추진했다고 설명했다.
방송영상 자료는 언어·행동·음성·이미지 등 복합 정보를 담고 있어 AI 학습용 원천데이터로 활용 가치가 높다. 특히 뉴스·드라마·다큐멘터리 등은 한국 사회의 문화·역사·생활양식이 반영된 콘텐츠라는 점에서 국내형 AI 모델 개발의 핵심 자산으로 평가받는다.
200만 시간 중 4만 시간 선별…최종 2만3000시간 구축
이번 사업에는 총 200억원의 예산이 투입됐다.
방미통위는 200만 시간이 넘는 방송 원본 데이터 가운데 약 4만 시간을 엄선한 뒤 정제·가공 과정을 거쳐 최종적으로 2만3113시간 규모의 AI 학습용 고품질 영상 데이터를 구축했다.
데이터셋 규모는 약 460만개에 달한다.
정부는 구축된 데이터를 방송콘텐츠 제작 효율화를 위한 AI 서비스 개발뿐 아니라 제조·의료·재난·교통 등 다양한 산업 분야 AI 개발에도 활용할 수 있을 것으로 보고 있다.
성과공유회에서는 서울과학기술대학교 박구만 교수가 ‘방송미디어 분야 AI 데이터 기술 동향 및 전망’을 주제로 발표했다.
이어 KBS, MBC, MBC충북, KT ENA채널 등 참여 방송사들은 데이터 구축 과정과 AI 전환 전략을 공유했다.
현장에는 네이버클라우드와 LG AI연구원 등 AI 기업 관계자들도 참석했다.
박동주 방미통위 사무처장은 “이번 사업은 방송미디어 산업의 AI 혁신을 위한 중요한 첫걸음”이라며 “국내 방송미디어 산업이 AI를 기반으로 재도약할 수 있도록 관련 정책과 사업을 지속 추진하겠다”고 말했다.






