|
권민혜 교수 연구팀은 이같은 문제를 해결하기 위해 사전에 수집된 데이터셋을 활용, 초기 정책을 학습하는 오프라인 강화학습 기술에 기반한 자율주행 정책 학습 기술을 개발했다. 이 기술을 사용하면 학습 과정의 시행착오로 인한 기기적 손상 없이 데이터셋에 의존한 학습이 가능하기 때문에 강화학습의 실용성을 보완할 수 있다. 특히 이번에 공개된 자율주행 기술은 자율주행차가 관측 가능한 정보만으로 의사결정을 진행하는 부분 관찰 마르코프 의사결정 모델에 기반하고 있어 그 실용성을 더욱 높였다. 또한, 카메라 이미지 기반에서 학습하는 자율주행 정책이 아닌 센서 수치 데이터 기반의 자율주행 정책 기술이라는 점과 인지-판단-제어 3단계 자율주행 기술 중 판단 기능에 최적화된 기술을 제공한다는 점에서 의미가 있다.
권 교수팀은 국내외 오프라인 강화학습 및 자율주행 기술 개발 촉진을 위해 테스트 베드 소프트웨어 및 데이터셋을 공개했다. 세 가지 도로 구조에서 수집된 19개의 학습 데이터셋을 제공하고 7가지의 강화학습 기술을 사용한 학습 성능을 벤치마크로 제공하여 자율주행 연구계에 큰 영향을 줄 것으로 기대된다.
본 기술을 담은 자료는 ‘AD4RL: Autonomous Driving Benchmarks for Offline Reinforcement Learning with Value-based Dataset’이라는 제목으로 국제 학회인 IEEE International Conference on Robotics and Automation (ICRA)에서 오는 5월13일부터 17일까지 발표된다. 이동수 석박통합 과정생이 제 1저자, 엄찬인 석사 과정생이 공저자로, 권민혜 교수가 교신저자로 참여했다. IEEE ICRA는 자율주행 기술을 포함한 로봇공학 분야의 최우수 학회이다.
이 연구를 진행한 이동수 석박통합 과정생은 “이번 프로젝트를 통해 공개한 결과물은 종사하고 있는 분야의 발전을 명시적으로 도울 수 있기에 의미가 있다”며 “공개된 프레임워크를 많은 연구자들이 활용하여 인공지능의 자율적 의사결정 연구가 가속화되면 좋겠다”고 소감을 밝혔다.