[메가경제=이석호 기자] LG AI연구원은 내달 1일부터 4월 말까지 전 세계 AI 연구자를 대상으로 'LG 글로벌 AI 챌린지'를 온라인 개최한다고 31일 밝혔다.
이번 행사는 '제로샷 이미지 캡셔닝'을 주제로, AI가 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지 평가하는 대회다.
![]() |
▲ 초거대 AI의 이미지 캡셔닝 과정 [LG 제공] |
제로샷 이미지 캡셔닝은 AI가 마치 사람의 시각 인지 능력처럼 처음 봤거나 표현 방식이 다른 이미지를 볼 경우 기존 학습 데이터를 기반으로 스스로 이해하고 유추한 결과를 텍스트로 설명하는 기술이다.
제로샷 이미지 캡셔닝이 점차 고도화되면 이미지 인식 AI 기술의 정확성과 공정성이 높아지고, 사람들의 실생활에 직접적으로 도움을 줄 수 있다.
이 기술은 인간의 학습 구조를 모방한 초거대 AI가 등장하면서 연구가 활발해지고 있으며, 최근 화두가 되는 텍스트를 이미지로 변환하는 '생성형 AI 모델'의 성능은 물론 이미지 검색의 정확도를 높이는 데도 활용되고 있다.
최근 자연어 검색 분야에서 반향을 일으키고 있는 'ChatGPT'처럼 AI가 스스로 이미지를 이해하고 설명하며, 해시태그도 달 수 있는 이미지 캡셔닝 기술이 이미지 검색 분야에 혁신을 가져올 것이란 전망이다.
LG는 사람의 시각 인지 능력에 가까이 다가서는 제로샷 이미지 캡셔닝이 이미지를 텍스트로 표현하고, 텍스트를 이미지로 시각화할 수 있는 초거대 멀티모달 AI인 '엑사원(EXAONE)'의 기술 개발 생태계에 크게 기여할 것으로 기대하고 있다.
LG AI연구원은 공동연구센터를 설립해 엑사원을 공동 연구 중인 '서울대 AI대학원', 셔터스톡과 함께 이번 대회를 진행한다.
셔터스톡은 편향성과 선정성 등에 대한 AI 윤리 검증을 끝낸 고품질 이미지-텍스트 데이터셋 2만 6000개를 무료로 제공한다.
이경무 서울대 AI대학원 석좌교수는 "이미지 캡셔닝은 영상에 나오는 객체들의 관계부터 상황과 문맥까지 이해해 인간의 언어로 표현하고 설명하게 하는 것으로, AI가 인간의 지능에 얼마나 가까워졌는지 보여주는 척도"라고 말했다.
이어 "학습 데이터 없이도 이러한 작업을 수행하는 제로샷 이미지 캡셔닝은 매우 도전적인 문제이자 세계적으로도 최근에 연구가 시작된 분야"라며 "LG AI연구원, 서울대 AI대학원, 셔터스톡이 세계 최초로 챌린지와 워크숍을 공동 진행하는 것은 국내 AI 역량이 이미 세계적 수준에 도달했음을 의미한다"고 덧붙였다.
[저작권자ⓒ 메가경제. 무단전재-재배포 금지]