Apple은 크기의 10배에 달하는 모델보다 이미지에 캡션을 더 잘 적용하는 AI를 학습

애플의 차세대 AI: 작지만 강력한 이미지 설명 모델 ‘RubiCap’

애플 연구팀과 위스콘신-매디슨 대학교 연구진은 기존보다 훨씬 작은 크기의 모델로도 훨씬 더 정확하고 상세하게 이미지를 묘사할 수 있는 새로운 AI 학습 프레임워크인 RubiCap을 개발했습니다.

1. ‘Dense Image Captioning’이란?

단순히 “개와 고양이가 있는 사진”이라고 한 줄로 요약하는 것이 아니라, 이미지 속 각 구역(Region)을 세밀하게 파악하여 “왼쪽 아래에 앉아 있는 갈색 리트리버”, “오른쪽 소파 위에서 잠든 줄무늬 고양이”와 같이 세밀하고 풍부한 정보를 생성하는 기술입니다.

2. 기존 방식의 문제점과 RubiCap의 해결책

기존 문제: 전문가가 직접 고품질의 설명을 다 다는 것은 비용이 너무 많이 들고, 기존 대형 모델(VLM)의 데이터를 단순히 복사(증류)하는 방식은 다양성이 떨어지며 일반화 능력이 약했습니다.
RubiCap의 혁신: 정해진 정답을 외우게 하는 대신, ‘루브릭(Rubric, 평가 기준)’을 활용한 강화 학습을 도입했습니다.

3. RubiCap의 독특한 학습 과정

데이터 샘플링: 약 5만 개의 이미지를 준비합니다.
다양한 후보 생성: 제미나이 2.5 프로, GPT-5 등 현존하는 최고 성능의 모델들을 동원해 다양한 이미지 설명 후보를 만듭니다.
루브릭 설정: 제미나이 2.5 프로가 이미지와 후보군을 분석하여, 어떤 설명이 정확하고 어떤 것이 틀렸는지 판단할 수 있는 ‘명확한 채점 기준(Rubric)’을 생성합니다.
보상 및 피드백: 이 기준에 따라 모델이 생성한 답변을 채점하고, 그 결과를 바탕으로 모델을 강화 학습시킵니다.

4. 놀라운 결과 “작은 고추가 맵다”

연구진은 20억, 30억, 70억 파라미터 규모의 모델 3종을 제작했습니다.

압도적 성능: RubiCap-7B 모델은 자신보다 몇 배나 큰 720억(72B) 규모의 대형 모델들보다 더 높은 승률을 기록했습니다.
효율성: RubiCap-3B 모델이 70억 규모의 모델보다 뛰어난 성능을 보이기도 했으며, 이 모델로 학습시킨 시각-언어 모델(VLM)은 유료 독점 모델 데이터로 학습시킨 것보다 더 강력한 성능을 보여주었습니다.
정확도: 블라인드 테스트 결과, 모든 모델(32B, 72B 포함) 중 RubiCap-7B가 가장 높은 1위 선정률을 기록했으며, 환각(Hallucination) 현상도 가장 적었습니다.

이번 연구는 “AI 모델이 반드시 거대해야만 뛰어난 것은 아니다”라는 점을 시사합니다. 적절한 학습 프레임워크만 있다면 작은 모델로도 업계 최고 수준의 이미지 이해 능력을 갖출 수 있다는 것입니다.

이는 향후 아이폰이나 맥(Mac) 등 기기 자체에서 구동되는 온디바이스 AI(On-device AI)의 성능을 비약적으로 발전시켜, 이미지 검색이나 시각 장애인을 위한 접근성 도구의 혁신을 가져올 것으로 기대됩니다.

잘못된 내용은 연락주시면 수정.삭제하여 드립니다.