연세소식

터보퀀트 넘은 'Sub-1-bit' 압축 혁신… 세계 최고 AI 학회 ICML 2026 논문 채택

에이전틱 AI 시대 '기억 병목' 해결할 원천기술 제시

2026.06.26

기존 양자화 한계 뛰어넘는 KV 캐시 압축 기술 개발

[사진. 시스템반도체공학과 정재용 교수, 박민재 석사과정생, 전기전자공학부 김수성 석박통합과정생]

우리 대학교 박민재 학생(시스템반도체공학과, 석사과정)과 김수성 학생(전기전자공학부, 석박사통합과정)이 세계 최고 권위의 인공지능 학회인 'ICML(International Conference on Machine Learning) 2026'에 공동 제1저자로 논문을 게재한다. 두 학생 모두 대학원 진학 후 약 1년 반 만에 이뤄낸 성과라는 점에서 더욱 주목받고 있다.

이번 연구는 하드웨어-AI 융합(HAI) 연구실을 이끄는 정재용 교수와 정의영 교수의 지도 아래 수행됐으며, 'GSRQ: Gain–Shape Residual Quantization for Sub-1-bit KV Cache'를 주제로 AI 메모리 효율을 획기적으로 높일 수 있는 새로운 압축 기술을 제안했다.

최근 생성형 AI는 단순한 질의응답을 넘어 스스로 계획을 세우고 복잡한 업무를 수행하는 '에이전틱 AI(Agentic AI)'로 빠르게 발전하고 있다. 이러한 AI는 이전 대화와 정보를 기억하기 위해 KV 캐시(KV Cache)라는 메모리 공간을 활용하는데, 처리해야 할 문맥이 길어질수록 저장 공간이 급격히 증가하는 '기억 병목(memory bottleneck)' 문제가 발생한다. 실제로 긴 문맥을 처리하는 AI에서는 모델 자체보다 KV 캐시가 더 많은 메모리를 차지하는 경우도 발생하면서, 이를 효율적으로 압축하는 기술이 AI 성능을 좌우하는 핵심 요소로 떠오르고 있다.

이를 해결하기 위해 AI 업계에서는 저장되는 숫자를 더 적은 비트로 표현하는 양자화(Quantization) 기술을 발전시켜 왔다. 최근 글로벌 빅테크 기업들이 약 3.5비트 수준으로 데이터를 압축하는 기술을 발표한 것도 이러한 흐름의 일환이다.

[그림. 입력 데이터를 단계적으로 압축해 AI 메모리 사용량을 크게 줄이는 연구팀의 핵심 기술 'GSRQ' 개념도]

연구팀은 여기서 한 걸음 더 나아가 숫자 하나를 1비트 이하(Sub-1-bit) 수준으로 압축하면서도 정보 손실을 최소화하는 새로운 압축 기술 'GSRQ'를 개발했다. 특히 약 70년 동안 머신러닝 분야의 대표적인 데이터 군집화 기법으로 활용돼 온 K-means 알고리즘이 초고차원 데이터에서 갖는 구조적 한계를 규명하고, 이를 극복할 새로운 방법을 제시했다는 점에서 학술적 의미가 크다.

이번 연구는 메모리 사용량을 줄이는 데 그치지 않고, 차세대 AI 컴퓨팅 구조 발전에도 새로운 가능성을 제시했다. 에이전틱 AI 환경에서는 다양한 작업을 빠르게 전환하는 콘텍스트 스위칭(Context Switching)이 반복적으로 발생하는데, 이러한 환경에서는 CPU와 GPU가 메모리를 효율적으로 공유하는 이기종(Heterogeneous) 아키텍처의 중요성이 더욱 커지고 있다. 연구팀은 GSRQ 기술이 이러한 차세대 AI 하드웨어 환경에서 데이터 처리 효율을 높이는 핵심 기술로 활용될 수 있을 것으로 기대하고 있다.

교신저자인 정재용 교수는 "KV 캐시 압축 기술과 새로운 컴퓨팅 아키텍처는 현재 전 세계 AI 학계와 산업계가 가장 치열하게 경쟁하고 있는 분야"라며 "해외 빅테크 기업들이 기술 주도권을 확보하기 전에 우리 학생들이 의미 있는 원천기술을 제시했다는 점에서 이번 연구의 의미가 크다"고 말했다.

이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 AI반도체혁신연구소 사업의 지원을 받아 수행됐다.

한편, 올해 7월 서울 코엑스에서 개최되는 ICML 2026은 NeurIPS, ICLR과 함께 세계 3대 AI 학회로 꼽히는 국제학술대회다. 박민재 학생과 김수성 학생은 이번 학회에서 전 세계 AI 연구자들을 대상으로 연구 성과를 직접 발표할 예정이다.