ROCOv2에서 의료 VQA를 위한 Gemma 3n 미세 조정

FineTuning Gemma 3n for Medical VQA on ROCOv2


ROCOv2에서 의료 VQA를 위한 Gemma 3n 미세 조정

한밤중에 복잡한 영상 검사를 진행하는 영상의학과 의사가 자신의 워크스테이션에서 바로 AI 비서에게 두 번째 의견을 구할 수 있다면 어떨까요? 이는 공상 과학 소설이 아니라, 구글의 강력하고 효율적인 Gemma 3n과 같은 모델 덕분에 가능해진 임상 AI의 최첨단 기술입니다.


본 소스는 구글의 최신 초경량 멀티모달 모델인 Gemma 3n을 활용하여 의료용 시각 질의응답(Medical VQA) 시스템을 구축하는 기술 가이드입니다. 이 텍스트는 MatFormer와 나노(Nano) 설계를 통해 저사양 기기에서도 구동 가능한 모델의 혁신적인 구조를 설명하고, Unsloth 라이브러리와 LoRA 기법을 사용하여 방사선학 데이터셋으로 모델을 미세 조정(Fine-tuning)하는 실습 과정을 상세히 다룹니다. 특히 단순한 진단 자동화가 아니라 의료 전문가의 판단을 돕는 기술적 보조 도구로서의 가능성을 강조하며, 학습 전후의 성능 비교를 통해 모델이 어떻게 더 객관적이고 사실적인 분석을 수행하게 되는지 입증합니다. 궁극적으로 이 자료는 보안이 중요한 의료 환경에서 온디바이스 AI를 구현함으로써 환자 데이터 프라이버시를 보호하고 임상 의사결정을 지원하는 효율적인 방법을 제시하는 데 목적이 있습니다.


Gemma 3n의 주요 기능

gemma3n 미세 조정 - elo 점수 테이블

Gemma 3n의 디자인은 여러 혁신적인 기술을 결합하여 성능과 효율성의 균형을 이루어냈습니다.


Gemma 3n Architecture – Nano의 새로운 기능

Gemma 3n의 놀라운 효율성은 단순한 모델 압축이나 양자화 덕분이 아니라, 트랜스포머 아키텍처 자체에 대한 근본적인 재설계에서 비롯됩니다.  Gemma3  제품군과 계보를 공유하지만, 내부 구조는 온디바이스 성능에 최적화되도록 특별히 재설계되었습니다. 이 섹션에서는 Gemma 3n이 제한된 메모리 공간 내에서 뛰어난 성능을 발휘할 수 있도록 하는 핵심 아키텍처 혁신에 대해 자세히 살펴봅니다.

MatFormer: 탄력적 추론의 핵심

gemma3n 미세 조정 - matformer

Gemma 3n의 핵심에는  탄력적인 모델을 구축하는 혁신적인 접근 방식 인 MatFormer(마트료시카 트랜스포머)  아키텍처가 있습니다. 이 개념은 이름의 유래가 된 러시아 마트료시카 인형처럼 우아하면서도 강력합니다. 더 크고 기능이 풍부한 모델은 매개변수 내에 더 작고 완전한 기능을 갖춘 버전들을 중첩하여 포함합니다. 이는 임베딩뿐만 아니라 트랜스포머의 모든 구성 요소에 적용됩니다.


--------------------------------------------------------------------------------

1. 연구 분석 및 요약

이 연구의 핵심은 일반적인 시각-언어 모델(VLM)인 Gemma 3n을 의료 영상 분석에 특화된 전문가형 AI로 변환하는 미세 조정(Fine-tuning) 과정을 다루고 있습니다.

모델의 특징: Gemma 3n은 'Nano' 시리즈 모델로, MatFormer(중첩 구조)와 PLE(레이어별 임베딩) 아키텍처를 채택하여 성능은 유지하면서 메모리 사용량을 획기적으로 줄였습니다. 이를 통해 병원 내 로컬 워크스테이션이나 모바일 기기 등 자원이 제한된 환경에서도 개인정보를 보호하며 실행할 수 있습니다.

성능의 변화: 미세 조정 전의 모델은 의료 영상을 보고 잘못된 진단을 내리거나 환각(Hallucination) 현상을 보였습니다. 그러나 미세 조정을 거친 후에는 지시사항을 엄격히 따라 영상을 사실적으로 기술하고, 판단의 근거를 명확히 제시하는 신뢰할 수 있는 보조 도구로 변모했습니다.

기술적 효율성: Unsloth 라이브러리와 LoRA 기법을 사용하여 전체 파라미터의 0.39%만 학습시키고도 성능을 크게 향상시켰으며, 학습 속도는 2배 빠르고 메모리 사용량은 60% 절감했습니다.

--------------------------------------------------------------------------------

2. 연구 결과 재현을 위한 상세 절차

본 연구 결과를 그대로 재현하기 위한 실행 단계는 다음과 같습니다.

1단계: 환경 설정 및 라이브러리 설치

최적화된 학습을 위해 Unsloth, xformers, trl, peft 등을 설치합니다.

Gemma 3n 호환을 위해 특정 버전의 transformers(4.53.1)timm 라이브러리를 준비합니다.

2단계: 모델 로드 및 양자화 (Quantization)

unsloth/gemma-3n-E2B-it 모델을 로드합니다.

메모리 효율을 위해 4-bit 양자화를 적용하고, 메모리 절약을 위해 Gradient Checkpointing을 활성화합니다.

3단계: LoRA 기반 PEFT 설정

FastVisionModel.get_peft_model을 사용하여 미세 조정할 레이어를 지정합니다.

시각(Vision) 레이어와 언어(Language) 레이어를 모두 학습 대상으로 설정하며, LoRA 하이퍼파라미터(r=16, alpha=16)를 구성합니다.

의료 전문 용어 습득을 위해 lm_headembed_tokens는 전체 학습이 되도록 별도 설정합니다.

4단계: 데이터셋 준비 및 대화 형식 변환

Radiology_mini 데이터셋을 활용합니다.

데이터를 모델이 이해할 수 있도록 Conversational Format(User: 지시어+이미지, Assistant: 캡션)으로 구조화합니다.

5단계: 학습 실행 (Training Loop)

SFTTrainer를 구성하고 다음과 같은 설정으로 학습을 진행합니다.

    ◦ 배치 사이즈: 1 (메모리 최소화).

    ◦ 그래디언트 축적: 4 (실제 배치 사이즈 4의 효과).

    ◦ 학습률: 2e-4 (LoRA 최적 수치).

    ◦ 최대 스텝 수: 60 (시연용 기준).

6단계: 추론 및 평가

학습된 모델을 추론 모드로 전환하고, 새로운 의료 영상을 입력하여 생성된 텍스트가 지시어에 부합하는지 확인합니다.

--------------------------------------------------------------------------------

3. 새로운 연구 주제 제안

1. 실시간 모바일 초음파 가이드 시스템: Gemma 3n의 초당 60프레임 비디오 처리 능력을 활용하여, 모바일 기기에서 실시간으로 초음파 영상을 분석하고 장기 위치나 이상 징후를 가이드하는 연구.

2. 다국어 로컬 의료 비서: 140개 이상의 언어 지원 기능을 활용하여, 통신이 제한된 지역에서 현지 언어로 의료 영상을 설명해주는 온디바이스 AI 도구 개발.

3. 장기적(Longitudinal) 변화 분석: 동일 환자의 과거와 현재 영상을 비교하여 질병의 진행 속도나 치료 반응을 텍스트로 요약하는 연구.

--------------------------------------------------------------------------------

4. PET/CT 영상 및 임상 데이터 통합 진단서 작성 연구

제안하신 PET/CT 영상 + 임상시험 점수 + 임상기록지 통합 연구는 Gemma 3n의 **네이티브 멀티모달성(Native Multimodality)**을 가장 잘 활용할 수 있는 분야입니다.

본 연구(Gemma 3n)가 기여할 수 있는 바:

멀티모달 통합 능력: Gemma 3n은 텍스트와 이미지를 동시에 이해하도록 처음부터 공동 학습되었으므로, 영상의 시각적 특징과 기록지의 텍스트 정보를 연결하는 데 탁월합니다.

긴 문맥 처리: KV Cache Sharing 기술을 통해 긴 임상 기록지나 복잡한 데이터를 입력받을 때의 초기 처리 속도(Prefill)가 2배 향상되어 효율적인 진단서 작성이 가능합니다.

설명 가능한 진단: 미세 조정을 통해 AI가 독단적인 진단을 내리는 것이 아니라, 영상과 임상 점수에서 발견된 객관적 증거들을 나열하여 의사의 판단을 돕는 '기술적 조수' 역할을 수행할 수 있습니다.

구체적인 연구 절차 및 데이터 처리:

1. 데이터 모달리티 변환:

    ◦ 영상: PET/CT 영상(DICOM 등)을 Gemma 3n의 비전 인코더가 수용 가능한 해상도(256~768 등)의 이미지 시퀀스로 변환합니다.

    ◦ 텍스트: 임상시험 점수와 임상기록지를 하나의 구조화된 텍스트 템플릿(예: JSON 또는 Markdown)으로 정리합니다.

2. 통합 프롬프트 설계:

    ◦ 학습 시 "PET/CT 영상에서 관찰되는 대사 활동 수치와 환자의 임상 점수(MMSE 등)를 종합하여 상세 진단 보고서를 작성하라"는 복합 지시어를 사용합니다.

3. 특수 어휘 학습:

    ◦ 진단서에 쓰이는 특수한 전문 용어를 모델이 정확히 구사하도록 modules_to_save 설정을 통해 언어 모델의 헤드 부분을 집중 학습시킵니다.

4. 근거 기반 생성(Grounding):

    ◦ 진단서의 각 문장이 영상의 어느 부위나 기록지의 어느 수치에서 기인했는지 연결하는 'Rationale 생성' 과정을 미세 조정 목표에 포함시킵니다.

5. 로컬 보안 배포:

    ◦ 가장 중요한 점으로, PET/CT와 같은 민감한 환자 데이터를 외부 클라우드에 보낼 필요 없이 병원 내 로컬 워크스테이션에서 직접 실행하여 진단서를 자동 생성하는 안전한 워크플로우를 구축할 수 있습니다.



댓글

이 블로그의 인기 게시물

히브리인, 이스라엘인, 유대인 성경 속 이름에 숨겨진 소름 돋는 비밀

작은 틈이 무너뜨린다 왜 우리는 ‘사소한 분열’을 극도로 경계해야 하는가

작은 틈이 무너뜨린다 왜 성경은 ‘분열의 시작’을 그렇게 경고하는가