EXL Health AI Lab, MEDIQA-OE 2025 참가: MedGemma를 활용한 의료 처방 추출 프롬프트 전략 평가

1월 23, 2026

EXL Health AI Lab at MEDIQA-OE 2025: Evaluating Prompting Strategies with MedGemma for Medical Order Extraction

Abhinand Balachandran, Bavana Durgapraveen Gowsikkan Sikkan Sudhagar, Vidhya Varshany J S, Sriram Rajkumar EXL Service {abhinand.b, sriram.rajkumar, bavana.durgapraveen}@exlservice.com

이 논문은 의사와 환자 사이의 대화에서 약물 처방, 검사, 후속 진료와 같은 의료 지시 사항을 정밀하게 추출하기 위해 특화된 인공지능 모델인 MedGemma의 성능을 분석한 연구입니다. 연구진은 단순한 예시를 제공하는 1-Shot 프롬프팅, 단계별 추론을 유도하는 ReAct 프레임워크, 그리고 여러 가상 요원이 협업하는 에이전트 워크플로우라는 세 가지 전략을 비교 평가하였습니다. 실험 결과, 정교하고 복잡한 논리 구조를 가진 방식보다 오히려 단순한 1-Shot 방식이 가장 높은 정확도를 기록했는데, 이는 복잡한 추론 과정이 오히려 불필요한 노이즈와 과도한 분석적 오류를 일으킬 수 있음을 시사합니다. 결과적으로 이 자료는 임상 데이터의 특성에 따라 모델의 효율성을 극대화할 수 있는 최적의 프롬프트 설계 전략을 제시하며 의료 문서화 자동화의 가능성을 보여줍니다.

MEDIQA-OE 2025 태스크에 관한 EXL Health AI Lab의 분석

1. 연구 내용 분석 및 요약

본 연구는 의사와 환자 간의 대화 데이터에서 구조화된 의료 주문(Medical Order)을 추출하기 위해 의료 특화 오픈 소스 모델인 MedGemma(4B 및 27B)의 성능을 평가했습니다. 연구팀은 세 가지 프롬프팅 전략인 **1-Shot 프롬프팅, ReAct 프레임워크, 그리고 에이전트 기반 워크플로우(Agentic Workflow)**를 체계적으로 비교했습니다.

주요 연구 결과는 다음과 같습니다:

모델 성능: 도메인 특화 학습을 거친 MedGemma가 일반 Gemma 모델보다 임상 자연어 처리 작업에서 일관되게 우수한 성능을 보였으며, 파라미터가 더 큰 MedGemma-27B가 4B 모델보다 모든 지표에서 높은 점수를 기록했습니다.
프롬프팅 전략: 놀랍게도 가장 단순한 1-Shot 프롬프팅이 복잡한 ReAct나 에이전트 기반 워크플로우보다 가장 높은 성능을 기록했습니다.
오버씽킹(Overthinking) 문제: 수동으로 정밀하게 주석 처리된 전사본(Transcript)에서는 복잡한 추론 과정이 오히려 노이즈를 유발하고 "분석적 과잉 처리"를 일으켜 정확도를 떨어뜨릴 수 있음을 발견했습니다.

2. 연구 결과 재현(Reproduce)을 위한 상세 절차

본 연구의 결과를 재현하기 위한 실행 단계는 다음과 같습니다.

가. 환경 및 모델 준비

Hugging Face 등을 통해 MedGemma-27B 또는 4B 모델 가중치를 확보합니다.
SIMORD 데이터셋(MEDIQA-OE 2025 공유 태스크 데이터)을 준비하고, 대화 전사본을 확보합니다.

나. 데이터 전처리

대화 내 개별 발화(Turn)를 구분하고, 의사의 발화를 식별하여 정규화된 발화 ID(Turn ID)를 부여합니다.

다. 1-Shot 프롬프트 구성 (가장 우수한 방식)

시스템 프롬프트 설정: 모델에게 "의료 주문 추출 전문가" 역할을 부여하고, 약물(Medication), 검사(Lab), 영상(Imaging), 후속 조치(Follow-up)의 4가지 범주와 추출 규칙을 명시합니다.
1-Shot 예시 제공: 고품질의 대화 예시 하나와 그에 대응하는 구조화된 JSON 출력(Order Type, Description, Reason, Provenance 포함)을 프롬프트에 포함합니다.
입력 템플릿 작성: 분석할 대화 내용을 추가하고 JSON 리스트 형식으로 반환하도록 지시합니다.

라. 실행 및 평가

모델을 통해 JSON 출력을 생성합니다.
평가 지표 적용: 설명 및 근거는 ROUGE-1 F1, 주문 유형은 Strict F1, 출처(Provenance)는 Multi-label F1 점수를 사용하여 성능을 측정합니다.

3. 새로운 연구 주제 제안

노이즈 섞인 실시간 데이터에서의 프롬프팅 전략: 수동 주석 데이터가 아닌, 자동 음성 인식(ASR)으로 생성된 오타나 중단이 많은 실제 진료 현장 데이터에서 ReAct나 에이전트 방식이 1-Shot보다 유리해지는 임계점을 탐색하는 연구.
의료 주문의 표준화 및 매핑: 추출된 텍스트 형태의 주문을 RxNorm이나 SNOMED CT와 같은 표준 의학 용어로 자동 매핑하는 시스템 구축 연구.
다중 모델 에이전트 시스템: 단일 모델 내에서의 가상 에이전트가 아닌, 서로 다른 강점을 가진 독립적인 모델들을 배치하여 의료 정보 추출의 정확도를 높이는 진정한 의미의 멀티 에이전트 연구.

4. PET/CT 영상 및 임상 데이터 통합 진단서 작성 연구 기여 방안

PET/CT 영상 소견, 임상시험 검사 점수, 임상기록지를 종합하여 진단서를 작성하는 연구에서 본 논문은 다음과 같은 기술적 토대와 통찰을 제공할 수 있습니다.

가. 논문의 기여점

비정형 데이터의 구조화 능력: 본 논문은 복잡한 대화(비정형)에서 주문 유형, 설명, 이유(Reason)를 추출하는 정교한 프레임워크를 제시합니다. 이를 응용해 임상기록지나 영상 판독문에서 핵심 진단 근거를 추출하는 데 직접 활용할 수 있습니다.
근거 중심의 생성 (Provenance): 진단서 작성 시 결론만 내는 것이 아니라, 영상의 어느 부위나 기록지의 어느 수치가 해당 진단의 근거가 되었는지 출처(Provenance)를 명시하는 기법을 재사용하여 진단서의 신뢰도를 높일 수 있습니다.
도메인 특화 모델의 우월성: 일반 모델보다 MedGemma와 같은 의료 특화 모델이 임상 용어 이해와 문맥 파악에 훨씬 유리하다는 것을 입증했으므로, 연구의 베이스라인 모델 선정에 지침을 제공합니다.

나. 구체적인 도움 및 절차

데이터 변환 절차: PET/CT 영상의 특징을 텍스트로 기술한 판독문, 임상시험 검사 점수표, 임상기록지를 본 논문의 '대화 전사본' 형식처럼 시퀀스 데이터로 통합합니다.
1-Shot 전략의 적용: 복잡한 추론 단계를 설계하기보다, 영상 소견과 점수 데이터가 어떻게 최종 진단서로 변환되는지 보여주는 **완벽한 진단서 작성 예시(Gold standard)**를 1-Shot 프롬프트로 제공하는 것이 더 효과적일 수 있습니다.
속성 정의: 진단서의 구성 요소를 본 논문에서 정의한 속성(주문 유형, 설명 등)과 유사하게 **"진단 유형", "진단 상세", "의학적 근거(Reason)", "참조 데이터(Provenance)"**로 구조화하여 JSON 형태로 추출하도록 유도합니다.
검증 로직: ReAct의 'Observation' 단계에서 사용한 제약 조건(예: 텍스트의 정확한 문구 유지, 길이 제한 등)을 활용해 생성된 진단서가 원본 데이터(영상 판독문 등)를 왜곡하거나 환각(Hallucination)을 일으키지 않았는지 검증하는 절차를 도입할 수 있습니다.

이 연구는 데이터가 복잡할수록 모델에게 직접적인 가이드를 주는 단순하고 강력한 프롬프팅이 효율적일 수 있음을 시사하므로, PET/CT와 같은 다중 데이터 통합 시에도 지나치게 복잡한 추론 체인을 만들기보다 정밀한 데이터 전처리와 명확한 예시 제공에 집중하는 것이 결과에 도움이 될 것입니다.

capstone