의료 다중모달 데이터(PET, MRI, CT, 임상기록, 신경심리검사)를 이용한 LLM·RAG·Agentic AI 기반 통합 진단 지원 시스템 개발
의료 다중모달 데이터(PET, MRI, CT, 임상기록, 신경심리검사)를 이용한 LLM·RAG·Agentic AI 기반 통합 진단 지원 시스템 개발
아래 계획서는 대학원/병원 연구윤리위원회(IRB)·국가과제 제출을 염두에 둔 형식으로 작성했습니다.nature+1
이미지·진단서·신경심리 자료를 모두 활용한 다중모달(multimodal) LLM + RAG + 에이전트(Agentic AI) 연구를 전제로 합니다.linkedin+2
연구 개요
1-1. 연구제목
의료 다중모달 데이터(PET, MRI, CT, 임상기록, 신경심리검사)를 이용한 LLM·RAG·Agentic AI 기반 통합 진단 지원 시스템 개발
1-2. 연구목표
PET, MRI, CT, 진단서(임상 기록), 신경심리검사 결과를 통합 처리하는 다중모달 의료 LLM(Multimodal Medical LLM) 개발
LLM에 RAG(Retrieval-Augmented Generation)를 결합하여 근거 기반 진단·치료 권고를 제공하는 임상 의사결정 지원 시스템(Clinical Decision Support, CDS) 구현aclanthology+1
여러 AI 에이전트가 역할을 나누어 협업하는 Agentic AI 진단 워크플로우 설계 및 검증kodexolabs+2
1-3. 연구 필요성
현재 상용 LLM은 의료 영상, PET 기능影像, 신경심리 데이터를 통합적으로 이해하지 못해 환자 단위의 총체적 판단에 한계가 있다.nature+1
RAG·에이전트 기반 구조는 환자 기록·가이드라인·논문을 동적으로 검색·검증해, LLM의 환각(hallucination)을 줄이는 데 유리하다.arxiv+1
PET/CT, PET/MRI 등 다중모달 영상의 진단적 가치는 이미 입증되었지만, 이를 LLM 차원에서 학습·추론하는 연구는 아직 초기 단계로 선도 연구 가능성이 높다.pubmed.ncbi.nlm.nih+3
1-4. 연구기간 및 단계(예시)
1단계(0–12개월): 데이터 수집·정제·표준화, 기본 RAG 파이프라인 구축
2단계(13–24개월): 다중모달 LLM 설계·파인튜닝, 에이전트 아키텍처 구현
3단계(25–36개월): 후향적·전향적 임상 평가, 사용성·안전성 검증 및 프로토타입 배포
연구 대상 데이터 및 전처리 계획
2-1. 데이터 종류
영상(Image)
PET(양전자방출단층촬영): FDG-PET, 아밀로이드 PET 등
MRI: 구조영상(T1, T2, FLAIR), 기능영상(fMRI), 확산강조영상(DWI)
CT: 뇌·흉부·복부 CT, PET/CT 융합 영상
텍스트(Text)
진단서 및 임상기록(Clinical Notes, Discharge Summary)
영상 판독 보고서(Radiology / Nuclear medicine Reports)arxiv+1
신경심리검사 보고서(Neuropsychological Reports)
구조화 데이터(Structured)
인구학 정보, 검사 수치, 병력, 약물 정보 등(EHR 필드)
2-2. 데이터 표준화 및 라벨링
영상: DICOM에서 메타데이터 정제 후 BIDS(Brain Imaging Data Structure) 또는 유사 스키마로 정리.nature
텍스트: PHI(개인식별정보) 비식별화 후,
진단코드(ICD-10, SNOMED CT),
영상 소견 태그(예: 병변 위치, 크기, SUVmax 등),
신경심리 프로파일(주의력, 기억력, 실행기능 지표)로 구조화.arxiv+1
라벨:
최종 진단(예: 알츠하이머병, MCI, 뇌종양 등),
임상 중증도(경도·중등도·중증),
치료 반응 여부 등.
2-3. 개인정보 보호 및 거버넌스
병원 내 온프레미스(on-premise) 또는 VPC 상에서 폐쇄형 학습 환경 구성.
데이터 익명화(De-identification), 액세스 로그 관리, IRB 승인 및 환자 동의 절차 준수.aclanthology+1
모델 구조 개요: LLM + Multimodal + RAG + Agentic AI
3-1. 전체 아키텍처 개념도(텍스트 설명)
입력: 환자 ID 또는 “질문 + 기간” 형태의 질의
모듈:
데이터 수집 에이전트(Data Retrieval Agent) – EHR·PACS·검사 DB에서 관련 정보 추출
영상 분석 에이전트(Image Analysis Agent) – PET/MRI/CT 전용 네트워크로 병변 분석
지식 검색 에이전트(Knowledge Retrieval Agent, RAG) – 가이드라인·논문·교과서·로컬 프로토콜 검색arxiv+1
요약·설명 에이전트(Summarization/Reasoning LLM Agent) – 결과를 통합하여 설명·권고안 생성
검증 에이전트(Verifier Agent) – 근거 일치 여부·금기사항 체크 후 의사에 전달kodexolabs+1
출력:
구조화된 임상 요약,
가능한 진단 후보와 근거,
권고되는 추가 검사 혹은 치료 옵션(“의사 검토용 초안”)
3-2. 영상 모델(Backbone)
3D CNN 또는 트랜스포머 기반 3D 비전 인코더(3D Vision Encoder) 사용. 예:
Medical SAM·3D Swin Transformer 등 대형 3D 백본nature
PET/CT 보고 생성용 벤치마크에서 활용된 3D medical backbone + LLM 결합 구조 참고github+1
PET, MRI, CT를 각각 인코딩 후, 멀티모달 융합(Fusion):
Early fusion: 채널 결합 후 공통 인코더
Late fusion: modality별 인코더 후 cross-attention으로 결합linkedin+1
3-3. 텍스트·LLM 부분
의료 특화 LLM(예: Med-PaLM 스타일) 또는 병원 내 파인튜닝 가능한 오픈소스 LLM(LLaMA 계열 등) 선택.github+1
입력으로
영상 인코딩 결과(임베딩),
구조화 데이터,
기존 보고서 텍스트,
신경심리 검사 요약
을 함께 제공하는 멀티모달 프롬프팅 구조 설계.aclanthology+1
3-4. RAG(Retrieval-Augmented Generation) 모듈
지식 소스:
진료지침(예: 국내·해외 가이드라인 pdf),
내부 임상 프로토콜,
기존 환자 코호트(case-based retrieval),
공개 교과서/리뷰 논문.arxiv+1
기술 스택:
의료 텍스트 임베딩(Medical text embedding; BioBERT, ClinicalBERT 등),
벡터 DB(예: FAISS, Milvus)로 유사도 검색,
검색된 문서를 LLM 입력으로 재구성.aclanthology+1
ClinicalRAG처럼 다중 에이전트 기반 파이프라인을 구성해, 입력 질의 해석·문서 검색·진단 추론·근거 인용 등을 분리된 에이전트가 담당하도록 설계.aclanthology
3-5. Agentic AI 구조
Agentic AI는 단일 모델이 아닌, 역할을 가진 여러 에이전트들의 협업 시스템을 의미. 의료 도메인에서는 다음과 같이 분해.em360tech+1
Intake Agent(환자 정보 수집) – 증상·기간·과거력 질문, EHR 요약em360tech
Imaging Agent – PACS에서 영상 로딩 및 분석 결과 생성
Neurocog Agent – 신경심리검사 결과 요약 및 해석
Evidence Agent – RAG 기반 근거 검색, 근거 문장·출처 정리arxiv+1
Plan Agent – 진단 가설, 감별진단 목록, 추가 검사/치료 제안
Safety Agent – 금기·약물 상호작용·윤리적 이슈 체크kodexolabs+1
각 에이전트는 API·메시지 큐로 연결되어 워크플로우 엔진(예: LangGraph, Haystack pipelines) 위에서 동작.
세부 연구 내용 및 기술 절차
4-1. 1단계: 데이터 구축 및 기본 성능선 설정(0–12개월)
(1) 데이터 수집·정제
병원 PACS·EHR·신경심리 DB에서 연구 대상 질환(예: 뇌종양, 치매, 우울증 등) 코호트 추출.
PET/CT, PET/MRI, MRI, CT를 대상별로 매칭, 시간 정보(진단 시점, 추적 시점) 포함.
진단서·신경심리 보고서를 비식별화 후, NLP 전처리(토큰화, 문장 분할, 섹션 분리) 수행.arxiv+1
(2) 라벨링 및 품질 관리
전문의 2인 이상이 랜덤 샘플에 대해
진단,
주요 영상 소견,
신경심리 프로파일
라벨링하고, 불일치 케이스는 합의 회의로 정제.
(3) baseline 모델 구성
단일 모달 모델:
CT만 사용하는 3D CNN 분류기,
MRI만 사용하는 모델,
텍스트만 사용하는 임상 LLM 등.
이들 성능(정확도, AUC, F1 등)을 baseline으로 기록.pubmed.ncbi.nlm.nih+1
4-2. 2단계: 다중모달 LLM 및 RAG·에이전트 개발(13–24개월)
(1) Multimodal Encoder 설계
영상: 3D Swin Transformer 또는 3D ViT 기반 인코더를 PET·MRI·CT 각각에 적용 후, cross-attention으로 융합.linkedin+1
텍스트: 임상 보고서·진단서를 BERT 계열 혹은 LLM의 토크나이저로 인코딩.
신경심리 점수: 표준화된 z-score 형태로 투입, 작은 MLP로 임베딩 후 LLM과 결합.
(2) Vision-Language LLM 파인튜닝
PET/CT 보고 생성 데이터셋과 유사한 영상-리포트 페어를 활용해 보고서 생성·QA에 특화된 파인튜닝 실시.github+1
목표 태스크:
“영상+기존 리포트 → 요약”,
“영상+검사 결과 → 질의응답(QA)”,
“영상+신경심리 결과 → 진단 후보 및 근거 생성”.
(3) ClinicalRAG 파이프라인 구현
ClinicalRAG처럼
Query Parser Agent,
Retriever Agent,
Evidence Aggregator Agent,
Answer Generator Agent
등으로 분할된 다중 에이전트 구조를 설계.aclanthology
가이드라인·논문에서 문단 단위로 파싱 후,
벡터 임베딩 생성 → 인덱싱 → 상위 k개 문서 검색 → LLM 입력 결합.arxiv+1
(4) Agentic AI 워크플로우 구현
Kodexo Labs·EM360Tech 등이 제시한 헬스케어 에이전트 구조를 참고하여,em360tech+1
환자 초기 문진,
의무기록 요약,
영상 분석 호출,
근거 검색,
계획 수립
을 순차·병렬로 수행하는 워크플로우 설계.
임상적으로는 의사 검토 전용 초안만 생성하도록 설정(의사 최종 책임).
4-3. 3단계: 평가 및 검증(25–36개월)
(1) 정량 평가
진단 정확도, AUC, 민감도·특이도 비교:
단일 모달 vs 다중모달 모델 vs LLM+RAG+에이전트.nature+1
ClinicalRAG 논문 스타일로,
근거 일치률(Evidence alignment),
hallucination 감소율,
설명의 유용성(의사 평점) 측정.arxiv+1
(2) 사용자 연구(의사·심리사 대상)
가상 케이스와 실제 후향 사례로
“AI 도움 없음”,
“단순 LLM 추천”,
“에이전트 기반 시스템 추천”
3 조건을 비교하여 진단 일치도·소요시간·신뢰도 조사.kodexolabs+1
(3) 안전성·윤리성 검토
위험 시나리오(오진, 약물 금기 무시 등)를 정의하고, Safety Agent가 얼마나 잘 탐지하는지 체크.em360tech+1
“항상 의사 검토 필요” 경고 문구, 근거 출처 표시, 신뢰도 점수 표시 등 인터페이스 설계.
필요 기술 및 구현 절차 요약
5-1. 필요 기술 목록
의료 영상 처리: MONAI, nnU-Net, 3D CNN/ViT, PET/MRI/CT 등록·정합(registration).pubmed.ncbi.nlm.nih+1
NLP/LLM: 의료 특화 LLM 파인튜닝, 프롬프트 엔지니어링, 임상 보고서 요약·QA.arxiv+1
RAG: 벡터 임베딩, 하이브리드 검색(BM25+벡터), 문서 청크 전략, 소스 인용.aclanthology+1
Agentic AI: 멀티에이전트 프레임워크(LangChain, LangGraph 등), 워크플로우 오케스트레이션, API 연동(HIS, PACS).kodexolabs+2
보안·프라이버시: 온프레미스 배포, 데이터 비식별화, 접근 권한·로그 관리.
5-2. 기술 절차서(고수준 순서)
데이터 준비
PACS/EHR에서 대상 코호트 추출 → 비식별화 → BIDS/표준 스키마 변환.pubmed.ncbi.nlm.nih+1
영상·텍스트 기본 모델 학습
PET/MRI/CT별 segmentation/classification 모델 학습 → 성능 검증.
임상 노트·리포트용 언어모델 파인튜닝.github+1
멀티모달 LLM 구축
3D 인코더와 LLM 연결(프로젝션 레이어) → 영상+텍스트 공동 프롬프팅 구현.nature
RAG 인덱스 구축
지침·논문 파싱 → 임베딩 → 벡터 DB 구축 → QA 파이프라인 구성.arxiv+1
에이전트 설계 및 구현
역할 정의 → 각 역할별 프롬프트·API 정의 → 워크플로우 그래프 구성.em360tech+2
통합 테스트
샘플 환자 데이터로 end-to-end 테스트(질의 → 데이터 수집 → 분석 → 리포트 생성).
임상 평가 및 개선
의사 피드백 반영, 위험 시나리오 보완, UI/UX 개선.
기대 효과
PET·MRI·CT·신경심리검사까지 통합하는 환자 중심의 AI 진단 요약 제공.linkedin+1
ClinicalRAG·Agentic AI 구조를 활용하여 근거가 명시된(decision with evidence) 진단 지원 구현.kodexolabs+1
향후, 다른 진료과(심장 영상, 암 전체, 정신건강 등)로 확장 가능한 범용 플랫폼으로 발전 가능.linkedin+1
참고 문헌
Sharma R et al. PET/CT in comparison with PET/MRI as an imaging modality in the management of Gliomas: A systematic review and meta-analysis. J Med Imaging Radiat Sci. 2024.pubmed.ncbi.nlm.nih
Esteva A et al. Multimodal generative AI for interpreting 3D medical images and videos. NPJ Digit Med. 2025.nature
Nguyen T et al. Multimodal Dataset and Benchmarks for PET/CT Report Generation. arXiv.arxiv
Sreedhar K. The Future of Multimodal Imaging: Integrating MRI, CT, and PET with AI. 2025.linkedin
Pichler BJ et al. Multimodal imaging approaches: PET/CT and PET/MRI. Q J Nucl Med Mol Imaging. 2008.pubmed.ncbi.nlm.nih
Wu Y et al. ClinicalRAG: Enhancing Clinical Decision Support through Retrieval-Augmented Generation. 2024.aclanthology
Park J et al. Retrieval-Augmented Framework for LLM-Based Clinical Decision Support. 2025.arxiv
Kodexo Labs. The Future of Agentic AI in Healthcare: 2025 Industry Shift. 2025.kodexolabs
EM360Tech. 5 Agentic AI Use Cases in Healthcare for 2025. 2025.em360tech
mk-runner. Awesome Radiology Report Generation (GitHub collection). 2024.github
댓글
댓글 쓰기