๐ง ๐ธ “AI๊ฐ ์์ค๋ ์ด๋ฅผ ์ฝ๊ณ ํต์ํ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๋ค: MLLM์ด ์๋ฃ๋ฅผ ๋ฐ๊พธ๋ ๋ฐฉ๋ฒ”[ch]
๐ง ๐ธ
“AI๊ฐ ์์ค๋ ์ด๋ฅผ ์ฝ๊ณ ํต์ํ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๋ค: MLLM์ด ์๋ฃ๋ฅผ ๋ฐ๊พธ๋ ๋ฐฉ๋ฒ”[ch]
๐ ๋ชฉ์ฐจ
-
MLLM์ด๋ ๋ฌด์์ธ๊ฐ?
-
์ ์๋ฃ์์๊ณผ ํต์ํ์ ์ฃผ๋ชฉํด์ผ ํ๋๊ฐ?
-
์๋ฃ ๋ถ์ผ ํต์ฌ MLLM ์ฐ๊ตฌ ๋ ผ๋ฌธ 6์
-
์ค์ ์๋ฃ ํ์ฅ์์ MLLM์ ์ฌ์ฐํ๋ ๋ฐฉ๋ฒ(์ค์ต ๊ฐ์ด๋)
-
์์ ์์ฉ ์์
-
MLLM์ ํ๊ณ ๋ฐ ์์ ๊ณ ๋ ค์ฌํญ
-
์์ผ๋ก์ ๋ฐฉํฅ
-
์์ฝ
-
์ฐธ๊ณ ๋ฌธํ
-
ํ๊ทธ ๊ฒ์
-
๋ธ๋ก๊ทธ ๊ฒ์ ์ค๋ช (150์)
1️⃣ MLLM์ด๋ ๋ฌด์์ธ๊ฐ? (์ ์)
MLLM (Multimodal Large Language Model) ์
-
ํ ์คํธ(text) + ์ด๋ฏธ์ง(image) + ๋๋ก๋ ์์(video)/์์ฑ(audio) ๋ฑ ๋ค์ํ ํํ์ ์ ๋ ฅ์
-
ํ๋์ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ด ๋์์ ์ฒ๋ฆฌํ๊ณ ์ดํดํ ์ ์๋ ๋ชจ๋ธ์ ๋๋ค.
์ฆ, ๋จ์ํ ํ
์คํธ๋ง ์ฒ๋ฆฌํ๋ ๊ธฐ์กด LLM(Large Language Model) ๊ณผ ๋ฌ๋ฆฌ
“์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ์ง๋ฌธ์ ๋ตํ๋ค”,
“์ง๋จ ๋ณด๊ณ ์๋ฅผ ์๋ ์์ฑํ๋ค” ๊ฐ์ ์ผ๋ ๊ฐ๋ฅํฉ๋๋ค.
์ฉ์ด ์ค๋ช
-
์์์ํ(Radiology): ์์ค๋ ์ด(X-ray), CT, MRI์ฒ๋ผ ์๋ฃ ์ด๋ฏธ์ง๋ฅผ ์ง๋จ์ ์ฌ์ฉํ๋ ๋ถ์ผ
-
ํต์ํ(Nuclear Medicine): ๋ฐฉ์ฌ์ฑ ๋์์์๋ฅผ ์ด์ฉํ ๊ธฐ๋ฅ์ ์์(๊ธฐ๋ฅ ์ด์ ํ์ง) ๋ถ์ผ
MLLM์ ์ด๋ฌํ ๋ค์ํ ์๋ฃ ์ ๋ณด๋ฅผ ๋์์ ์ดํดํ๋ฉฐ ์ง๋จ์ ๋๋ ๋๊ตฌ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
2️⃣ ์ ์๋ฃ์์๊ณผ ํต์ํ์ธ๊ฐ?
์๋ฃ์์๊ณผ ํต์ํ์ ๋ชจ๋
-
๋๋์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ
-
๋ณต์กํ ์ํ์ ํ๋จ
-
์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ๊ณ ์ฐจ์์ ํด์
์ด ํ์ํ ์์ญ์
๋๋ค.
AI๋ ๋จ์ ๋ถ๋ฅ๋ฅผ ๋์ด
์์์์ ์ง์ ๋ํํ๊ณ , ํ๋จ์ ๋ณด์กฐํ ์ ์๋ ๋๊ตฌ๋ก ๊ณ์ ์งํํ๊ณ ์์ต๋๋ค.
3️⃣ ์๋ฃ ๋ถ์ผ ์ฃผ์ MLLM ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
์๋๋ ์๋ฃ์์/ํต์ํ ๋ถ์ผ์์ ์๋ฏธ ์๋ MLLM ์ฐ๊ตฌ๋ฅผ ์ ๋ฆฌํ ํต์ฌ ๋
ผ๋ฌธ 6ํธ์
๋๋ค.
๊ฐ ๋
ผ๋ฌธ์ ์์, ํต์ฌ ๊ธฐ๋ฅ, ์์์ ์์ฉ ๊ฐ๋ฅ์ฑ์ ์ฝ๊ฒ ์ค๋ช
ํฉ๋๋ค.
๋ ผ๋ฌธ ① PeFoMed: MLLM ์๋ฃ์์ ํ์คํฌ ์ต์ ํ ์ฐ๊ตฌ (2024)
-
ํต์ฌ: ์๋ฃ ๋ถ์ผ Med-VQA(์ง์์๋ต) + ์๋ฃ ๋ณด๊ณ ์ ์๋ ์์ฑ(MRG) ์ MLLM์ ์์ฉ
-
ํน์ง: ํ๋ผ๋ฏธํฐ ํจ์จ์ ๋ฏธ์ธ์กฐ์ (fine-tuning)์ผ๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ ๋์ด๊ณ , ํ๊ฐ ์งํ๋ฅผ ๊ฐ๋ฐ
-
์์: MLLM์ ์๋ฃ์์ ์ง๋ฌธ ์๋ต ๋ฐ ๋ฆฌํฌํธ ์์ฑ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค
-
์คํ๊ฒฐ๊ณผ: GPT-4v๋ณด๋ค ์๋ฃํนํ ๋ฏธ์ธ์กฐ์ ๋ชจ๋ธ์ด ์ฑ๋ฅ ์ฐ์
์ฃผ์: Med-VQA๋ “์๋ฃ ์์์ ๋ํ ์ง๋ฌธ์ ๋ตํ๋ ๋ฅ๋ ฅ”์ ๋ปํฉ๋๋ค.
๋ ผ๋ฌธ ② MedXChat: ํ๋ถ ์์ค๋ ์ด ์ดํด ๋ฐ ์์ฑ ํตํฉ ํ๋ ์์ํฌ (2023)
-
ํต์ฌ: ํ๋ถ ์์ค๋ ์ด(CXR)๋ฅผ ์ดํดํ๊ณ ์ง๋จ ๋ณด๊ณ ์ ์์ฑ + ์๊ฐ ๋ฌธ๋ต์ ํ๋์ ๋ชจ๋ธ๋ก ํตํฉ
-
๊ตฌ์ฑ:
-
์์ค๋ ์ด ์์ + ์์ฐ์ด ์ ๋ ฅ์ ํจ๊ป ์ฒ๋ฆฌ
-
Stable Diffusion ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์์ฑ(๋ชจ์ฌ) ๊ธฐ์ ํฌํจ
-
-
์์: ์์์ํ์์ ํํ ์ฐ๋ ์์ค๋ ์ด ๊น์ ์ดํด์ ์๋ ๋ณด๊ณ ์ ์์ฑ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค
์ฃผ์: Stable Diffusion์ ์ด๋ฏธ์ง ์์ฑ AI๋ก MLLM ๊ธฐ๋ฐ ์์ ์์ฑ ๊ธฐ๋ฅ์ ์ค๋ช ํ ๋ ์ฌ์ฉ๋ฉ๋๋ค.
๋ ผ๋ฌธ ③ Med-2E3: 3D ์๋ฃ์์ ํตํฉ MLLM
-
ํต์ฌ: 3D ์์ (์: CT)๊ณผ 2D ์์(X-ray)์ ๋์์ ์ฒ๋ฆฌํ๋๋ก ์ค๊ณ๋ ๋ฉํฐ๋ชจ๋ฌ ๊ตฌ์กฐ ์ ์
-
ํน์ง:
-
3D์ 2D ์ ๋ณด๋ฅผ ๋ชจ๋ ์ดํด
-
์๋ฃ ๋ณด๊ณ ์ ์์ฑ ๋ฐ ์์ ์ง์์๋ต์์ ์ฑ๋ฅ ํฅ์
-
-
๊ฒฐ๊ณผ: ๋ณด๊ณ ์ ์์ฑ ์ฑ๋ฅ 14% ํฅ์, VQA ์ ํ๋ 5% ํฅ์
์์์ ์๋ฏธ: CT๊ฐ์ 3์ฐจ์ ์์์ ๋ ๊น์ด ์ดํดํ ์ ์๋ ๋ฅ๋ ฅ์ด ์ถ๊ฐ๋์์ต๋๋ค.
๋ ผ๋ฌธ ④ MedPLIB: ๋ฐ์ด์ค์๋ฃ ํฝ์ ์์ค ์ดํด MLLM
-
ํต์ฌ: MLLM์ด ํฝ์ ์์ค(pixel-level) ์ดํด๊น์ง ๊ฐ๋ฅํ๋๋ก ์ค๊ณ
-
๊ธฐ๋ฅ:
-
๋ฌธ์ ์ด๋ฏธ์ง์์ ์์ญ, ์์ ํ ์ ํ, ๋ฐ์ด๋ฉ ๋ฐ์ค ์ดํด
-
๋ณตํฉ ์๊ฐ ์ง์์๋ต ๊ฐ๋ฅ
-
-
์์: ์๋ฃ์์์์ ์ ํํ ๋ณ๋ณ ์์น ์ค๋ช , ๋ ๊ตฌ์ฒด์ ํด์ ๊ฐ๋ฅ
์ฃผ์: ํฝ์ ์์ค ์ดํด๋ ๋จ์ “์ ์ฒด ์ด๋ฏธ์ง ํด์”๋ณด๋ค ์ธ๋ถ ๋ถ์ ์ดํด๊ฐ ํ์ํ ๋ ํ์์ ์ ๋๋ค.
๋ ผ๋ฌธ ⑤ Multimodal Large Language Models in Medical Imaging(๋ฆฌ๋ทฐ)
-
ํต์ฌ: MLLM์ด ์์์ํ์์ ์ด๋ป๊ฒ ์ฐ์ด๊ณ ์๋์ง ์ ๋ฆฌํ ์ต์ ๋ฆฌ๋ทฐ ๋ ผ๋ฌธ
-
ํต์ฌ ๋ด์ฉ:
-
์๋ ๋ณด๊ณ ์ ์์ฑ
-
์์ ์ง์์๋ต
-
์์์ง์ ์ํธ์์ฉ
-
๋ชจ๋ธ ํ๊ณ (๋ฐ์ดํฐ ๋ถ์กฑ, ํฌ๋ช ์ฑ, ํ๊ฐ ํ๊ณ ๋ฑ)
-
์ฃผ์: ๋ฆฌ๋ทฐ ๋ ผ๋ฌธ์ “์์ญ ์ ์ฒด๋ฅผ ์ ๋ฆฌํ ๋ ผ๋ฌธ”์ผ๋ก ์ฒ์ ํํฉ ํ์ ์ ์ข์ต๋๋ค.
๋ ผ๋ฌธ ⑥ Med-MLLM for Pandemic Response(์์ ์ฐ๊ตฌ)
-
ํต์ฌ: ์ฝ๋ก๋19 ๊ฐ์ ํฌ๋ฐ๋ฏน ์ํฉ์์ ์์+ํ ์คํธ ๊ธฐ๋ฐ MLLM์ด
-
์ง๋จ ์ง์
-
์ง๋ณ ๋ณด๊ณ ์ ์์ฑ
-
๋ค๊ตญ์ด ํ๊ฒฝ ๋์
๋ฅ๋ ฅ์ ๋ณด์ฌ์ค
-
์ด๋ ํต์ํ์ ๊ธฐ๋ฅ ํ๊ฐ์ ์ง๋จ ๋ถ๋ฅ๊น์ง ๊ฐ๋ฅํ MLLM์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
4️⃣ ์ค์ ์๋ฃ ํ์ฅ์์ MLLM์ ์คํํ๊ณ ํ ์คํธํ๋ ๋ฐฉ๋ฒ
์๋๋ MLLM์ ์๋ฃ ์์/ํต์ํ ๋ฐ์ดํฐ์ ์ ์ฉํด ๋ณด๋ ์ค์ต ๊ฐ์ด๋์ ๋๋ค.
๐ ์ค์ต ์ค๋น
ํ์ํ ๊ฒ
-
๊ณต๊ฐ ๋ฐ์ดํฐ์ (MIMIC-CXR, VQA-RAD ๋ฑ)
-
Python ๊ฐ๋ฐํ๊ฒฝ + GPU
-
Hugging Face ํ๊ฒฝ (๋ชจ๋ธ ๋ค์ด๋ก๋ ์ค์ต)
-
MONAI ํ๋ ์์ํฌ ๋ฑ ์๋ฃ AI ํดํท
๐ ๋จ๊ณ๋ณ ์คํ
━━━━━━━━━━━━━━━━
-
๋ฐ์ดํฐ ์ค๋น
-
ํ๋ถ X-ray ์ด๋ฏธ์ง, CT ์ด๋ฏธ์ง
-
์ง๋จ ๋ ์ด๋ธ + ์๊ฒฌ ํ ์คํธ
-
-
๋ชจ๋ธ ์ ํ
-
๊ธฐ์กด LLM + ๋น์ ์ธ์ฝ๋ ๊ฒฐํฉ ๋ชจ๋ธ
(์: Vision-LLM ๊ธฐ๋ฐ ๋ชจ๋ธ)
-
-
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
-
์ด๋ฏธ์ง ํฌ๊ธฐ ์ ๊ทํ
-
๋ผ๋ฒจ ์ ๋ฆฌ
-
-
์ํผ๋ฐ์ด์ฆ ํ์ต/๋ฏธ์ธ์กฐ์
-
PEFT (Parameter Efficient Fine-Tuning) ๊ธฐ๋ฒ ํ์ฉ
-
-
ํ๊ฐ
-
VQA ์๋ต ์ ํ๋
-
์๋ ๋ณด๊ณ ์ ์์ฑ ํ์ง
-
-
ํผ๋๋ฐฑ ๋ฐ ๋ฐ๋ณต
━━━━━━━━━━━━━━━━
5️⃣ ์์ ์์ฉ ์์
์์ ① ์์ค๋ ์ด ์๋ ๋ณด๊ณ ์ ์์ฑ
MLLM์ ์์ค๋ ์ด ์์ + ๊ธฐ๋ณธ ๋ณ๋ ฅ ์ ๋ณด๋ฅผ ์ ๋ ฅ๋ฐ์
“์ผ์ฆ ์๊ฒฌ๊ณผ ํ๋ ด ๊ฐ๋ฅ์ฑ์ด ์์ฌ๋ฉ๋๋ค.”
์ ๊ฐ์ด ์ด๊ธฐ ํ์ ๋ฆฌํฌํธ ์์ค์ ํ ์คํธ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
์์ ② ํต์ํ ์์ ์ค๋ช ๋ฐ ์ง๋ฌธ ์๋ต
ํต์ํ ์์ (PET, SPECT)์ ๋ชจ๋ธ์ ์ ๊ณตํ๋ฉด
“ํด๋น ๋ถ์ ๋ฐฉ์ฌ์ฑ ์ญ์ทจ๊ฐ ๋น์ ์์ ์ ๋๋ค.”
๋ฑ๊ณผ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ถ์ ๋ฌธ์ฅ์ ์์ฑํด ์ค๋๋ค.
6️⃣ MLLM ํ๊ณ ๋ฐ ์์ ๊ณ ๋ ค์ฌํญ
-
๋ฐ์ดํฐ ํ์ง/๋ค์์ฑ ๋ถ์กฑ
-
์ค๋ช ๊ฐ๋ฅ์ฑ ๋ถ์กฑ (“์ ๊ทธ๋ฐ ํ๋จ์ธ์ง” ๋ถํฌ๋ช )
-
๊ณผ๋ํ ๊ณ์ฐ ๋น์ฉ
-
์๋ฃ์ค๋ฆฌ/ํ์์ ๋ณด๋ณดํธ ๊ท์ ์ค์ ํ์
7️⃣ ์์ผ๋ก์ ๋ฐฉํฅ
-
๋๊ท๋ชจ ์๋ฃ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ๊ตฌ์ถ
-
3D ์๋ฃ์์ + ํ ์คํธ๋ฅผ ๋์ฑ ์์ฐ์ค๋ฝ๊ฒ ํตํฉ
-
์ค์๊ฐ ์์ฌ๊ฒฐ์ ๋ณด์กฐ AI ๊ฐ๋ฐ
-
๊ตญ๋ด์ธ ์์์ํ๊ณผ ํ์คํ
๐ ์์ฝ
-
MLLM์ ์๋ฃ์์๊ณผ ํต์ํ ์์๊น์ง ๋์์ ์ดํดํ๋ ์ฐจ์ธ๋ AI์ ๋๋ค.
-
์ต์ ๋ ผ๋ฌธ๋ค์ ์์ค๋ ์ด ๋ณด๊ณ ์ ์์ฑ, ๋ค์ค ์์ ์ง์์๋ต, 3D ์์ ์ดํด ๋ฑ ๋ค์ํ ํ์คํฌ์์ ์ฑ๊ณผ๋ฅผ ๋ณด์ ๋๋ค.
-
์ค์ ์ค์ต์ ๊ณต๊ฐ ๋ฐ์ดํฐ์ + Hugging Face ๋ชจ๋ธ + MONAI ํด๋ก ๊ฐ๋ฅํฉ๋๋ค.
-
์์ ์ ์ฉ ์ ๋ฐ์ดํฐ/์์ /์ค๋ฆฌ ๊ณ ๋ ค๊ฐ ํ์ํฉ๋๋ค.
๐ท️ ํ๊ทธ ๊ฒ์
#MLLM #์๋ฃAI #์์์ํ #ํต์ํ #MedicalImaging #RadiologyAI #PET #CT #AIinMedicine #VQA #ReportGeneration
๐ ๋ธ๋ก๊ทธ ๊ฒ์ ์ค๋ช (150์)
AI๋ ์์ค๋ ์ด/ํต์ํ ์์๊น์ง ์ฝ๋๋ค.
MLLM์ผ๋ก ์ง๋จ ๋ณด์กฐ·๋ฆฌํฌํธ ์์ฑ·์ง๋ฌธ์๋ต๊น์ง ๊ฐ๋ฅํ ์ค์ ๋ฐฉ๋ฒ๊ณผ 6ํธ ํต์ฌ ๋
ผ๋ฌธ์ ๋ฐ๋ผ ํด๋ณด์ธ์.
๐ ์ฐธ๊ณ ๋ฌธํ
-
He et al., PeFoMed: Parameter Efficient Fine-tuning of MLLMs for Medical Imaging, arXiv, 2024
-
Yang et al., MedXChat: Unified MLLM Framework for CXRs, arXiv, 2023
-
Shi et al., Med-2E3: 2D-Enhanced 3D Medical MLLM, arXiv, 2024
-
Huang et al., MedPLIB: Pixel-Level Biomedical MLLM, arXiv, 2024
-
Korean Journal of Radiology Review, MLLMs in Medical Imaging, PubMed, 2025
-
Med-MLLM for Pandemic Response Study, PubMed, 2023
๋๊ธ
๋๊ธ ์ฐ๊ธฐ