๐ ํต๊ณ ์ด๋ณด ํ์ถ! 5๋ถ ๋ง์ ๋๋ด๋ ํ์ ํต๊ณ ์ฉ์ด ์์ ์ ๋ณต
๐ ํต๊ณ ์ด๋ณด ํ์ถ! 5๋ถ ๋ง์ ๋๋ด๋ ํ์ ํต๊ณ ์ฉ์ด ์์ ์ ๋ณต
“ํต๊ณ ์ฉ์ด ๋๋ฌธ์ ๊น๋ ค ์ฃฝ์ ๊ฒ ๊ฐ๋ค…”
— ํต๊ณ๋ฅผ ์ฒ์ ์ ํ๋ ์ฌ๋์ 99%๊ฐ ํ๋ ๋ง¹
๋น์ท๋น์ทํ ์ฉ์ด, ๋์๋ ๊ฐ๋
์๊ธฐ…
ํ์ง๋ง **๋งฅ๋ฝ(Context)**๋ง ์ดํดํ๋ฉด ํต๊ณ๋ ๋จ๋ฒ์ ์ ๋ฆฌ๋ฉ๋๋ค.
์ค๋์ ํต๊ณ ์ด๋ณด์๊ฐ ๋ฐ๋์ ํท๊ฐ๋ฆฌ๋ ํต์ฌ ์ฉ์ด๋ฅผ
์คํ ๊ฐ๋ฅํ ์ ์ฐจ์ ํ์์ผ๋ก ์ ๋ฆฌํด๋๋ฆฝ๋๋ค.
๋ธ๋ก๊ทธ ์ด์์๋ผ๋ฉด ๊ฐ์ ์๋ฃ๋ก ๋ฐ๋ก ํ์ฉํ ์ ์๋๋ก ๊ตฌ์ฑํ์ต๋๋ค.
๐ ๋ชฉ์ฐจ
ํต๊ณ์ ์ถ๋ฐ์ : ๋ชจ์ง๋จ๊ณผ ํ๋ณธ
๊ธฐ์ ํต๊ณ(Descriptive Statistics) ์์ ์ดํด
์ ๊ท๋ถํฌ์ ํ๋ฅ ๋ณ์ ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ถ๋ก ํต๊ณ(Inferential Statistics)์ ๊ตฌ์กฐ
์ ์ถ์ vs ๊ตฌ๊ฐ์ถ์
๊ฐ์ค ๊ฒ์ (Hypothesis Testing)์ ๋ณธ์ง
์ค์ ์ ์ฉ ์ ์ฐจ ๊ฐ์ด๋
์์ฝ ์ ๋ฆฌ
์ฐธ๊ณ ๋ฌธํ
ํ๊ทธ
1️⃣ ํต๊ณ์ ์ถ๋ฐ์ : ๋ชจ์ง๋จ๊ณผ ํ๋ณธ
✔ ๋ชจ์ง๋จ(Population)
์ฐ๋ฆฌ๊ฐ ์๊ณ ์ถ์ ๋์ ์ ์ฒด
์: ๋ํ๋ฏผ๊ตญ ์ ์ฒด ๊ณ ๋ฑํ์ ํค
✔ ํ๋ณธ(Sample)
๋ชจ์ง๋จ์์ ์ผ๋ถ๋ฅผ ๋ฌด์์๋ก ๋ฝ์ ๊ฒ
์ด ๊ณผ์ ์
ํ๋ณธ์ถ์ถ(Sampling) ์ด๋ผ๊ณ ํฉ๋๋ค.
✔ ๋ชจ์(Parameter)
๋ชจ์ง๋จ์ ํน์ฑ์ ๋ํ๋ด๋ ๊ฐ
์: ๋ชจ์ง๋จ ํ๊ท , ๋ชจ์ง๋จ ๋ถ์ฐ
์ฐ๋ฆฌ๋ ๋ณดํต ๋ชจ์๋ฅผ ๋ชจ๋ฅธ๋ค๋ ์ ์ ์์ ์ถ๋ฐํฉ๋๋ค.
✔ ํต๊ณ๋(Statistic)
ํ๋ณธ์ ํน์ฑ์ ๋ํ๋ด๋ ๊ฐ
์: ํ๋ณธ ํ๊ท , ํ๋ณธ ๋ถ์ฐ
๐ก ํต์ฌ ๊ฐ๋ :
๋ชจ์๋ “์ง์ง ๊ฐ”
ํต๊ณ๋์ “์ฐ๋ฆฌ๊ฐ ๊ณ์ฐํ ๊ฐ”
2️⃣ ๊ธฐ์ ํต๊ณ(Descriptive Statistics)
๋ฐ์ดํฐ๋ฅผ ์์ฝํ๊ณ ์ค๋ช ํ๋ ๋จ๊ณ
์ฃผ์ ๊ธฐ์ ํต๊ณ๋
| ๊ตฌ๋ถ | ์ค๋ช |
|---|---|
| ํ๊ท (Mean) | ์ค์ฌ ์์น |
| ์ค์๊ฐ(Median) | ๊ฐ์ด๋ฐ ๊ฐ |
| ์ต๋น๊ฐ(Mode) | ๊ฐ์ฅ ๋ง์ด ๋์จ ๊ฐ |
| ํ์คํธ์ฐจ(Standard Deviation) | ๋ฐ์ดํฐ์ ํผ์ง ์ ๋ |
| ์ธ๋(Skewness) | ๋ถํฌ์ ๋น๋์นญ ์ ๋ |
| ์ฒจ๋(Kurtosis) | ๋พฐ์กฑํ ์ ๋ |
๐ฆ ์คํ ์์ญ ①
□ ์์
์ด๋ ๊ตฌ๊ธ ์คํ๋ ๋์ํธ๋ก ํ๊ท ๊ณผ ํ์คํธ์ฐจ ๊ณ์ฐํด๋ณด๊ธฐ
□ ๊ฐ์ ๋ฐ์ดํฐ์์ ์ค์๊ฐ๊ณผ ํ๊ท ๋น๊ตํด๋ณด๊ธฐ
□ ๋ฐ์ดํฐ ๋ถํฌ ๊ทธ๋ํ ๊ทธ๋ ค๋ณด๊ธฐ
์ถ์ฒ ๋๊ตฌ:
๊ตฌ๊ธ ์คํ๋ ๋์ํธ
Python (pandas, matplotlib)
3️⃣ ์ ๊ท๋ถํฌ์ ํ๋ฅ ๋ณ์
✔ ์ ๊ท๋ถํฌ(Normal Distribution)
์ข์ฐ ๋์นญ ์ข ๋ชจ์ ๋ถํฌ
ํน์ง:
ํ๊ท ๊ทผ์ฒ ๊ฐ์ด ๋ง์ด ๋์จ๋ค
๋ฉ์ด์ง์๋ก ํ๋ฅ ์ด ๋ฎ์์ง๋ค
▲
▲ ▲
▲ ▲
(์ข ๋ชจ์์ ์์ํด๋ณด์ธ์)
✔ ํ๋ฅ ๋ณ์(Random Variable)
๊ฐ๋ฅํ ๋ชจ๋ ๊ฐ์ ํ๋ฅ ์ ์ผ๋ก ํฌํจํ๋ ๋ณ์
์:
์ํ ์ ์๋ 0~100 ์ฌ์ด ๋ค์ํ ๊ฐ์ ๊ฐ์ง ์ ์์
์ด ๋ถํฌ๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ํํํ ๊ฒ์ด
ํ๋ฅ ๋ถํฌ(Probability Distribution)
4️⃣ ์ถ๋ก ํต๊ณ(Inferential Statistics)
ํ๋ณธ → ๋ชจ์ง๋จ ๋ฐฉํฅ์ผ๋ก ์ถ๋ก ํ๋ ๊ณผ์
๊ตฌ์ฑ:
ํต๊ณ์ ์ถ์ (Estimation)
๊ฐ์ค ๊ฒ์ (Hypothesis Testing)
5️⃣ ์ ์ถ์ vs ๊ตฌ๊ฐ์ถ์
✔ ์ ์ถ์ (Point Estimation)
“๋ชจํ๊ท ์ 100์ผ ๊ฒ์ด๋ค”
ํ๋์ ๊ฐ์ผ๋ก ์ถ์
์ฌ์ฉํ๋ ๋๊ตฌ:
์ถ์ ๋(Estimator)
์: ํ๋ณธ ํ๊ท
✔ ๊ตฌ๊ฐ์ถ์ (Interval Estimation)
“๋ชจํ๊ท ์ 95% ํ๋ฅ ๋ก 95~105 ์ฌ์ด์ ์๋ค”
๋ํ ๊ฐ๋
:
์ ๋ขฐ๊ตฌ๊ฐ(Confidence Interval)
๐ฆ ์คํ ์์ญ ②
□ ํ๋ณธ ํ๊ท ๊ณ์ฐํ๊ธฐ
□ ํ์ค์ค์ฐจ(Standard Error) ๊ณ์ฐํด๋ณด๊ธฐ
□ 95% ์ ๋ขฐ๊ตฌ๊ฐ ์ง์ ๊ณ์ฐํด๋ณด๊ธฐ
์ ๋ขฐ๊ตฌ๊ฐ ๊ณต์ ์ดํด:
ํ๊ท ± (์๊ณ๊ฐ × ํ์ค์ค์ฐจ)
6️⃣ ๊ฐ์ค ๊ฒ์ (Hypothesis Testing)
์ด๋ฏธ ๋จธ๋ฆฟ์์ ์๋ ์ฃผ์ฅ
์:
“์ด ์ ํ์ ํ๊ท 100์ ์ด๋ค”
์ด๋ฅผ ๋ฐ์ดํฐ๋ก ๊ฒ์ฆ
๊ตฌ์ฑ:
๊ท๋ฌด๊ฐ์ค(H₀)
๋๋ฆฝ๊ฐ์ค(H₁)
์ ์์์ค(Significance Level)
p-value
ํต์ฌ ์ง๋ฌธ:
“์ด ๋ฐ์ดํฐ๊ฐ ์ฐ์ฐํ ๋์ฌ ํ๋ฅ ์ด ์ผ๋ง๋ ๋ฎ์๊ฐ?”
๐ฆ ์คํ ์์ญ ③
□ A/B ํ
์คํธ ์ค๊ณํด๋ณด๊ธฐ
□ ํ๊ท ์ฐจ์ด ๊ฒ์ ํด๋ณด๊ธฐ
□ p-value ๊ณ์ฐํด๋ณด๊ธฐ
์ค์ ์ถ์ฒ:
R
Python (scipy.stats)
Jamovi (์ด๋ณด์์ฉ ๋ฌด๋ฃ ํต๊ณ ํ๋ก๊ทธ๋จ)
๐ฅ ๊ฐ์ ์ค๋น์๋ฅผ ์ํ ๊ตฌ์กฐํ ํ
๊ฐ์๋ ๋ค์ ํ๋ฆ์ผ๋ก ๊ตฌ์ฑํ์ธ์:
๋ชจ์ง๋จ → ํ๋ณธ → ๊ธฐ์ ํต๊ณ → ๋ถํฌ → ์ถ์ → ๊ฒ์
์ด ํ๋ฆ๋ง ์ดํดํด๋ ํต๊ณ๋ 70% ์ ๋ณต์ ๋๋ค.
๐ ์ถ๊ฐ ์ค๋ช (๋ณด๊ฐ ๋ด์ฉ)
※ ์ถ๊ฐ ์ค๋ช
ํ์ค์ค์ฐจ(Standard Error): ํ๋ณธ ํ๊ท ์ ํ๋ค๋ฆผ ์ ๋
๋ถํธ์ฑ(Unbiasedness): ํ๊ท ์ ์ผ๋ก ๋ชจ์๋ฅผ ์ ํํ ๋ง์ถ๋ ์ฑ์ง
์ผ์น์ฑ(Consistency): ํ๋ณธ์ด ์ปค์ง์๋ก ์ ํํด์ง๋ ์ฑ์ง
์ฌํ ์์ญ์ ์๋ฆฌํต๊ณํ(Mathematical Statistics)์์ ๋ค๋ฃน๋๋ค.
๐ ์ฐธ๊ณ ๋ฌธํ
Montgomery & Runger, Applied Statistics and Probability for Engineers
James et al., An Introduction to Statistical Learning
์์ธ๋ํ๊ต ํต๊ณํ๊ณผ ๊ณต๊ฐ ๊ฐ์ ์๋ฃ
Khan Academy Statistics Course
๐ง ์ต์ข ์์ฝ
ํต๊ณ๋ ๋ชจ์ง๋จ ์ดํด๋ฅผ ์ํ ํ๋ฌธ
ํ๋ณธ์ผ๋ก ๋ชจ์๋ฅผ ์ถ์ ํ๋ค
๊ธฐ์ ํต๊ณ๋ ์ค๋ช
์ถ๋ก ํต๊ณ๋ ํ๋จ
์ ์ถ์ ์ ํ ์
๊ตฌ๊ฐ์ถ์ ์ ๋ฒ์
๊ฐ์ค๊ฒ์ ์ ์ฃผ์ฅ ๊ฒ์ฆ
ํต์ฌ์
“๋ชจ์ง๋จ์ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ ํ๋ณธ์ผ๋ก ์ถ๋ก ํ๋ค”
๐ท ํ๊ทธ
#ํต๊ณ๊ธฐ์ด #Statistics #๋ชจ์ง๋จ #ํ๋ณธ #๊ธฐ์ ํต๊ณ #์ถ๋ก ํต๊ณ #์ ๋ขฐ๊ตฌ๊ฐ #๊ฐ์ค๊ฒ์ #๋ฐ์ดํฐ๋ถ์ #ํต๊ณ๊ฐ์
๐ ๊ฒ์ ์ค๋ช (150์ ์ด๋ด)
ํต๊ณ ์ฉ์ด ๋๋ฌธ์ ํท๊ฐ๋ฆฌ์ จ๋์? 5๋ถ ๋ง์ ๋ชจ์ง๋จ·์ ๋ขฐ๊ตฌ๊ฐ·๊ฐ์ค๊ฒ์ ๊น์ง ์์ ์ ๋ฆฌ! ์ค์ ์ ์ฉ 3๋จ๊ณ๋ก ๋ํต ์์ด ์ดํดํ์ธ์!
¹ ์๋ฌธ ์์ ์ค ์ธ์ฉ
“ํต๊ณ ๋๋ฌธ์ ๊น๋ ค ์ฃฝ์ ๊ฒ ๊ฐ๋ค”
๋๊ธ
๋๊ธ ์ฐ๊ธฐ