๐ ํต๊ณํ์ ๋ฏธ๋ก์์ ํ์ถํ๋ผ! ์ด๋ณด์๋ฅผ ์ํ 'ํ๋ฅ ๊ณผ ํต๊ณ' ์๋ฒฝ ๊ฐ์ด๋
๐ ํต๊ณํ์ ๋ฏธ๋ก์์ ํ์ถํ๋ผ! ์ด๋ณด์๋ฅผ ์ํ 'ํ๋ฅ ๊ณผ ํต๊ณ' ์๋ฒฝ ๊ฐ์ด๋
์ธ์์ ๋ชจ๋ ๋ฐ์ดํฐ๋ ์ ๋ง๋ค์ ์ด์ผ๊ธฐ๋ฅผ ํ๊ณ ์์ต๋๋ค. ํต๊ณ๊ฐ ์ด๋ ค์ด ์ด์ ๋ ์ํ ๋๋ฌธ์ด ์๋๋ผ ์ฉ์ด์ ๋งฅ๋ฝ์ ๋์น๊ธฐ ๋๋ฌธ์ด๋ผ๋ ์ ์ ๋๋ค.
์ค๋ ์ด ๊ธ์ ํต๊ณํ์ด๋ผ๋ ๊ฑฐ๋ํ ํผ์ฆ์ ๋จ์จ์ ๋ง์ถ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๋ณต์กํ ์์ ์์ด, ํ๋ฆ๋ง ๋ฐ๋ผ์ค๋ฉด ์ฌ๋ฌ๋ถ๋ ํต๊ณ ์ ๋ฌธ๊ฐ์ ์์ ์ ๊ฐ์ง ์ ์์ต๋๋ค. ํนํ ๋ธ๋ก๊ทธ ์ด์์ด๋ ๊ฐ์๋ฅผ ์ค๋นํ์๋ ๋ถ๋ค๊ป๋ ๋ํ ๋์ ์๋ ์ค์ ์ง์นจ์๊ฐ ๋ ๊ฒ์ ๋๋ค.
๐ ๋ชฉ์ฐจ
ํต๊ณ์ ์ถ๋ฐ์ : ๋ชจ์ง๋จ(Population)๊ณผ ํ๋ณธ(Sample)
๋ฐ์ดํฐ์ ์ผ๊ตด์ ๊ทธ๋ฆฌ๋ค: ๊ธฐ์ ํต๊ณ(Descriptive Statistics)
์ฝ์๋ ๋ชจ์: ๋ชจ๋ธ๋ง(Modeling)๊ณผ ์ ๊ท ๋ถํฌ(Normal Distribution)
๋ณด์ด์ง ์๋ ๊ฒ์ ์ถ์ธกํ๋ค: ์ถ๋ก ํต๊ณ(Inferential Statistics)
๋ฒ์๋ก ์น๋ถํ๋ผ: ๊ตฌ๊ฐ ์ถ์ (Interval Estimation)๊ณผ ์ ๋ขฐ ๊ตฌ๊ฐ(Confidence Interval)
๋ด ์๊ฐ์ด ๋ง์๊น? ๊ฐ์ค ๊ฒ์ (Hypothesis Testing)
๐ ํฌ์ ์ ๋ต: ํต๊ณ์ ์ฌ๊ณ ๋ก ์ ์ ํ๋ ๋ฏธ๋ ์ ๋ง์ฃผ
์คํ ์ ์ฐจ์: ๋ฐ์ดํฐ ๋ถ์์ ์ฒซ๊ฑธ์ ๋ฐ๋ผํ๊ธฐ
1. ํต๊ณ์ ์ถ๋ฐ์ : ๋ชจ์ง๋จ๊ณผ ํ๋ณธ
์ฐ๋ฆฌ๊ฐ ์๊ณ ์ถ์ ๋์ ์ ์ฒด๋ฅผ ๋ชจ์ง๋จ(Population)์ด๋ผ๊ณ ํฉ๋๋ค. ํ์ง๋ง ์ ์ฒด๋ฅผ ๋ค ์กฐ์ฌํ๊ธฐ๋ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น์ฃ . ๊ทธ๋์ ์ฐ๋ฆฌ๋ ์ผ๋ถ๋ฅผ ๋๋คํ๊ฒ ๋ฝ์๋ด๋๋ฐ, ์ด๊ฒ์ด ํ๋ณธ(Sample)์ ๋๋ค.
๋ชจ์(Parameter): ๋ชจ์ง๋จ์ ํน์ฑ์ ๋ํ๋ด๋ ๊ฐ(ํ๊ท , ๋ถ์ฐ ๋ฑ).
ํต๊ณ๋(Statistic): ํ๋ณธ์ ํน์ฑ์ ๋ํ๋ด๋ ๊ฐ.
2. ๋ฐ์ดํฐ์ ์ผ๊ตด์ ๊ทธ๋ฆฌ๋ค: ๊ธฐ์ ํต๊ณ
๋ฝ์๋ธ ํ๋ณธ์ ์์ฝํ๊ณ ์ ๋ฆฌํ๋ ๊ณผ์ ์ ๊ธฐ์ ํต๊ณ(Descriptive Statistics)๋ผ๊ณ ํฉ๋๋ค. '์ค๋ช ํ๋ค'๋ผ๋ ๋ป์ ์์ด 'Describe'์์ ์จ ์ฉ์ด์ ๋๋ค.
ํ๊ท (Mean), ์ค์๊ฐ(Median), ์ต๋น๊ฐ(Mode): ๋ฐ์ดํฐ์ ์ค์ฌ์ด ์ด๋์ธ๊ฐ?
์ธ๋(Skewness)์ ์ฒจ๋(Kurtosis): ๋ฐ์ดํฐ๊ฐ ํ์ชฝ์ผ๋ก ์ ๋ ธ๋(์ธ๋), ์ผ๋ง๋ ๋พฐ์กฑํ๊ฐ(์ฒจ๋)?
3. ์ฝ์๋ ๋ชจ์: ๋ชจ๋ธ๋ง๊ณผ ์ ๊ท ๋ถํฌ
๋๋คํ๊ฒ ๋ฝ์ ํ๋ณธ๋ค์ ์ ๊ฐ๊ฐ ๋ค๋ฅด์ง๋ง, ๋ชจ์๋๊ณ ๋ณด๋ฉด ๊ณตํต๋ ํจํด์ด ๋ํ๋ฉ๋๋ค. ๋ฐ๋ก ์ข์ฐ ๋์นญ์ ์ข ๋ชจ์์ธ ์ ๊ท ๋ถํฌ(Normal Distribution)์ ๋๋ค.
ํ๋ฅ ๋ณ์(Random Variable): ์ด๋ค ๊ฐ์ด ๋์ฌ์ง ํ๋ฅ ์ ์ผ๋ก ์ ํด์ ธ ์๋ ๋ณ์.
ํ๋ฅ ๋ถํฌ(Probability Distribution): ์ด๋ค ๊ฐ์ด ๋์ฌ ํ๋ฅ ์ด ์ด๋ป๊ฒ ํผ์ ธ ์๋์ง ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ฆผ.
4. ๋ณด์ด์ง ์๋ ๊ฒ์ ์ถ์ธกํ๋ค: ์ถ๋ก ํต๊ณ
ํ๋ณธ์ ํตํด ๋ชจ์ง๋จ์ ์ง์ง ๋ชจ์ต์ ์ถ๋ฆฌํ๋ ๊ฒ์ด ์ถ๋ก ํต๊ณ(Inferential Statistics)์ ๋๋ค.
์ ์ถ์ (Point Estimation): "ํ๊ท ์ ๋ฑ 100์ผ ๊ฑฐ์ผ!"๋ผ๊ณ ํ ์ ์ ์ฐ์ด ์์ธกํ๋ ๋ฐฉ์. ์ด๋ ์ฌ์ฉํ ํ๋ณธ ํ๊ท ์ ์ถ์ ๋(Estimator)์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
5. ๋ฒ์๋ก ์น๋ถํ๋ผ: ๊ตฌ๊ฐ ์ถ์ ๊ณผ ์ ๋ขฐ ๊ตฌ๊ฐ
ํ ์ ์ ์ฐ๋ ๊ฒ์ ํ๋ฆด ํ๋ฅ ์ด ๋์ต๋๋ค. ๊ทธ๋์ ์ค์ฐจ๋ฅผ ๊ฐ์ํด ๋ฒ์๋ฅผ ์ ํ๋๋ฐ, ์ด๊ฒ์ด ๊ตฌ๊ฐ ์ถ์ (Interval Estimation)์ ๋๋ค.
์ ๋ขฐ ๊ตฌ๊ฐ(Confidence Interval): "์ง์ง ํ๊ท ์ด ์ด ๊ตฌ๊ฐ ์์ ์์ ํ๋ฅ ์ด 95%๋ค"๋ผ๊ณ ๋งํ ๋์ ๊ทธ ๊ตฌ๊ฐ์ ๋๋ค.
ํ์ค ์ค์ฐจ(Standard Error): ํ๋ณธ ํต๊ณ๋์ด ์ค์ ๊ฐ๊ณผ ์ผ๋ง๋ ์ฐจ์ด ๋๋์ง ๋ํ๋ด๋ ๋ณ๋์ฑ์ ๋๋ค.
6. ๋ด ์๊ฐ์ด ๋ง์๊น? ๊ฐ์ค ๊ฒ์
"์ด ์ฝ์ ํจ๊ณผ๊ฐ ์์ ๊ฒ์ด๋ค"๋ผ๋ ๋ด ์ฃผ์ฅ์ด ์ณ์์ง ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ธํ๋ ๊ณผ์ ์ ๊ฐ์ค ๊ฒ์ (Hypothesis Testing)์ด๋ผ๊ณ ํฉ๋๋ค.
๐ ํฌ์ ์ ๋ต: ํต๊ณ์ ์ฌ๊ณ ๋ก ์ ์ ํ๋ ์ ๋ง ์ฃผ์
ํต๊ณ๋ฅผ ์ดํดํ๋ฉด ์์ฅ์ ๋ ธ์ด์ฆ์ ์ง์ง ์ ํธ๋ฅผ ๊ตฌ๋ถํ ์ ์์ต๋๋ค. ๋ฐ์ดํฐ์ ํ์ ๋ฏฟ๋ ๊ธฐ์ ์ ์ฃผ๋ชฉํ์ญ์์ค.
์๋น๋์(NVIDIA, NVDA): * ๊ฐ์กฐ: ํ๋ ํต๊ณํ์ ํต์ฌ์ธ AI์ ๋ฅ๋ฌ๋ ์ฐ์ฐ์ ๊ฐ๋ฅ์ผ ํ๋ GPU์ ์ ์์ ๋๋ค. ๋ชจ๋ ํ๋ฅ ๋ชจ๋ธ๋ง์ ์์ง ์ญํ ์ ํฉ๋๋ค.
ํ๋ํฐ์ด(Palantir, PLTR): * ๊ฐ์กฐ: ๊ฑฐ๋ํ ๋ชจ์ง๋จ(๋น ๋ฐ์ดํฐ)์์ ์ ์๋ฏธํ ํจํด์ ์ฐพ์๋ด ์ถ๋ก ํต๊ณ์ ์ ์ ์ ๋ณด์ฌ์ฃผ๋ ๊ธฐ์ ์ ๋๋ค. ์ ๋ถ์ ๊ธฐ์ ์ ์์ฌ๊ฒฐ์ ์ ๋์ต๋๋ค.
์ํ๋ฒณ(Alphabet, GOOGL): * ๊ฐ์กฐ: ์์ญ์ต ๊ฐ์ ์ํ๋ง ๋ฐ์ดํฐ๋ฅผ ํตํด ์ ๊ตํ ํ๋ฅ ๋ถํฌ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ๊ด๊ณ ์์ต์ ๊ทน๋ํํ๋ ํต๊ณ์ ํ์ ์ ๋๋ค.
๐ ์คํ ์ ์ฐจ์: ๊ธฐ์ด ๋ฐ์ดํฐ ๋ถ์ ๋ฐ๋ผํ๊ธฐ
๋ฐ์ดํฐ ๋ถ์์ ์ฒ์ ์์ํ๋ ๋ถ๋ค์ ์ํด, ์๋ฌ ์์ด ์คํ ๊ฐ๋ฅํ ๋ถ์ ํ๊ฒฝ ๊ตฌ์ถ ์ ์ฐจ๋ฅผ ์๋ดํฉ๋๋ค.
[์คํ ๊ฐ๋ฅ ์์ญ: ํ์ด์ฌ(Python) ๋ฐ์ดํฐ ๋ถ์ ํ๊ฒฝ ์ค์ ]
1๋จ๊ณ: ์๋์ฝ๋ค(Anaconda) ์ค์น
๊ณต์ ์ฌ์ดํธ(
)์ ์ ์ํ์ฌ ๋ณธ์ธ์ ์ด์์ฒด์ ์ ๋ง๋ ๋ฒ์ ์ ๋ค์ด๋ก๋ํ๊ณ ์ค์นํฉ๋๋ค.https://www.anaconda.com/
2๋จ๊ณ: ์ฃผํผํฐ ๋ ธํธ๋ถ(Jupyter Notebook) ์คํ
์ค์น๋ Anaconda Navigator๋ฅผ ์คํํ ํ 'Jupyter Notebook'์ [Launch] ๋ฒํผ์ ํด๋ฆญํฉ๋๋ค.
3๋จ๊ณ: ๊ธฐ์ด ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ถ๋ฌ์ค๊ธฐ
์ ๋ ธํธ๋ถ์ ์ด๊ณ ์๋ ์ฝ๋๋ฅผ ํ ์ค์ฉ ์ ๋ ฅํ ๋ค [Shift + Enter]๋ฅผ ๋๋ฆ ๋๋ค.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
print("๋ถ์ ์ค๋น ์๋ฃ!")
4๋จ๊ณ: ์ ๊ท ๋ถํฌ ๋ฐ์ดํฐ ์์ฑ ๋ฐ ์๊ฐํ
์๋ ์ฝ๋๋ฅผ ๋ณต์ฌํ์ฌ ์คํํ๋ฉด ์ข ๋ชจ์์ ํ๋ฅ ๋ถํฌ ๊ทธ๋ํ๊ฐ ๋ํ๋ฉ๋๋ค.
data = np.random.normal(0, 1, 1000) # ํ๊ท 0, ํ์คํธ์ฐจ 1์ธ ๋ฐ์ดํฐ 1000๊ฐ ์์ฑ
plt.hist(data, bins=30, density=True)
plt.show()
๐ก [์ถ๊ฐ ์ ๋ณด: ๋ณด์ถฉ ์ค๋ช ] (Labeling: ์ถ๊ฐ๋ ๋ถ๋ถ)
๋ถํธ์ฑ(Unbiasedness): ์ถ์ ๋์ ๊ธฐ๋๊ฐ์ด ์ค์ ๋ชจ์์ ์ผ์นํ๋ ์ฑ์ง์ ๋งํฉ๋๋ค. 30๋ ๊ฒฝ๋ ฅ์ ์ ์๋ก์ ๋ง๋ถ์ด์๋ฉด, ์ข์ ์ถ์ ๋์ด ๋๊ธฐ ์ํ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ์กฐ๊ฑด์ ๋๋ค.
์ผ์น์ฑ(Consistency): ํ๋ณธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ์ถ์ ๊ฐ์ด ๋ชจ์์ ๊ฐ๊น์์ง๋ ์ฑ์ง์ ๋๋ค.
"๋ฐ์ดํฐ๋ ๊ฑฐ์ง๋ง์ ํ์ง ์์ง๋ง, ํต๊ณ๋ฅผ ๋ชจ๋ฅด๋ ์ฌ๋์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ๊ฑฐ์ง๋ง์ ํ ์ ์์ต๋๋ค." [์ฃผ์ 1]
(์ฃผ์ 1: ํต๊ณํ์ ๊ฒฉ์ธ์ด์ ๋ณธ๋ฌธ 01:09 ๊ธฐ์ ํต๊ณ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ ์ธ์ฉ)
๐ ์ฐธ๊ณ ๋ฌธํ
์ ํ๋ธ ์ฑ๋ 'ํต๊ณ๊ณต๋ถ':
ํต๊ณ ์ด๋ณด์ ํ๋ ๊ฐ์ด๋ Keystone ๋ธ๋ก๊ทธ:
30๋ ๊ฒฝ๋ ฅ์์ ํต๊ณํ ๊ธฐ์ด Keystone ๋ธ๋ก๊ทธ:
๋ฐ์ดํฐ ๋ถ์ 10๊ณ๋ช ํ๋ ํต๊ณํ (๋ฐ์ ์ ์ธ ์ )
๐ ์์ฝ
๊ธฐ์ ํต๊ณ: ํ์ฌ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ์์ฝํ๊ณ ์ค๋ช ํ๋ ๊ฒ.
์ถ๋ก ํต๊ณ: ํ๋ณธ์ ํตํด ๋ชจ๋ฅด๋ ๋ชจ์ง๋จ์ ์ถ์ธกํ๋ ๊ฒ.
์ ๊ท ๋ถํฌ: ํต๊ณ ๋ชจ๋ธ๋ง์ ๊ธฐ๋ณธ์ด ๋๋ ์ข ๋ชจ์์ ํ๋ฅ ๋ถํฌ.
์ถ์ ๊ณผ ๊ฒ์ : ์ ์ด๋ ๋ฒ์๋ก ๊ฐ์ ๋งํ๊ฑฐ๋(์ถ์ ), ๋ด ๊ฐ์ค์ด ๋ง๋์ง ํ์ธํ๋ ๊ฒ(๊ฒ์ ).
ํฌ์: ์๋น๋์, ํ๋ํฐ์ด, ๊ตฌ๊ธ์ฒ๋ผ ๋ฐ์ดํฐ๋ฅผ ์ง๋ฐฐํ๋ ๊ธฐ์ ์ ํฌ์ํ๋ผ.
#ํต๊ณํ #๋ฐ์ดํฐ๋ถ์ #์ ๊ท๋ถํฌ #์ถ๋ก ํต๊ณ #๊ธฐ์ ํต๊ณ #์ ๋ขฐ๊ตฌ๊ฐ #ํ์ด์ฌ์ฝ๋ฉ #์๋น๋์ #ํ๋ํฐ์ด #์ฃผ์ํฌ์์ ๋ต #๋ชจ์ง๋จ #ํ๋ณธ์ถ์ถ
[๊ฒ์ ์ค๋ช ]
ํต๊ณ ์ฉ์ด ๋๋ฌธ์ ํฌ๊ธฐํ์ จ๋์? ๋ชจ์ง๋จ๋ถํฐ ์ ๋ขฐ๊ตฌ๊ฐ๊น์ง 7๋จ๊ณ๋ก ์๋ฒฝ ์ ๋ฆฌํด ๋๋ฆฝ๋๋ค. 30๋ ๊ฒฝ๋ ฅ์์ ๋ ธํ์ฐ๊ฐ ๋ด๊ธด ๋ฐ์ดํฐ ๋ถ์ ์ ์ฐจ์ ์์ต๋ฅ ๋์ด๋ ํต๊ณ ๊ธฐ๋ฐ ์ฃผ์ ํฌ์ ์ ๋ต์ 10๋ถ ๋ง์ ๋ง์คํฐํ๊ณ ์์ ๊ฐ์ ์ป์ผ์ธ์!
๋๊ธ
๋๊ธ ์ฐ๊ธฐ