Share
Sign In
📄

통계와 확률

통계학
경험적(Empirical Science)의 불확정성(Uncertainty)를 계량적으로 설명하기 위한 논리, 방법론이다.
일반적으로 통계학은 실험과 관찰을 통해서 기록된 데이터를 수학적 기법으로 논리적으로 유추한다. 이때 자료를 수집하고, 분류, 분석, 표현으로 현상의 인과관계를 설명하며, 미래 상황을 예측한다.
이 통계학을 그케 두가지로 나누어 보면 다음과 같다.
기술 통계학(Descriptive Statistics)
- 관찰된 자료로 현재의 상황을 이해하는데 목적이 있다.
추리 통계학(Inferential Statistics)
- 추출된 표본 자료로 확률로써 집단의 특성을 추리한다.
기계학습에서 기계에 학습을 시키기 위한 과정에서 기술적 통계학 이론을 사용하며, 기계학습 후 새로운 입력에 대한 결과를 예측 할 때는 확률 이론을 활용한다.
통계와 기계학습의 차이는 목적에 있다. 통계는 일반화를 통해 현상을 이해하는 데에 목적이 있고 기게학습은 앞으로의 현상을 예측한다는 차이가 있다.
상관(Correlation) 분석
독립변수와 종속변수가 존재하며, 이 사이의 관계 강도 상관계수라고 하고 -1 ~ 1 사이의 값으로 나타낸다.
이때 관계를 함수식으로 나타내며, 나타낸 방법으로 회귀분석을 통해 예측하게 된다.
종속변수 : 기대값(label) 또는 예상값.
독립변수 : 결과값에 영향을 주는 입력값.
회귀(Regression) 분석
1800년대 초 Legendre와 Gauss가 최소제고법(Least squre method)를 제한했다.
회귀분석에서는 결정계수(r^2) 이 0.65 이상일 때 의미 있는 회귀식이라고 할 수 있다.
ei=yiyˉi=yiβ0β1xie^i = y^i -\bar{y}^i = y^i-\beta_0-\beta_1x^i
E(β0,β1)=12i=1n(ei)2E(\beta_0,\beta_1)=\cfrac{1}{2}\displaystyle\sum_{i=1}^n(e^i)^2
=12i=1n(yiyˉi)2=12i=1n(yiβ0β1xi)2= \cfrac{1}{2} \displaystyle\sum_{i=1}^n(y^i-\bar{y}^i)^2 = \cfrac{1}{2} \displaystyle\sum_{i=1}^n(y^i -\beta_0-\beta_1x^i)^2
e^i : i 번째 에러,
y^i : i 번재 실제 데이터 값,
\bar{y}^i : 직선에서의 i 번째 값,
\beta_1 : 경사도,
\beta_0 : y 절편
이때 \beta_0\beta_1 을 구하는게 목적이다.
β0β0αE(β0,β1)β0,        β1β1αE(β0,β1)β1\beta_0 \coloneqq \beta_0 - \alpha\cfrac{\partial E(\beta_0,\beta_1)}{\partial\beta_0},\space \space \space \space \space \space \space \space \beta_1 \coloneqq \beta_1 - \alpha\cfrac{\partial E(\beta_0,\beta_1)}{\partial\beta_1}
이때 \alpha 는 수치해석적 근사 해이며 학습률, 델타 룰(delta rule) 이다.
이때 학습 후 얻어진 함수식 y = \beta_1x+ \beta_0 을 가지고 새로운 입력 데이터에 대한 결과값을 예측한다.
예를 들어 독립변수 키에 대한 종속변수 몸무게 회귀 분석한다고 가정하자.
데이터를 모아 회귀분석을 통해 관계를 설명하는 함수식을 찾는다.
함수식 : y = 1.158x-141.24, 결정계수 : r^2 = 0.9331 를 얻을 수 있다.
단순선형 회귀, 다중선형 회귀
아래의 그림을 보자 얻어진 함수식을 바탕으로 우리는 다음 값을 예측할 수 있었다. 이때 사용된 1차 방정식 y = \beta_0 + \beta_1x 를 단순선형 회귀라고 한다.
만약 독립변수 x_i 가 여러개라고 가정해보자. 이때 다중선형 회귀는 아래 왼쪽 그림과 같다.
위의 그림과 같이 다중선형 회기에서는 y = \beta_0 + \beta_1x_1 + \beta_2x_2 식을 만족한다.
로지스틱(Logistic) 회귀
선형 회귀와는 다르게 직선을 사용하지 않고 곡선인 함수를 만족한다. 이때 종속 변수가 연속값이 아니고 범주형(categorical)으로 표현한다.
로지스틱 회귀에 사용되는 시그모이드(Sigmoid) 함수에 대해 알아보자.
시그모이드(Sigmoid) 함수
p(x)β0,β1=eβ0+β1x1+eβ0+β1x       g(z)=z1+zp(x)_{\beta_0,\beta_1} = \cfrac{e^{\beta_0+\beta_1x}}{1+e^{\beta_0+\beta_1x}} \space \space\space\space\space\space\space g(z) = \cfrac{z}{1+z}
이때 \beta_0 + \beta_1x = 0 이면, p = 0.5 가 된다.
\beta_0\beta_1를 구하려면, 최대가능도법(maximum likelihood method)를 사용해야한다.
최대가능도법(maximum likelihood method)
동전을 10번 던져서 앞면이 6번 나왔을 때 최대가능도법을 이용하여 앞면이 나올 확률 p를 구해보자.
p = 0.3 또는 0.5 를 가정하면,
10 10 \\
6 6
P(y=1x;β0,β1)=p(x)β0,β1P(y = 1|x;\beta_0,\beta_1)=p(x)_{\beta_0,\beta_1}
P(y=0x;β0,β1)=1p(x)β0,β1P(y = 0|x;\beta_0,\beta_1) = 1-p(x)_{\beta_0,\beta_1}
Pˉ(y x;β0,β1)=(p(x)β0,β1)y(1p(x)β0,β1)1y\bar{P}(y | \space x;\beta_0,\beta_1) = (p(x)_{\beta_0,\beta_1})^y(1-p(x)_{\beta_0,\beta_1})^{1-y}
L(β0,β1)=i=1nPˉ(yixi;β0,β1)1y                                =i=1n(p(xi)β0,β1)yi(1p(xi)β0,β1)yiL(\beta_0,\beta_1)=\prod_{i=1}^{n}\bar{P}(y^i|x^i;\beta_0,\beta_1)^{1-y} \\\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space=\prod_{i=1}^{n}(p(x^i)_{\beta_0,\beta_1})^{y^i}(1-p(x^i)_{\beta_0,\beta_1})^{y^i}
P = 0.0368 이나 0.2051 라는 결과가 나온다.
따라서 최대가능도법은 가능도 함수를 최대로 하는 확률을 찾는 방법이라고 할 수 있다.
이때 가능도(L, Likelihood)는 \beta_0\beta_1의 함수이며, 자연로그를 취해 최대값으로 하는 \beta_0\beta_1를 찾기 위해 \alpha를 학습률로 하는 델라 룰을 적용한다.
ι(β0,β1)=ln L(β0,β1)\iota(\beta_0,\beta_1)=ln\space L(\beta_0,\beta_1)
=i=1n(yi ln p(xi)β0,β1)+(1yi)ln(1p(xi)β0,β1)=\sum_{i=1}^{n}(y^i\space ln\space p(x^i)_{\beta_0,\beta_1})+(1-y^i)ln(1-p(x^i)_{\beta_0,\beta_1})
ι(β0,β1)(β0)=(yi1p(xi)β0,β1(1yi)1(1p(xi)β0,β1))p(xi)β0,β1β0\cfrac{\partial\iota(\beta_0,\beta_1)}{\partial(\beta_0)} = \bigg(y^i \cfrac{1}{p(x^i)_{\beta_0,\beta_1}}-(1-y^i)\cfrac{1}{(1-p(x^i)_{\beta_0,\beta_1})}\bigg)\cfrac{\partial p(x^i)_{\beta_0,\beta_1}}{\partial\beta_0}
 =(yi1p(xi)β0,β1(1yi)1(1p(xi)β0,β1))p(xi)β0,β1(1p(xi)β0,β1)(β0+β1)β0\space=\bigg(y^i \cfrac{1}{p(x^i)_{\beta_0,\beta_1}}-(1-y^i)\cfrac{1}{(1-p(x^i)_{\beta_0,\beta_1})}\bigg)p(x^i)_{\beta_0,\beta_1}(1-p(x^i)_{\beta_0,\beta_1})\cfrac{\partial(\beta_0+\beta_1)}{\partial\beta_0}
=yi(1p(xi)β0,β1)(1yi)p(xi)β0,β1= y^i(1-p(x^i)_{\beta_0,\beta_1})-(1-y^i)p(x^i)_{\beta_0,\beta_1}
=yip(xi)β0,β1\\ \\=y^i-p(x^i)_{\beta_0,\beta_1}
β0:=β0+αι(β0,β1)β0=β0+α(yip(xi)β0,β1)\beta_0 := \beta_0+\alpha\cfrac{\partial\iota(\beta_0,\beta_1)}{\partial\beta_0}\\=\beta_0 + \alpha(y^i-p(x^i)_{\beta_0,\beta_1})
확률이론
확률이론은 모집단은 모든 경우의 수를 알수 없는 경우에 일어날 수 있는 경우와 신뢰할수 있는 정도 구하여 표본으로 부터 확률 방법으로 모집단 전체를 추리하는 이론이다.
귀무가설
귀무가설 (null hypothesis, H0) 또는 영 가설(零假說)은 통계학에서 처음부터 버릴 것을 예상하는 가설이다. 차이가 없거나 의미있는 차이가 없는 경우의 가설이며 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설이다.
빈도론과 베이지안
빈도론(Frequentism)과 베이지안(Bayesianism)을 비교해보자.
빈도론
빈도론(Frequentism)은 얼마나 특정한 사건이 빈번하게 반복 발생하는지 관찰하여 가설을 검증한다. 이때 빈도적 관점은 경험적 사실만을 가지고 판단한다.
예를 들어 "우유가 있는 잔에 홍차를 따른 것과 홍차를 먼저 따른 잔에 우유를 넣는 것의 맛의 차이를 가릴 수 있다."라고 주장한 어느 부인의 경우
1935 A. Fisher 는 50 : 50확률로 우연히 맞추는 것인지, 사실인지 실험을 제안 했다. 빈도론적 관점 확인하면 부인이 5번 실험 모두 우연히 맞춘 경우 (0.5)5 = 0.031, “5% 유의수준으로 부인은 맛 판별 능력 있다.” 고 본다.
유의수준 : 최초가설(귀무가설)이 틀릴 가능성의 범위
신뢰도 수준: 100-유의수준, 부인의 맛 판별능력의 신뢰도는 95%(=100%-5%)
빈도론은 보통 독립적, 반복적, 정규분포 사건일 때 많이 사용된다. 도박의 승률 계산, 농작물 수확량, 보험금 계산 등이 이에 해당된다.
베이지안
베이지안(Bayesianism)은 Bayes’ Theorem 기반으로 확률을 해석해서 추론하는 이론이다.
임의의 사전확률(귀무가설)을 정하고 데이터 기반 가능도(likelihood)를 계산하여 주관적 활률을 보정하는 방법이다.
사후확률=사전확률가능도확률모든 가설 증거 발생확률사후확률 = \cfrac{사전확률 * 가능도 확률}{모든\space가설\space증거\space발생확률}
P(HlE)=P(H)P(EH)P(E)P(HlE) = \cfrac{P(H)*P(E|H)}{P(E)}
사후확률(posteriori) : P(H|E)
사전확률(priori) : P(H)
가능도(likelihood) : P(E|H)
에비던스 모델 또는 정규화 상수(evidence model or normalized constant) : P(E)
"우유가 있는 잔에 홍차를 따른 것과 홍차를 먼저 따른 잔에 우유를 넣는 것의 맛의 차이를 가릴 수 있다." 라는 사건에서 베이지안 관점으로 추론해보자.
>> 가설1 : "부인은 우연히 50:50 확률로 맛의 차이를 맞춘다. " Priori : P(H_1)
>> 가설2 : "부인은 90% 확률로 맛의 차이를 맞출 능력이 있다." Priori : P(H_2)
>>likelihood : P(E|H_1) = 0.5^5 = 0.03125
>>likelihood : P(E|H_2) = 0.9^5 = 0.59049
>> evidence model : P(E) = \textcolor{#228B22}{0.5} * 0.03125 + \textcolor{#228B22}{0.5} * 0.59049 = 0.31087
>> Posteriori : P(H_1|E)= \textcolor{#228B22}{0.5} *0.03125 / 0.31087 = 0.05
>> Posteriori : P(H_2|E) = \textcolor{#228B22}{0.5}*0.59049/0.31087 = 0.95
이때 \textcolor{#228B22}{0.5}가중치(weight factor) 이다.
따라서 다음과 같은 결론을 얻을 수 있다.
"부인은 90% 확률로 밀크티 맛의 차이를 맞출 능력이 있다는 가설이 95% 확률로 인정된다"
베이지안 이론은 수학적으로 증명된 조건부 확률 정리 기반으로 가설 검증을 하며 관찰된 지식이 없는 불확실한 상황에 적용가능하다. 단, 명확한 모델 설정이 필요하다. 최근 알고리즘과 컴퓨터 성능의 발전으로 사용하기 유리한 환경이다. 예를 들어 956 NIH 콘필드, “흡연과 폐암의 인과관계” 발표와 같다.
인공지능 개론 홈으로 돌아가기
인공지능 개론
AI 홈으로 돌아가기
인공지능 개론
메인으로 돌아가기
통계학
경험적(Empirical Science)의 불확정성(Uncertainty)를 계량적으로 설명하기 위한 논리, 방법론이다.
일반적으로 통계학은 실험과 관찰을 통해서 기록된 데이터를 수학적 기법으로 논리적으로 유추한다. 이때 자료를 수집하고, 분류, 분석, 표현으로 현상의 인과관계를 설명하며, 미래 상황을 예측한다.
이 통계학을 그케 두가지로 나누어 보면 다음과 같다.
기술 통계학(Descriptive Statistics)
- 관찰된 자료로 현재의 상황을 이해하는데 목적이 있다.
추리 통계학(Inferential Statistics)
- 추출된 표본 자료로 확률로써 집단의 특성을 추리한다.
기계학습에서 기계에 학습을 시키기 위한 과정에서 기술적 통계학 이론을 사용하며, 기계학습 후 새로운 입력에 대한 결과를 예측 할 때는 확률 이론을 활용한다.
통계와 기계학습의 차이는 목적에 있다. 통계는 일반화를 통해 현상을 이해하는 데에 목적이 있고 기게학습은 앞으로의 현상을 예측한다는 차이가 있다.
상관(Correlation) 분석
독립변수와 종속변수가 존재하며, 이 사이의 관계 강도 상관계수라고 하고 -1 ~ 1 사이의 값으로 나타낸다.
이때 관계를 함수식으로 나타내며, 나타낸 방법으로 회귀분석을 통해 예측하게 된다.
종속변수 : 기대값(label) 또는 예상값.
독립변수 : 결과값에 영향을 주는 입력값.
회귀(Regression) 분석
1800년대 초 Legendre와 Gauss가 최소제고법(Least squre method)를 제한했다.
회귀분석에서는 결정계수(r^2) 이 0.65 이상일 때 의미 있는 회귀식이라고 할 수 있다.
ei=yiyˉi=yiβ0β1xie^i = y^i -\bar{y}^i = y^i-\beta_0-\beta_1x^i
E(β0,β1)=12i=1n(ei)2E(\beta_0,\beta_1)=\cfrac{1}{2}\displaystyle\sum_{i=1}^n(e^i)^2
=12i=1n(yiyˉi)2=12i=1n(yiβ0β1xi)2= \cfrac{1}{2} \displaystyle\sum_{i=1}^n(y^i-\bar{y}^i)^2 = \cfrac{1}{2} \displaystyle\sum_{i=1}^n(y^i -\beta_0-\beta_1x^i)^2
e^i : i 번째 에러,
y^i : i 번재 실제 데이터 값,
\bar{y}^i : 직선에서의 i 번째 값,
\beta_1 : 경사도,
\beta_0 : y 절편
이때 \beta_0\beta_1 을 구하는게 목적이다.
β0β0αE(β0,β1)β0,        β1β1αE(β0,β1)β1\beta_0 \coloneqq \beta_0 - \alpha\cfrac{\partial E(\beta_0,\beta_1)}{\partial\beta_0},\space \space \space \space \space \space \space \space \beta_1 \coloneqq \beta_1 - \alpha\cfrac{\partial E(\beta_0,\beta_1)}{\partial\beta_1}
이때 \alpha 는 수치해석적 근사 해이며 학습률, 델타 룰(delta rule) 이다.
이때 학습 후 얻어진 함수식 y = \beta_1x+ \beta_0 을 가지고 새로운 입력 데이터에 대한 결과값을 예측한다.
예를 들어 독립변수 키에 대한 종속변수 몸무게 회귀 분석한다고 가정하자.
데이터를 모아 회귀분석을 통해 관계를 설명하는 함수식을 찾는다.
함수식 : y = 1.158x-141.24, 결정계수 : r^2 = 0.9331 를 얻을 수 있다.
단순선형 회귀, 다중선형 회귀
아래의 그림을 보자 얻어진 함수식을 바탕으로 우리는 다음 값을 예측할 수 있었다. 이때 사용된 1차 방정식 y = \beta_0 + \beta_1x 를 단순선형 회귀라고 한다.
만약 독립변수 x_i 가 여러개라고 가정해보자. 이때 다중선형 회귀는 아래 왼쪽 그림과 같다.
위의 그림과 같이 다중선형 회기에서는 y = \beta_0 + \beta_1x_1 + \beta_2x_2 식을 만족한다.
로지스틱(Logistic) 회귀
선형 회귀와는 다르게 직선을 사용하지 않고 곡선인 함수를 만족한다. 이때 종속 변수가 연속값이 아니고 범주형(categorical)으로 표현한다.
로지스틱 회귀에 사용되는 시그모이드(Sigmoid) 함수에 대해 알아보자.
시그모이드(Sigmoid) 함수
p(x)β0,β1=eβ0+β1x1+eβ0+β1x       g(z)=z1+zp(x)_{\beta_0,\beta_1} = \cfrac{e^{\beta_0+\beta_1x}}{1+e^{\beta_0+\beta_1x}} \space \space\space\space\space\space\space g(z) = \cfrac{z}{1+z}
이때 \beta_0 + \beta_1x = 0 이면, p = 0.5 가 된다.
\beta_0\beta_1를 구하려면, 최대가능도법(maximum likelihood method)를 사용해야한다.
최대가능도법(maximum likelihood method)
동전을 10번 던져서 앞면이 6번 나왔을 때 최대가능도법을 이용하여 앞면이 나올 확률 p를 구해보자.
p = 0.3 또는 0.5 를 가정하면,
10 10 \\
6 6
P(y=1x;β0,β1)=p(x)β0,β1P(y = 1|x;\beta_0,\beta_1)=p(x)_{\beta_0,\beta_1}
P(y=0x;β0,β1)=1p(x)β0,β1P(y = 0|x;\beta_0,\beta_1) = 1-p(x)_{\beta_0,\beta_1}
Pˉ(y x;β0,β1)=(p(x)β0,β1)y(1p(x)β0,β1)1y\bar{P}(y | \space x;\beta_0,\beta_1) = (p(x)_{\beta_0,\beta_1})^y(1-p(x)_{\beta_0,\beta_1})^{1-y}
L(β0,β1)=i=1nPˉ(yixi;β0,β1)1y                                =i=1n(p(xi)β0,β1)yi(1p(xi)β0,β1)yiL(\beta_0,\beta_1)=\prod_{i=1}^{n}\bar{P}(y^i|x^i;\beta_0,\beta_1)^{1-y} \\\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space=\prod_{i=1}^{n}(p(x^i)_{\beta_0,\beta_1})^{y^i}(1-p(x^i)_{\beta_0,\beta_1})^{y^i}
P = 0.0368 이나 0.2051 라는 결과가 나온다.
따라서 최대가능도법은 가능도 함수를 최대로 하는 확률을 찾는 방법이라고 할 수 있다.
이때 가능도(L, Likelihood)는 \beta_0\beta_1의 함수이며, 자연로그를 취해 최대값으로 하는 \beta_0\beta_1를 찾기 위해 \alpha를 학습률로 하는 델라 룰을 적용한다.
ι(β0,β1)=ln L(β0,β1)\iota(\beta_0,\beta_1)=ln\space L(\beta_0,\beta_1)
=i=1n(yi ln p(xi)β0,β1)+(1yi)ln(1p(xi)β0,β1)=\sum_{i=1}^{n}(y^i\space ln\space p(x^i)_{\beta_0,\beta_1})+(1-y^i)ln(1-p(x^i)_{\beta_0,\beta_1})
ι(β0,β1)(β0)=(yi1p(xi)β0,β1(1yi)1(1p(xi)β0,β1))p(xi)β0,β1β0\cfrac{\partial\iota(\beta_0,\beta_1)}{\partial(\beta_0)} = \bigg(y^i \cfrac{1}{p(x^i)_{\beta_0,\beta_1}}-(1-y^i)\cfrac{1}{(1-p(x^i)_{\beta_0,\beta_1})}\bigg)\cfrac{\partial p(x^i)_{\beta_0,\beta_1}}{\partial\beta_0}
 =(yi1p(xi)β0,β1(1yi)1(1p(xi)β0,β1))p(xi)β0,β1(1p(xi)β0,β1)(β0+β1)β0\space=\bigg(y^i \cfrac{1}{p(x^i)_{\beta_0,\beta_1}}-(1-y^i)\cfrac{1}{(1-p(x^i)_{\beta_0,\beta_1})}\bigg)p(x^i)_{\beta_0,\beta_1}(1-p(x^i)_{\beta_0,\beta_1})\cfrac{\partial(\beta_0+\beta_1)}{\partial\beta_0}
=yi(1p(xi)β0,β1)(1yi)p(xi)β0,β1= y^i(1-p(x^i)_{\beta_0,\beta_1})-(1-y^i)p(x^i)_{\beta_0,\beta_1}
=yip(xi)β0,β1\\ \\=y^i-p(x^i)_{\beta_0,\beta_1}
β0:=β0+αι(β0,β1)β0=β0+α(yip(xi)β0,β1)\beta_0 := \beta_0+\alpha\cfrac{\partial\iota(\beta_0,\beta_1)}{\partial\beta_0}\\=\beta_0 + \alpha(y^i-p(x^i)_{\beta_0,\beta_1})
확률이론
확률이론은 모집단은 모든 경우의 수를 알수 없는 경우에 일어날 수 있는 경우와 신뢰할수 있는 정도 구하여 표본으로 부터 확률 방법으로 모집단 전체를 추리하는 이론이다.
귀무가설
귀무가설 (null hypothesis, H0) 또는 영 가설(零假說)은 통계학에서 처음부터 버릴 것을 예상하는 가설이다. 차이가 없거나 의미있는 차이가 없는 경우의 가설이며 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설이다.
빈도론과 베이지안
빈도론(Frequentism)과 베이지안(Bayesianism)을 비교해보자.
빈도론
빈도론(Frequentism)은 얼마나 특정한 사건이 빈번하게 반복 발생하는지 관찰하여 가설을 검증한다. 이때 빈도적 관점은 경험적 사실만을 가지고 판단한다.
예를 들어 "우유가 있는 잔에 홍차를 따른 것과 홍차를 먼저 따른 잔에 우유를 넣는 것의 맛의 차이를 가릴 수 있다."라고 주장한 어느 부인의 경우
1935 A. Fisher 는 50 : 50확률로 우연히 맞추는 것인지, 사실인지 실험을 제안 했다. 빈도론적 관점 확인하면 부인이 5번 실험 모두 우연히 맞춘 경우 (0.5)5 = 0.031, “5% 유의수준으로 부인은 맛 판별 능력 있다.” 고 본다.
유의수준 : 최초가설(귀무가설)이 틀릴 가능성의 범위
신뢰도 수준: 100-유의수준, 부인의 맛 판별능력의 신뢰도는 95%(=100%-5%)
빈도론은 보통 독립적, 반복적, 정규분포 사건일 때 많이 사용된다. 도박의 승률 계산, 농작물 수확량, 보험금 계산 등이 이에 해당된다.
베이지안
베이지안(Bayesianism)은 Bayes’ Theorem 기반으로 확률을 해석해서 추론하는 이론이다.
임의의 사전확률(귀무가설)을 정하고 데이터 기반 가능도(likelihood)를 계산하여 주관적 활률을 보정하는 방법이다.
사후확률=사전확률가능도확률모든 가설 증거 발생확률사후확률 = \cfrac{사전확률 * 가능도 확률}{모든\space가설\space증거\space발생확률}
P(HlE)=P(H)P(EH)P(E)P(HlE) = \cfrac{P(H)*P(E|H)}{P(E)}
사후확률(posteriori) : P(H|E)
사전확률(priori) : P(H)
가능도(likelihood) : P(E|H)
에비던스 모델 또는 정규화 상수(evidence model or normalized constant) : P(E)
"우유가 있는 잔에 홍차를 따른 것과 홍차를 먼저 따른 잔에 우유를 넣는 것의 맛의 차이를 가릴 수 있다." 라는 사건에서 베이지안 관점으로 추론해보자.
>> 가설1 : "부인은 우연히 50:50 확률로 맛의 차이를 맞춘다. " Priori : P(H_1)
>> 가설2 : "부인은 90% 확률로 맛의 차이를 맞출 능력이 있다." Priori : P(H_2)
>>likelihood : P(E|H_1) = 0.5^5 = 0.03125
>>likelihood : P(E|H_2) = 0.9^5 = 0.59049
>> evidence model : P(E) = \textcolor{#228B22}{0.5} * 0.03125 + \textcolor{#228B22}{0.5} * 0.59049 = 0.31087
>> Posteriori : P(H_1|E)= \textcolor{#228B22}{0.5} *0.03125 / 0.31087 = 0.05
>> Posteriori : P(H_2|E) = \textcolor{#228B22}{0.5}*0.59049/0.31087 = 0.95
이때 \textcolor{#228B22}{0.5}가중치(weight factor) 이다.
따라서 다음과 같은 결론을 얻을 수 있다.
"부인은 90% 확률로 밀크티 맛의 차이를 맞출 능력이 있다는 가설이 95% 확률로 인정된다"
베이지안 이론은 수학적으로 증명된 조건부 확률 정리 기반으로 가설 검증을 하며 관찰된 지식이 없는 불확실한 상황에 적용가능하다. 단, 명확한 모델 설정이 필요하다. 최근 알고리즘과 컴퓨터 성능의 발전으로 사용하기 유리한 환경이다. 예를 들어 956 NIH 콘필드, “흡연과 폐암의 인과관계” 발표와 같다.
인공지능 개론 홈으로 돌아가기
인공지능 개론
AI 홈으로 돌아가기
인공지능 개론
메인으로 돌아가기
통계학
경험적(Empirical Science)의 불확정성(Uncertainty)를 계량적으로 설명하기 위한 논리, 방법론이다.
일반적으로 통계학은 실험과 관찰을 통해서 기록된 데이터를 수학적 기법으로 논리적으로 유추한다. 이때 자료를 수집하고, 분류, 분석, 표현으로 현상의 인과관계를 설명하며, 미래 상황을 예측한다.
이 통계학을 그케 두가지로 나누어 보면 다음과 같다.
기술 통계학(Descriptive Statistics)
- 관찰된 자료로 현재의 상황을 이해하는데 목적이 있다.
추리 통계학(Inferential Statistics)
- 추출된 표본 자료로 확률로써 집단의 특성을 추리한다.
기계학습에서 기계에 학습을 시키기 위한 과정에서 기술적 통계학 이론을 사용하며, 기계학습 후 새로운 입력에 대한 결과를 예측 할 때는 확률 이론을 활용한다.
통계와 기계학습의 차이는 목적에 있다. 통계는 일반화를 통해 현상을 이해하는 데에 목적이 있고 기게학습은 앞으로의 현상을 예측한다는 차이가 있다.
상관(Correlation) 분석
독립변수와 종속변수가 존재하며, 이 사이의 관계 강도 상관계수라고 하고 -1 ~ 1 사이의 값으로 나타낸다.
이때 관계를 함수식으로 나타내며, 나타낸 방법으로 회귀분석을 통해 예측하게 된다.
종속변수 : 기대값(label) 또는 예상값.
독립변수 : 결과값에 영향을 주는 입력값.
회귀(Regression) 분석
1800년대 초 Legendre와 Gauss가 최소제고법(Least squre method)를 제한했다.
회귀분석에서는 결정계수(r^2) 이 0.65 이상일 때 의미 있는 회귀식이라고 할 수 있다.
ei=yiyˉi=yiβ0β1xie^i = y^i -\bar{y}^i = y^i-\beta_0-\beta_1x^i
E(β0,β1)=12i=1n(ei)2E(\beta_0,\beta_1)=\cfrac{1}{2}\displaystyle\sum_{i=1}^n(e^i)^2
=12i=1n(yiyˉi)2=12i=1n(yiβ0β1xi)2= \cfrac{1}{2} \displaystyle\sum_{i=1}^n(y^i-\bar{y}^i)^2 = \cfrac{1}{2} \displaystyle\sum_{i=1}^n(y^i -\beta_0-\beta_1x^i)^2
e^i : i 번째 에러,
y^i : i 번재 실제 데이터 값,
\bar{y}^i : 직선에서의 i 번째 값,
\beta_1 : 경사도,
\beta_0 : y 절편
이때 \beta_0\beta_1 을 구하는게 목적이다.
β0β0αE(β0,β1)β0,        β1β1αE(β0,β1)β1\beta_0 \coloneqq \beta_0 - \alpha\cfrac{\partial E(\beta_0,\beta_1)}{\partial\beta_0},\space \space \space \space \space \space \space \space \beta_1 \coloneqq \beta_1 - \alpha\cfrac{\partial E(\beta_0,\beta_1)}{\partial\beta_1}
이때 \alpha 는 수치해석적 근사 해이며 학습률, 델타 룰(delta rule) 이다.
이때 학습 후 얻어진 함수식 y = \beta_1x+ \beta_0 을 가지고 새로운 입력 데이터에 대한 결과값을 예측한다.
예를 들어 독립변수 키에 대한 종속변수 몸무게 회귀 분석한다고 가정하자.
데이터를 모아 회귀분석을 통해 관계를 설명하는 함수식을 찾는다.
함수식 : y = 1.158x-141.24, 결정계수 : r^2 = 0.9331 를 얻을 수 있다.
단순선형 회귀, 다중선형 회귀
아래의 그림을 보자 얻어진 함수식을 바탕으로 우리는 다음 값을 예측할 수 있었다. 이때 사용된 1차 방정식 y = \beta_0 + \beta_1x 를 단순선형 회귀라고 한다.
만약 독립변수 x_i 가 여러개라고 가정해보자. 이때 다중선형 회귀는 아래 왼쪽 그림과 같다.
위의 그림과 같이 다중선형 회기에서는 y = \beta_0 + \beta_1x_1 + \beta_2x_2 식을 만족한다.
로지스틱(Logistic) 회귀
선형 회귀와는 다르게 직선을 사용하지 않고 곡선인 함수를 만족한다. 이때 종속 변수가 연속값이 아니고 범주형(categorical)으로 표현한다.
로지스틱 회귀에 사용되는 시그모이드(Sigmoid) 함수에 대해 알아보자.
시그모이드(Sigmoid) 함수
p(x)β0,β1=eβ0+β1x1+eβ0+β1x       g(z)=z1+zp(x)_{\beta_0,\beta_1} = \cfrac{e^{\beta_0+\beta_1x}}{1+e^{\beta_0+\beta_1x}} \space \space\space\space\space\space\space g(z) = \cfrac{z}{1+z}
이때 \beta_0 + \beta_1x = 0 이면, p = 0.5 가 된다.
\beta_0\beta_1를 구하려면, 최대가능도법(maximum likelihood method)를 사용해야한다.