MLE와 MAP로 살펴보는 딥러닝
이번 글에서는 딥러닝을 통계로 이해하는 방법인 MLE와 MAP에 대해서 살펴보겠습니다. 1. MLE MLE는 Maximum Likelihood Estimation의 약자입니다. 가능도(Likelihood) 가능도는 확률과 대비되는 개념입니다. 정육면체의 주사위의 각 면이 나올 ‘확률’은 1/6로 정의할 수 있습니다. 확률을 사용할 수 있는 이유는 확률 분포나 모델이 명확히 정의되어 있기 때문입니다. 특정 데이터가 관찰될 정도는 확률로 표현할 수 있습니다. 반면 가능도는 데이터가 미리 정의된 상황에서 어떠한 확률 분포 혹은 모델이 그것을 설명하는 정도를 측정할때 사용합니다. 예를 들어 형태를 모르는 주사위를 400번 던졌는데 1,2,3,4의 숫자만 100번씩 나온 상황이 있다고 해봅시다. 그렇다면 주사위의 모양은 정육면체가 아니라 정사면체로부터 나올 가능성이 높다고 생각할 수 있습니다. 이러한 정도를 측정할 때 가능도를 사용합니다. 아래 그림에서 특정 점에 위치하는 데이터 x 를 설명할 가능도가 높은 것은 분홍색 확률 분포라고 할 수 있습니다. 확률은 특정 모델이 정해진 상황에서 데이터를 예측하는데 사용하지만, 가능도는 데이터가 관찰된 상황에서 사용하기 때문에 딥러닝과 관련이 있습니다. 딥러닝은 MLE다. 신경망의 가중치들이 올바르게 학습될 수록, 신경망은 데이터를 더 잘 설명할 수 있습니다. 가능도가 커지고 있다고 볼 수 있습니다. 즉, 가능도를 최대화 하는 것(MLE)는 딥러닝의 목표입니다. 가능도 $L(\theta|Data)$는 조건부 확률 $P(Data|\theta)$로 계산하며 MLE 는 아래와 같이 적을 수 있습니다.
2