728x90
반응형
MLE에 대한 내용은 아신다고 가정하고 진행해보겠습니다.
확률분포 내에서 데이터(D)에 대한 N개의 샘플을 먼저 추출하구요.
입력 x를 넣었을 때 출력 y값을 다 더한값이 최대가 되게하는 세타 햇 즉, 랜덤변수를 찾는 것이 MLE의 목표였습니다. 이걸 Negative Log Likelihood(NLL)로 변환하면 식이 다음과 같이 바뀌죠.
그리고 딥 뉴럴 네트워크로 가서 한번 살펴보겠습니다.
가장 왼쪽이 입력 x죠. 그리고 softmax를 거친 y햇이 나옵니다. 이걸 식으로 나타내면 다음과 같습니다.
그리고 Cross Entropy를 볼까요?
앞에 1/N을 제외한 나머지는 똑같습니다. 1/N은 미분하면 사라지게 되구요. 결국 최대의 확률 분포를 찾는 것. 즉, 최소의 Negative Log Likelihood를 찾는 것은 곧 Cross Entropy를 구하는 것과 같은거죠.
[출처] 김기현의 딥러닝을 활용한 자연어처리 입문
728x90
반응형
'프로그래밍 > 김기현의 딥러닝을 활용한 자연어처리 입문과정' 카테고리의 다른 글
RNN의 Gradient 문제 해결하기 위한 기법? LSTM(Long Short Term Memory)와 GRU(Gated Recurrent Unit)이란? (0) | 2020.07.04 |
---|---|
RNN이 쓰이는 어플리케이션(분야)은 어떤게 있을까? (0) | 2020.07.03 |
Vanilla RNN(Recurrent Neural Network)이란? (0) | 2020.07.02 |
Maximum Likelihood Estimation(MLE)를 프로그래밍에 적용하는 방법. Negative Log Likelihood(NLL) (0) | 2020.06.30 |
Maximum'Likelihood'Estimation 란? (0) | 2020.06.29 |
댓글