[특강 정리] 머신러닝에 꼭 필요한 정보이론 쪽집게 요점 정리


다음 특강을 사전에 신청하고 라이브로 수강하며 간략하게 정리한 내용입니다. 머신러닝에 사용되는 엔트로피 개념에 대해 잘 정리할 수 있는 좋은 강의여서 글로 공유합니다.

강의 소개

강의명: Information theory primer for machine learning (BARO AI ACADEMY)
강사: 최승진 (바로AI CTO, 전 포항공대 교수)
형식: 오픈 클래스 (zoom, youtube 동시 라이브)
시간: 2020년 10월 21일  17:00 - 18:30





강의 순서

  1. 서론
1) 클로드 섀넌
2) 교과서 추천
3) 관심 연구 주제

  2. 본론
1) 섀넌 엔트로피
2) 크로스 엔트로피
3) KL divergence
4) 최대우도추정법

  3. 질의 응답


       
zoom과 youtube를 통해 라이브 강의가 진행되었다



클로드 섀넌

Claude Shannon (미국 수학자, 엔지니어)
정보 이론의 아버지.
A symbolic analysis of relay and switching circuits (석사 논문): Boolean algebra -> circuit design
A mathematical theory of Communication (1948): Information theory 오리지널 논문. 반드시 읽기.

머신러닝에서나 정보이론에서나 가장 중요한 것: Inference. 추론.




정보 이론 교과서 추천

  1. Elements of Information Theory (Thomas M. Cover)
  2. Information Theory, Inference, and Learning Algorithms (David J.C. Mackay): 머신 러닝 공부를 위해라면 이 책을 더 추천. (pdf 무료 공개 https://inference.org.uk/itprnn/book.pdf )



관심 연구 주제: Infomax


Self-Organization in a Perceptual Network (R. Linsker 1988)
Unsupervised learning 관련.
한 곳에서 다른 곳으로 정보를 이동시킬 때 정보량 최대화.

Infomax for ICA
An information-maximisation approach to blind separation and blind deconvolution (1955)

InfoGAN
GAN design 할 때 infomax (X. Chen 2016)

DIMCO
Discrete Infomax codes for supervised representation learning (본인 공저 2019)




섀넌 엔트로피 (Shannon entropy)

Information of an event X = x is defined as
I(x) = -logp(x) = log(1/p(x))

확률이 높은 사건일수록 (쉽게 일어나는 사건일수록) 정보가 적음. 

1 bit = the amount of information gained by observing an event of probability 1/2
1 bit = distinction bw two states
(예) 동전: 앞 / 뒤, 날씨: 맑음 / 흐림

(1 nat = the amount of information gained by observing an event of probability 1/e)



Entropy = Average information.
H(p) = Ep[log(1/p(x))]

Case1) 맑음: 50%, 흐림: 50%
  • entropy = 1/2log_2(2) + 1/2log_2(2) = 1 bit

Case2) 맑음: 75%, 흐림: 25%

맑음: 75% ooox (3/4) 정보(o) = log_2(4/3) = log_2(1+1/3) = 0.41 bit
흐림: 25% oxxx (1/4) 정보(o) = log_2(4) = 2 bit
  • entropy = 0.75 * log_2(4/3) + 0.25 * log_2(4) = 0.81 bit

그림으로도 설명하면서 열심히 강의해주심




크로스 엔트로피 (Cross entropy)


두 분포 사이의 엔트로피.

머신러닝 분류 문제에서: y_hat (예측) 과 y (정답) 두 분포 사이 엔트로피.
-> error를 cost 함수로 활용함.



KL divergence (Relative entropy)

두 분포 간의 거리 측정. 두 분포가 얼마나 다른지를 나타냄.
D_KL[p||q] = sigma_x( p(x) log (p(x)/q(x)) )


(주의: p, q 순서 바뀌면 값도 바뀜)




최대우도추정법 (Maximum Likelihood Estimation), Kullback matching


지도 학습의 경우

비지도 학습의 경우


MLE: Kullback Matching Perspective


교수님 재수강이요


Empirical Distribution p~(x) 와 Model p(x|theta) 를 KL divergence.

Empirical Distribution: 모든 데이터 확률 같다고 전제한 분포.
대부분의 데이터의 경우 특정하게 많이 모여있는 구간이 반드시 있을 것이기 때문에, 이렇게 가정해도 (대개) 효과적이다.
많은 논문에서 data distribution이라고 표현하면 암묵적으로 Empirical distribution을 의미하는 경우가 많음.


(원래 예정되어 있던 Mutual information 파트는 시간 상 간략하게 언급만 하고 넘어감)




질의 응답

시청자 수가 많지 않아 질문 수도 몇 개 없었지만, 일일이 정성을 다해 답변해주는 모습이 인상 깊었다. 개인적으로 마지막 부분에 나오는 MLE에서 Empirical Distribution이 왜 나오고 어떤 역할을 하는 건지 이해를 못해서 질문을 두 번이나 했는데, 자세히 답변을 들을 수 있어서 만족스러웠다.
(두 번째 질문인 "데이터 샘플 각각의 확률을 모르기 때문에 Empirical Distribution으로 분포를 가정하는 건가요?" 에 대해 "테크니컬하게 볼 때 맞다고 할 수 있다"고 답변해주면서 더 설명해주심. MLE 문단에 파란 글씨 부분을 확인할 것.)


그래도 내가 제일 열심히 질문함



보다 자세한 내용은 강의 다시 보기를 통해 확인할 수 있다.
개인적으로 제임스 글릭의 <인포메이션>이 정보 이론 입문에 도움이 많이 되었다. 위 강의 내용이 어려운 분들에게 추천한다.

댓글 쓰기

0 댓글