역전파의 종말? 갓프리 힌튼의 Forward-Forward 알고리즘

 

제프리 힌튼은 2018년 요슈아 벤지오, 얀 르쿤과 함께 튜링상을 받은 분이다. 딥러닝 연구에 지대한 영향을 끼친 세 분은 딥러닝 3대장으로 불리기도 한다.

힌튼의 경우 신경망 모델의 시초라고 볼 수 있는 제한적 볼츠만 머신을 학습시키는 방법을 연구하여, 역전파(back-propagation) 알고리즘이 신경망 모델 학습에 사용되는 데에 큰 역할을 했다. 그런 그가 이제는 역전파를 사용하지 않고 신경망 모델을 학습시킬 수 있는 알고리즘을 소개한다. (2022, NeurIPS)

Forward-forward 알고리즘은 이름에서 알 수 있듯, 역방향(backward)으로 전파되는 과정이 없는 신경망 학습법을 말한다. 정확히는 신경망의 입력에서부터 출력까지 순전파가 진행되면서, 한 층을 통과할 때마다 지역적(local) 가중치 업데이트가 진행되는 것을 의미한다. 따라서 기존의 신경망 학습법과는 달리 손실(loss)을 계산하고 이를 역전파시키는 과정이 존재하지 않으며, 순전파 과정 동안 학습(train)과 추론(inference)이 동시에 진행된다.

(1) 하나의 데이터에 대해서 good 데이터, bad 데이터 생성
(2) good 데이터가 들어올 때는 activation 제곱합이 커지는 방향으로 가중치 업데이트
(3) bad 데이터가 들어올 때는 activation 제곱합이 작아지는 방향으로 가중치 업데이트



(좌측) 원본 데이터
(가운데) good 데이터 (첫 10개의 픽셀에 정답 삽입)
(우측) bad 데이터 (첫 10개의 픽셀에 오답 삽입)


힌튼은 이러한 학습법이 우리의 뇌의 동작 방식과 더 유사하다고 주장하는데, 철학과 인지 과학 연구도 진행하신 분 답게 논문에서 재차 생물학적인 해석을 강조한다. 그리고 forward-forward 알고리즘을 이용한 학습에 있어서는 층별로만 기울기(gradient)를 계산해 가중치 업데이트를 진행하면 되기 떄문에, 모델이 처음부터 끝까지 완전하게 밝혀져 있지 않고 블랙 박스 구조가 포함되어 있더라도 가능하다는 점을 내세운다.

기존의 역전파 알고리즘


하지만 개인적으로는 다음과 같은 이유에서 나는 forward-forward 알고리즘이 실효성 있는 연구 성과를 가지지는 못한다고 생각한다.

1. 생물학적으로 뇌의 작동 방식과 유사해지는 것이 반드시 더 낫다고 할 수 없다. 그 주장이 성립되기 위해서는 뇌의 작동 방식이 가장 완벽한 학습 방식이라는 명제가 참이어야하는데, 자연 선택을 통해 우연적이고 불완전하게 진행되는 진화의 법칙을 고려한다면 과연 그 명제가 참일지 의심스럽다.

2. 역전파 알고리즘의 경우 다양한 테스크에 대해서 일관적으로 적용가능한 반면, forward-forward 알고리즘의 경우 테스크 마다 완전히 새로운 방식을 생각해내서 적용해줘야한다. 이미지 분류(classification) 예시에서는 데이터 첫 10개의 픽셀에 원-핫-인코딩된 정답(라벨)을 덮어쓰는 방식으로 good과 bad 데이터를 생성해 학습하지만, 비지도학습 예시에서는 독특한 방식으로 가짜(fake) 이미지를 만들어 bad 데이터를 생성하는 방식으로 학습을 진행한다. 이 알고리즘은 신경망 모델을 학습시키는는 알고리즘으로서 아직 불완전한 상태로 보인다.

3. 여러 실험을 통해 "역전파에 근접한 성능을 낼 수 있다"고 주장을 하지만, 툭 치면 무너질 듯한 허수아비를 상대하여 거둔 승리처럼 보인다. MNIST 손글씨 데이터셋 실험의 경우, CNN 구조 및 일반화(generalization) 기법을 사용하지 않는 얕은 층의 MLP 모델을 베이스라인으로 잡고 비교하는데, 이제는 인간의 능력으로는 닿을 수 없는 곳까지 와버린 최신 딥러닝 모델들에 비해 너무 소박한 성과가 아닌가 싶다.

추가적으로 역전파 과정이 없음에도 불구하고 전체 학습 시간이 더 오래걸린다는 점 또한 아쉽다.


논문에서 bad 데이터를 생성하는 방법


그럼에도 불구하고, 나는 forward-forward 알고리즘이 가지는 큰 가치가 있다고 생각하는데 그 이유는 다음과 같다.

1. 부품 하나 바꿔서 SOTA 모델 신기록 성능을 넘었다는 논문들에 파묻히기 직전인 요즘 시대에, 역전파 말고 다른 방식으로 모델을 학습시킨다는 아주 신선한 도전이다.

2. 당장 성능은 높지 않고 테스크 마다 새로운 판을 짜줘야하는 조잡한 면은 있지만, 이 아이디어를 바탕으로 훌륭한 후속 연구들이 나온다면 딥러닝 계에 또 하나의 흐름을 만들어낼 수도 있다.


어쨌거나 오랜만에 정말 흥미롭고 재미있는 논문이었고, 앞으로도 대담하고 신선한 연구가 더 많이 이루어지기를 기원한다.


---


참고하면 좋을 만한 자료



댓글 쓰기

0 댓글