마음을 다스리는 글

욕심을 비우면 마음보다 너른 것이 없고, 탐욕을 채우면 마음보다 좁은 곳이 없다.
염려를 놓으면 마음보다 편한 곳이 없고, 걱정을 붙들면 마음보다 불편한 곳이 없다.
-공지사항: 육아일기 등 가족이야기는 비공개 블로그로 이사했습니다.

2025년 6월 9일 월요일

Deep Learning - 제4장 신경망이 어떤 함수라도 계산할 수 있다는 시각적 증명

 Deep Learning을 공부하고자 하는 많은 입문자들을 위하여 내가 공부하면서 입문서로 가장 도움이 되었던 Michael Nielsen의 온라인 도서를 여기 장별로 정리하여 두고자 한다.

이 장에서 나오는 내용들은 그의 온라인 도서 4장에 대한 내용을 한국어로 얼기설기 번역한 것이다. 번역이 어색하지만, 개념을 이해하기에는 무리가 없다고 생각한다.


신경망에 대한 가장 놀라운 사실 중 하나는 그것들이 어떤 함수든지 계산할 수 있다는 것입니다. 다시 말해, 아래와 같은 복잡하고 구불구불한 함수 f(x)가 있다고 가정해 봅시다.


어떤 함수이든지 간에, 가능한 모든 입력 x에 대해 그 함수값 f(x) (또는 그에 매우 근사한 값)가 신경망에서 출력되도록 하는 신경망이 반드시 존재합니다. 예를 들면 다음과 같습니다.

이 결과는 함수가 f=f(x1,...,xm)처럼 많은 입력과 여러 출력을 가질 때도 마찬가지입니다. 예를 들어 여기 m=3개의 입력과 n=2개의 출력을 가진 함수를 계산하는 신경망이 있습니다.


이 결과는 신경망이 일종의 보편성을 가지고 있음을 알려줍니다. 우리가 어떤 함수를 계산하려고 하든, 그 작업을 수행할 수 있는 신경망이 존재한다는 것을 의미합니다. (보편성 정리)

더욱이 이 보편성 정리는 입력 뉴런과 출력 뉴런 사이에 단 하나의 중간층, 즉 단일 은닉층만 있는 신경망으로 제한하더라도 성립합니다. 따라서 매우 간단한 신경망 구조 조차도 엄청난 능력을 가진 샘입니다.

보편성 정리는 신경망을 사용하는 사람들에게는 잘 알려져 있습니다. 하지만 왜 그것이 사실인지는 널리 이해되고 있지 못하고 있습니다. 대부분의 설명은 상당히 기술적입니다. 예를 들어 이 결과를 증명한 원래 논문 중 하나는 하-바나흐 정리(Hahn-Banach theorem), 리즈 표현 정리(Riesz Representation theorem), 그리고 푸리에 해석(Fourier analysis)을 사용하여 증명했습니다. 수학자라면 이 증명들을 따라가는 것이 어렵지 않겠지만 대부분의 사랍들에게는 그렇지 않습니다. 보편성의 근본적인 이유는 간단하고 아릅답기 때문인데, 그렇지 못한 것은 안타까운 일입니다.

이 장에서는 보편성 정리에 대한 간단하고 주로 시각적인 설명을 해보고자 합니다. 우리는 기본적인 아이디어를 단계별로 살펴볼 것입니다. 신경망이 어떤 함수든지 계산할 수 있다는 것이 왜 사실인지 이해하길 바라겠습니다. 그리고, 이것의 제한사항에 대해서도 일부 살펴보도록 하겠습니다. 그리고 이것이 심층 신경망과 어떻게 관계되는지에 대해서도 다루도록 하겠습니다.

이 장의 내용을 따라가기 위해 이 전 장들을 읽을 필요는 없습니다. 이 장의 내용은 독립적으로 읽을 수 있도록 구성하였습니다. 신경망에 대한 기본적인 지식만 있다면 이 장의 내용을 읽는데 큰 무리는 없을 것입니다. 그렇다고 이전 장의 내용과 완전히 무관한 것은 아닙니다.

보편성 정리는 컴퓨터 과학에서는 흔한 개념이며 때로는 그것이 얼마나 놀라운 것인지 잊어버리기도 합니다. 하지만 이점을 다시 한번 상기할 필요가 있습니다. 임의의 함수를 계산하는 능력은 정말 놀랍습니다. 여러분이 상상할 수 있는 거의 모든 프로세스를 함수 계산으로 생각할 수 있습니다. 짧은 음악 샘플을 기반으로 음악 제목을 짓는 문제를 생각해 보세요. 이것도 함수 계산 문제입니다. 또는 중국어를 영어로 번역하는 문제도 마찬가지 입니다. 또는 mp4 영화 파일을 가져와 영화 줄거리와 연기 품질에 대한 짧은 글을 생성하는 문제도 일종의 함수 계산입니다. 보편성은 원직적으로 신경망이 이것들을 포함한 더 많은 거을 할 수 있다는 것을 의미합니다.

물론 중국어 텍스트를 영어로 번역할 수 있는 신경망이 존재한다는 것을 안다고 해서 그러한 신경망을 구성하거나 심지어 인식하는 좋은 기술을 보유하고 있다는 것을 뜻하지는 않습니다. 이러한 제한은 부울 회로와 같은 모델에 대한 전통적인 보편성 정리에도 적용됩니다. 그러나 이 책 앞부분에서 보았듯이 신경망은 함수를 학습하는 강력한 알고리즘을 가지고 있습니다. 학습 알고리즘과 보편성의 조합은 매력적인 조합입니다. 지금까지 이 책은 학습 알고리즘에 초점을 맞췄습니다. 이 장에서는 보편성과 그것이 의미하는 바에 초점을 맞출 것입니다.

두 가지 제한사항

보편성 정리가 왜 사실인지 설명하기 전에, "신경망은 어떤 함수든지 계산할 수 있다"는 비공식적 언급에 대해 두 가지 주의사항을 언급하고자 합니다.

첫째, 이것은 신경망이 어떤 함수든지 정확하게 계산하는 데 사용될 수 있다는 의미가 아닙니다. 우리가 원하는 만큼 좋은 근사값을 얻을 수 있다는 의미입니다. 은닉 뉴런의 수를 널리면 근사값을 개선할 수 있습니다. 앞서 세 개의 은닉 뉴런을 사용하여 어떤 함수 f(x)를 계산하는 신경망을 예로 든 적이 있습니다. 대부분의 함수에 대해서는 세 개의 은닉 뉴런만으로는 대략의 근사값만 산출하는 것이 가능합니다. 은닉 뉴런의 수를 늘리면 (예를 들어 다섯 개로) 일반적으로 더 나은 근사값을 얻을 수 있습니다.


그리고 은닉 뉴런의 수를 더 늘리면 훨씬 더 잘 할 수 있습니다. 이 더 정확하게 표현하자면, 우리가 원하는 정확도 ϵ>0 내에서 계산하고 싶은 함수 f(x)가 주어졌다고 가정해 봅시다. 이것은 충분한 은닉 뉴런을 사용하면 항상 모든 입력 x에 대하여 출력 g(x)|g(x)f(x)|<ϵ을 만족하는 신경망을 찾을 수 있다는 것입니다. 다시 말해, 근사값은 가능한 모든 입력에 대해 원하는 정확도 범위내에 있음을 만족한다는 뜻입니다.

두 번째 주의사항은 앞서 설명한 방식으로 근사할 수 있는 함수의 종류는 연속 함수라는 것입니다. 함수가 불연속적이라면, 즉 갑작스럽고 급격한 변화가 있다면 일반적으로 신경망을 사용하여 근사하는 것이 불가능합니다. 우리의 신경망은 입력의 연속 함수를 계산하기 때문에 이는 놀라운 일이 아닙니다. 그러나 우리가 실제로 계산하고자 하는 함수가 불연속적이라 할지라도 연속적인 근사값이 충분히 좋은 이유들이 있습니다. 그렇다면 우리는 신경망을 사용할 수 있습니다. 실제로 이것은 일반적으로 중요한 제한사항은 아닙니다.

요약하자면 보편성 정리의 더 정확한 표현은 단을 은닉층을 가진 신경망을 사용하여 어떤 연속 함수든지 원하는 정밀도로 근사할 수 있다는 것입니다. 이 장에서는 실제로  하나의 은닉층이 아닌 두 개의 은닉층을 가진 신경망으로 이를 증명할 것입니다. 그리고 이를 약간 수정하여 단일 은닉층에 대해서도 적용할 수 있음을 간략하게 설명할 것입니다.

하나의 입력과 하나의 출력을 갖는 함수의 보편성

보편성 정리가 왜 사실인지 이해하기 위해, 먼저 하나의 입력과 하나의 출력만을 갖는 함수를 근사하는 신경망을 구성하는 방법을 이해하는 것부터 시작해 보겠습니다.


이것이 보편성 문제의 핵심이라는 것이 밝혀졌습니다. 이 특수한 경우를 일단 이해하고 나면 많은 입력과 많은 출력을 갖는 함수로 확장하는 것은 실제로 꽤 쉽습니다.

함수 f를 계산하는 신경망을 구성하는 방법에 대한 통찰력을 얻기위해 먼저 두 개의 은닉뉴런을 가진 단일 은닉층과 하나의 출력 뉴런을 포함하는 출력층으로 구성된 신경망부터 시작해봅시다.
신경망의 구성요소가 어떻게 작동하는지 이해하기 위하여 맨 위에 있는 은닉 뉴런에 집중해보도록 하겠습니다. 아래 그림에서 가중치 w를 클릭하고 마우스를 오른쪽으로 약간 드래그하여 w를 증가시켜 보세요. 맨 위에 있는 은닉 뉴런이 계산하는 함수가 어떻게 변하는지 즉시 확인할 수 있습니다.

Lee, Jeong Ho

Lee, Jeong Ho
Biography: Bachelor: Computer Science in Korea Univ. Master: Computer Science in KAIST Carrier: 1. Junior Researcher at Korea Telecom (2006 ~ 2010) 2. Researcher at Korea Institute of Nuclear Nonproliferation and Control (2010~)