[모두를 위한 딥러닝] 인공신경망, 오차역전파

💻/ML

[모두를 위한 딥러닝] 인공신경망, 오차역전파

ruhz 2020. 8. 11. 14:53

인간의 지능

인공지능은 말 그대로, 사람이 만든 '지능(Intelligence)'이다. 인간의 입장에서 지능을 개발하기 위해서 인간의 '뇌'의 매커니즘이나 구조를 참고하는 것은 합리적이라고 할 수 있다. 뇌는 여러 뉴런들이 서로서로 그물처럼 연결되어 있는 신경망(Neural Network)의 구조를 가지고 있다. 바로 뉴런의 작동원리를 알아보자.

먼저, 나무의 가지처럼 되어 있는 수상돌기(dendrite)를 통해 자극을 받아들인다. 하지만 이 자극이 너무 작다면, 뉴런에는 아무 일도 일어나지 않는다. 따라서 뉴런에서 신호를 발생시키기 위한 최소한의 자극, 즉 '역치'이상의 자극이 가해져야 한다. 만약 충분한 자극으로 전기신호가 발생했다면, 이는 계속해서 전달되어(axon) 나간다. 이 전기신호가 말단부(axon terminal)에 도달하면, 말단부에서 전달물질을 내보내, 다음 뉴런의 수상돌기(dendrite)에 신호를 전달하게 된다. 이렇게 약 1000억개 가량의 뉴런이 그물망처럼 인간의 뇌에 얽혀있는 것이다.

인공신경망

잘 생각해보면, 뉴런은 우리가 배운 것들과 많이 닮아있다. 예를 들어 로지스틱 회귀(Logistic Regression)를 생각해보자. 데이터 x1, x2, x3(자극)를 받는다. x1, x2, x3에 학습할 가중치 w1, w2, w3를 곱하고 편향 b를 더해 가정을 만들고, 이것을 sigmoid에 넣어 0~1 범위로 만든다. 이 때 가정이 0.5(역치)보다 작다면 '0'으로, 크다면 '1'로 결정한다.

뭔가 익숙한 뉴런의 구조는 그렇다 쳐도, 이것을 구체적으로 어떻게 연결해서 무엇을 할 수 있을까? 일단 위 사진을 보자. 하나의 노드가 하나의 뉴런이라고 보면 될것이다. 예시 사진은 결과적으로 세개의 데이터를 넣어 하나의 출력을 갖는다. 그 사이에는 값을 주고 받으며 데이터를 계산하는 노드들이 있고, 결과적으로 인공지능이 '사고'를 하는 것 처럼 결과를 계산해 낸다. 이 '사고'의 가장 간단한 예로는 XOR문제가 있다.

XOR 문제

우리는 다음과 같이 0, 1로 이루어져 있는 데이터를, Wx+b의 가정 직선에서 W, b를 학습시켜 위 사진과 같은 직선으로 찾아가는 과정을 알고있다. 우리가 선형(Wx+b)인 가정을 한다는 것은 위와 같이 하나의 직선을 긋는 것과 비슷하다. 그리고 우리가 만든 뉴런, 즉 노드 역시 각각이 하나의 직선을 긋는 것과 비슷하다.

XOR은 두개의 값이 다를 때만, True(=1)을 반환하는 논리함수이다. 위의 그림에 하나의 직선을 그어 빨간점(False)과 파란점(True)이 각각 다른 영역에 속하도록 할 수 있을까? 불가능하다. 조금만 해봐도 알 수 있고, 수학적으로도 증명된 사실이다. 하지만 하나의 직선이 아닌 여러개의 직선이 존재한다면 빨간점과 파란점의 구분은 얼마든지 가능하다. 이것을 간단한 신경망을 통해 구현해보자.

실제로 (0, 0), (0, 1), (1, 0), (1, 1)을 넣었을 때, 각각이 XOR의 결과값(0, 1, 1, 0) 이 나오면 된다. '-8→0' 은 나온 결과를 음수는 0으로, 양수는 1로 sigmoid함수처럼 근사시킨 것이다. 결과적으로 XOR을 잘 구현했음을 확인할 수 있다. 왼쪽 그림을 살짝 바꿔주면 오른쪽의 모양이 되고, 이것을 여러게 이어붙여 그물과 같은 모양의 신경망이 완성되는 것이다.

예시에서는 이미 정답의 W와 b를 가지고 있었기 때문에, 맞는지 틀리는지 값을 넣어보기만 했다. 하지만 우리는 정답 W와 b를 머신러닝으로, 즉 학습을 통해서 알아내는 방법을 찾아야 한다. 예를 들어 학습할 데이터 (x1, x2, Y)가 있다고 하자. x1, x2를 입력하고 노드(뉴런)를 거쳐 나온 Y'와 실제 Y를 비교해 이 오차가 줄어들도록 각 노드의 W, b를 학습시켜야 할 것이다. 사실 신경망에서 각 노드의 가중치와 편향을 학습시키는 방법은 인간이 몇 년동안이나 헤맸던 문제이다. 몇 번의 시행착오는 있었지만 결국 오차역전법이라는 방법을 찾아낸다.

오차역전파

학습의 목적은 결국 비용을 줄이는 것이다. 비용은 결국 OUTPUT으로 나온 마지막 결과와 실제 Y의 차이가 되고, 우리는 이것을 경사하강법을 통해서 비용의 최솟값을 구했었다. 문제는 우리가 이 전에 정의했던 비용함수 cost(W)처럼 간단하게 W 하나로 OUTPUT이 결정된 게 아니라는 것이다. 각 노드가 가진 각각의 W, b가 모두 OUTPUT이 나오는데 관여를 했기 때문이다. 따라서 간단하게 cost(W)함수를 그리고 경사를 따라 하강하는 것은 불가능하다는 것을 안다.

따라서 우리는 노드 각각을 경사하강시켜줄 것이다. 어떤 노드가 OUTPUT을 내는데에 얼마나 관여를 했는지를 편미분으로 계산하고, 이 기울기를 따라 각각의 W, b를 학습시켜줄 것이다. 편미분은 고등학교 때 배운 합성함수의 미분을 생각하면 쉽다.

$$f(g(x))'=f'(g(x))\times g'\left(x\right)$$

우리가 f(g(x))를 x에 대해 미분한 것을 보는 행위는 x가 얼마나 f(g(x))에 관여하고 있는가(기울기)를 보는 것과 같다. 결과적으로 식을 보면 먼저 f를 g에 대해 미분하여 f에 대한 g가 얼마나 관여하고 있는가 보고, 거기에 g를 x로 미분한 것을 곱해서 우리가 원하는 f(g(x))에 대한 x의 미분값을 얻게된다.

신경망도 이와 비슷하다. OUTPUT노드에 어떤 INPUT노드가 얼마나 관여했나 확인하기 위해서는 자신의 앞 노드에 대한 자신의 미분값을 계속해서 재귀적으로 곱해나가다 보면 알 수 있다. 합성함수에서 x는 자신의 앞에 있는 g를 , g는 자신의 앞에 있는 f를 미분해서 곱한 것처럼. 위 과정이 이해가 되지 않았다면 꼭 맨 아래 링크에서 모두를 위한 딥러닝 시즌1 9-2를 들어보면 쉽게 이해가 될 것이다.

결과적으로 각각 비용에 대한 자신의 기여도를 계산하여 경사를 하강할 수 있게 되고 이렇게 경사를 하강하며 학습을 진행할 수 있게 된다. 이 모양이 마치 오차가 거꾸로 전파되는 것 같다고 해서 오차역전파(Back-Propagation)라고 한다. 텐서플로우 역시 모든 것이 텐서로 이루어진 그래프(노드, 엣지)로 되어있기 때문에, 오차가 그래프를 타고 내려오면서 변수를 학습시킨다고 생각할 수 있다.

XOR 구현

import tensorflow as tf
import numpy as np

tf.set_random_seed(777)  # for reproducibility

x_data = np.array([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=np.float32)
y_data = np.array([[0], [1], [1], [0]], dtype=np.float32)

X = tf.placeholder(tf.float32, [None, 2])
Y = tf.placeholder(tf.float32, [None, 1])

먼저 학습할 정답 데이터 x_data, y_data 쌍이 주어진다. 우리의 목표는 이 주어진 데이터를 바탕으로 신경망을 학습시켜, 새로운 임의의 x를 입력했을 때 그 결과 y가 '0'인지 '1'인지 구별할 수 있도록 인공지능을 만드는 것이다. 위의 데이터를 로지스틱 회귀에서 썼던 코드에 그대로 넣어보자. 위에서 보았듯이 하나의 직선으로는 XOR을 구분할 수 없음을 알 수 있다. 정확도가 0.5, 즉 제대로 학습이 되지 않은 채 0과 1을 절반의 확률로 찍는것과 다름이 없는 결과가 나옴을 알 수 있다.

W1 = tf.Variable(tf.random_normal([2, 10]), name='weight1')
b1 = tf.Variable(tf.random_normal([10]), name='bias1')
layer1 = tf.sigmoid(tf.matmul(X, W1) + b1)

W2 = tf.Variable(tf.random_normal([10]), name='bias2')
layer2 = tf.sigmoid(tf.matmul(layer1, W2) + b2)

W3 = tf.Variable(tf.random_normal([10, 10]), name='weight3')
b3 = tf.Variable(tf.random_normal([10]), name='bias3')
layer3 = tf.sigmoid(tf.matmul(layer2, W3) + b3)

W4 = tf.Variable(tf.random_normal([10, 1]), name='weight4')
b4 = tf.Variable(tf.random_normal([1]), name='bias4')
hypothesis = tf.sigmoid(tf.matmul(layer3, W4) + b4)

그래서 신경망을 추가했다. 사실 2개의 레이어면 충분하지만, 넓게 신경망을 펼쳐도 전혀 상관없다. 각각의 노드들이 그 상황에 맞게 오차를 최소화하는 방향으로 각자 경사를 타고 하강할 것이고, 각자 최적의 가중치와 편향을 찾을 것이다.

위의 코드는 노드가 4개 있는 것이 아니다. 각 노드들을 레이어별로 하나의 행렬로 합쳐놓은 것이고, 4개의 레이어가 있는 것이다. 그리고 W1, W2, ... 의 행렬은 [입력, 출력] 의 shape을 가지게 된다. 행렬 곱은 (n × 'm') ('m' × k)의 꼴로 앞 행렬의 열 크기와, 뒷 행렬의 행 크기가 같아야 연산할 수 있다. 따라서 신경망의 각 레이어도 앞 레이어의 출력 갯수와 뒷 레이어의 입력 갯수가 같도록 설정해야 한다. 단, 우리는 2개의 데이터를 넣어 1개의 결과(0 또는 1)를 얻을 것이기 때문에, 가장 첫 레이어는 [2, ?]의 꼴, 가장 뒷 레이어는 [?, 1]의 꼴을 가져야만 한다.

# cost/loss function
cost = -tf.reduce_mean(Y * tf.log(hypothesis) + (1 - Y) * tf.log(1 - hypothesis))
train = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)

# Accuracy computation
# True if hypothesis>0.5 else False
predicted = tf.cast(hypothesis > 0.5, dtype=tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(predicted, Y), dtype=tf.float32))

# Launch graph
with tf.Session() as sess:
    # Initialize TensorFlow variables
    sess.run(tf.global_variables_initializer())

    for step in range(10001):
        _, cost_val = sess.run([train, cost], feed_dict={X: x_data, Y: y_data})
        if step % 100 == 0:
            print(step, cost_val)

    # Accuracy report
    h, c, a = sess.run(
        [hypothesis, predicted, accuracy], feed_dict={X: x_data, Y: y_data}
    )
    print("\nHypothesis: ", h, "\nCorrect: ", c, "\nAccuracy: ", a)

앞서 말했던 오차역전법 역시, 똘똘한 텐서플로우의 함수들에 다 내장되어 있다. 우리는 그저 사용하면 된다.

앞선 게시물에 링크했던 '모두를 위한 딥러닝' 강의를 듣고 필기한 노트에
추가적으로 공부한 것을 더해 작성한 게시글입니다.

'💻 > ML' 카테고리의 다른 글

[모두를 위한 딥러닝] 합성곱 신경망(CNN) (0)	2020.08.23
[모두를 위한 딥러닝] 활성함수, 초기화, 정규화 (0)	2020.08.17
[모두를 위한 딥러닝] 학습계수, 데이터 표준화, 과적합 (0)	2020.08.04
[모두를 위한 딥러닝] 다중 분류, 소프트맥스 회귀 (0)	2020.08.03
[모두를 위한 딥러닝] 로지스틱 회귀 (0)	2020.07.27

현재글[모두를 위한 딥러닝] 인공신경망, 오차역전파

인공지능, Besu, 블록체인, 텐서플로우, 파이썬, 백준, Github, 완전탐색, 조립PC, 영상처리, 강화학습, 라즈베리파이, 문제해결전략, 임베디드, 머신러닝, 딥러닝, Hyperledger, 알고리즘, db, 데이터베이스,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

hhlab.tistory.com