[모두를 위한 딥러닝] 다중 분류, 소프트맥스 회귀

[모두를 위한 딥러닝] 다중 분류, 소프트맥스 회귀

2020. 8. 3. 17:53ㆍ💻/ML

다중 분류

지난 포스팅에서는 0 / 1로 이루어진 데이터를 학습하고 결과를 도출(분류)하는 로지스틱 회귀에 대해서 다뤄보았다. 하지만 우리가 사는 세상은 두 가지 항목만 가지고 분류할 수 없는 것들이 너무나도 많다. 그렇다면 데이터를 여러가지로 구분해내는 다중분류(Multinomial Classification)는 어떻게 구현해낼 수 있을까?

왼쪽 데이터를 보고 세 개를 나누는 것은 사람에게는 일도 아니지만, 컴퓨터는 직관적이지 못하다. 먼저 배운 로지스틱 분류를 활용해보자. 이 문제를 A(빨간색)인 것과 아닌것, B(초록색)인 것과 아닌것, C(파란색)인 것과 아닌 것을 구분하는 세개의 작은 문제로 쪼개는 것이다.

import tensorflow as tf
tf.set_random_seed(777)

x_data = [[1, 2, 1, 1],
          [2, 1, 3, 2],
          [3, 1, 3, 4],
          [4, 1, 5, 5],
          [1, 7, 5, 5],
          [1, 2, 5, 6],
          [1, 6, 6, 6],
          [1, 7, 7, 7]]
y_data = [[0, 0, 1],
          [0, 0, 1],
          [0, 0, 1],
          [0, 1, 0],
          [0, 1, 0],
          [0, 1, 0],
          [1, 0, 0],
          [1, 0, 0]]

X = tf.placeholder("float", [None, 4])
Y = tf.placeholder("float", [None, 3])
nb_classes = 3

W = tf.Variable(tf.random_normal([4, nb_classes]), name='weight')
b = tf.Variable(tf.random_normal([nb_classes]), name='bias')

입력 데이터가 의미하는 것은
x_data가 [1, 2, 1, 1]이라면, y_data는 'C' (one-hot으로 표현 : [1, 0, 0]='A', [0, 1, 0]='B', [0, 0, 1]='C)
x_data가 [2, 1, 3, 2]이라면, y_data는 'C'
x_data가 [4, 1, 5, 5]이라면, y_data는 'B' ...

nb_classes는 분류할 기준을 숫자로 정의한 것으로, nb_classes 만큼 직선 식을 만들게 된다. 물론 여기서는 하나의 행렬로 병합해서 표현하게 된다. 도식화해보면 아래 그림과 같다.

X에 실제로 위 코드의 data가 행렬 형태로 저장되어 있다고 생각하고 행렬의 곱을 해보자. nb_classes = 3 개의 직선이 x1*w1 + x2*w2 + x3*w3 + x4*w4 = 'A'의 형태로 나옴을 알수있다.
이 행렬의 곱을 통째로 가정으로 사용할 것이다.

hypothesis = tf.nn.softmax(tf.matmul(X, W) + b)

cost = tf.reduce_mean(-tf.reduce_sum(Y * tf.log(hypothesis), axis=1))

optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)

소프트맥스

softmax는 각각의 결과값들의 크기를 비교해 모두 합쳐 1이 되도록 적당한 값을 주는, 즉 값을 전체에 대한 확률처럼 바꿔주는 함수이다. 예를 들어 (10, 4, 6) → (0.5, 0.2, 0.3) 처럼 변환 시켜준다. 그렇다면 우리는 nb_classes의 수만큼 직선을 정의하였기 때문에, 각 직선별로 확률이 나올 것이다. 이 값을 argmax라는 함수에 다시 넣어 가장 높은 확률을 가지는 값을 1, 나머지는 0으로 바꿔 one-hot으로 표현해준다.

어떠한 입력데이터 (1, 2, 3, 4)에 대하여 (A / not A), (B / not B), (C / not C)를 나누는 세 개의 직선이 있을 것이고, 각 직선에 대하여 가정으로 생성된 Y값이 나오면, 이를 sigmoid 함수에 필터링 후 softmax를 통해 확률값의 형태로 변환해준다. 마지막에 결과를 확인할 때는 argmax를 통해 one-hot으로 만들어주고 [1, 0, 0]과 같은 결과를 얻었다면 입력데이터 (1, 2, 3, 4)에 대하여 인공지능은 'A'로 분류한 것이 된다.

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())

    for step in range(2001):
            _, cost_val = sess.run([optimizer, cost], feed_dict={X: x_data, Y: y_data})

            if step % 200 == 0:
                print(step, cost_val)

    print('--------------')
    # Testing & One-hot encoding
    a = sess.run(hypothesis, feed_dict={X: [[1, 11, 7, 9]]})
    print(a, sess.run(tf.argmax(a, 1)))

    print('--------------')
    b = sess.run(hypothesis, feed_dict={X: [[1, 3, 4, 3]]})
    print(b, sess.run(tf.argmax(b, 1)))

    print('--------------')
    c = sess.run(hypothesis, feed_dict={X: [[1, 1, 0, 1]]})
    print(c, sess.run(tf.argmax(c, 1)))

    print('--------------')
    all = sess.run(hypothesis, feed_dict={X: [[1, 11, 7, 9], [1, 3, 4, 3], [1, 1, 0, 1]]})
    print(all, sess.run(tf.argmax(all, 1)))

현재까지의 과정을 도식화했다.

앞선 게시물에 링크했던 '모두를 위한 딥러닝' 강의를 듣고 필기한 노트에
추가적으로 공부한 것을 더해 작성한 게시글입니다.

'💻 > ML' 카테고리의 다른 글

[모두를 위한 딥러닝] 인공신경망, 오차역전파 (0)	2020.08.11
[모두를 위한 딥러닝] 학습계수, 데이터 표준화, 과적합 (0)	2020.08.04
[모두를 위한 딥러닝] 로지스틱 회귀 (0)	2020.07.27
[모두를 위한 딥러닝] 텐서플로우 기초, 선형회귀 (0)	2020.07.26
[모두를 위한 딥러닝] 작업환경 설정(파이썬, 텐서플로우) (0)	2020.07.26

🎵

🎵

태그

최근글

댓글

공지사항

아카이브

다중 분류

소프트맥스

'💻 > ML' 카테고리의 다른 글

관련글

티스토리툴바