1. 개념 정리

2. 기계 학습 구조 분석

현대 AI의 대표적 모델인 퍼셉트론, 서포트 벡터 머신(SVM), 딥러닝 신경망(CNN 등)의 내부 구조를 살펴보면, 모두 수학적 원리를 바탕으로 동작하지만 각각 상이한 사고 흉내 방식을 가집니다. 아래에서는 이들의 수학적 구조(선형대수, 미분, 통계 활용)와 계층적 사고 처리(판단 → 추론 → 표상) 특징을 비교하고, 각 기법의 한계도 함께 설명합니다.

퍼셉트론(Perceptron)의 구조와 특성

퍼셉트론은 가장 단순한 인공 신경망으로, 한 층의 뉴런으로 이루어진 모델입니다. 수학적으로 입력 벡터 $\mathbf{x}=(x_1,\dots,x_n)$와 가중치 $\mathbf{w}=(w_1,\dots,w_n)$의 선형 결합 $w_1x_1 + \cdots + w_nx_n + b$ (여기서 $b$는 편향, bias) 값을 계산한 후, 그것이 임계값을 넘으면 1, 아니면 0을 출력하는 이진 분류기입니다. 즉 선형대수 (벡터 내적)로 입력을 합산하고, 계단 함수(threshold)를 적용하여 출력 결정(판단)을 내립니다.

퍼셉트론이 구현하는 사고 구조는 한마디로 단층의 판단입니다. 복잡한 추론 과정 없이, 입력을 곧바로 하나의 계산으로 연결하므로 내부 표상(representation)은 오직 가중치들에 응축되어 있습니다. 퍼셉트론도 학습은 가능하지만, 주어진 데이터를 잘 분류하는 방향으로 가중치를 조정하는 정도로, 이는 단순한 형태의 경험 학습입니다. 가령 AND, OR 등의 선형적으로 구분 가능한 논리 함수는 단일 퍼셉트론으로 표현 가능하나, XOR처럼 비선형적 패턴은 한 개의 퍼셉트론으로는 구분 불가능함이 증명되었습니다. 이 한계 때문에 퍼셉트론은 다층화되기 전까지 복잡한 문제를 풀지 못했고, XOR 문제는 한때 신경망 연구의 좌절을 불러온 바 있습니다.

한계: 퍼셉트론은 선형 결정 경계만 형성하므로 데이터가 선형적으로 나뉘지 않을 경우 실패합니다. 실제 1969년 Minsky와 Papert는 퍼셉트론으로는 XOR 같은 함수를 구현할 수 없음을 지적했고, 이는 이후 신경망 연구의 침체(첫 번째 AI 겨울)를 초래했습니다. 또한 표현력이 제한적이라 복잡한 추론이나 계층적 표현 학습이 어렵고, 다층 구조로 확장해야만 비선형 패턴을 학습할 수 있습니다.

SVM(Support Vector Machine)의 구조와 특성

SVM은 최대 마진 분류기로서, 주어진 데이터를 가장 잘 양분하는 초평면(hyperplane)을 찾는 알고리즘입니다. 수학적으로 이는 이차최적화 문제로 표현되며, 라그랑주 승수법 등을 통해 해를 구합니다. 선형 SVM은 퍼셉트론과 유사하게 선형 결정함수를 쓰지만, 특징은 결정 경계와 가장 가까운 데이터점(서포트 벡터)들과의 마진(여유)을 최대화한다는 점입니다. 이렇게 함으로써 일반화 성능을 높이고 안정적인 판단을 하죠. 또한 SVM은 커널 트릭을 통해 입력 데이터를 고차원 특징 공간으로 비선형 사상하여, 선형 분리가 어려운 경우에도 커널 함수로 암묵적인 비선형 표상을 사용합니다. 이는 수학적으로 내적(inner product) 연산을 확장한 것으로, 사실상 선형대수의 응용이라 할 수 있습니다.

SVM의 사고 구조는 단층 분류기이지만 보다 정교한 판단을 구현한다고 볼 수 있습니다. 출력 결정(판단)은 퍼셉트론처럼 이진이지만, 마진 최대화 덕분에 신뢰도가 높은 추론을 합니다. 여러 단계의 추론을 거치진 않지만, 커널 함수를 통해 복잡한 표상을 암묵적으로 사용하므로 퍼셉트론보다는 풍부한 표현력을 가집니다(예: RBF 커널로 입력 공간을 곡선형으로 분리 가능). 다만 내부 추론 과정이 명시적이지 않고, 한 번에 최적의 초평면을 푸는 전역 최적화 방식입니다.

SVM은 두 클래스를 분리하는 최적의 초평면(실선)을 찾아 margin을 최대화한다. 위 그림에서 대쉬 선으로 표시된 두 경계는 마진 폭을 결정하며, 이 경계에 닿는 데이터 포인트들이 서포트 벡터이다. 마진이 넓을수록 일반화 성능이 높다.

한계: SVM은 이론적으로 전역 최적해를 보장하지만 현실 적용 시 몇 가지 제약이 있습니다. 첫째, 데이터 규모와 계산량 문제입니다. SVM의 학습은 이차 프로그래밍으로 훈련시간이 오래 걸릴 수 있고, 데이터가 매우 많거나 차원이 높으면 메모리·연산 비용이 커집니다. 둘째, 클래스 간 경계가 겹치거나 노이즈가 많은 경우 SVM 성능이 떨어집니다. 실제로 타겟 간 겹침(노이즈)이 있으면 마진 극대화가 어려워 일반화가 나빠질 수 있습니다. 또한 훈련 샘플보다 특징 차원이 더 큰 경우 등에서도 SVM은 과적합 우려로 성능 저하가 있습니다. 셋째, SVM의 출력은 확률이 아니라 점수(거리)이기에 결과를 확률적으로 해석하기 어렵고, 모델이 결정에 사용한 규칙의 해석이 어려움(커널을 쓰는 경우 더욱)도 단점입니다. 그럼에도 작은 데이터셋이나 선형 구분에 유리한 문제에서는 심층 신경망보다 안정적으로 동작하여, 데이터가 적을 때 유용한 경우가 있습니다.

딥러닝 신경망(Deep Learning, 예: CNN)의 구조와 특성

딥러닝은 다층 인공신경망을 통해 계층적인 표현 학습과 복잡한 함수 근사를 수행하는 기법입니다. 특히 합성곱 신경망(CNN)은 이미지나 영상 처리에 탁월한 딥러닝 모델로, 입력 계층 – 은닉 합성곱 계층들 – 완전연결 출력 계층의 구조를 가집니다. 수학적으로 딥러닝은 각 층에서 선형 변환(행렬 곱으로 가중합 계산)을 적용한 뒤 비선형 활성화 함수(예: ReLU, sigmoid)를 통과시키는 연산을 여러 번 중첩합니다. 이 때 오차 역전파 알고리즘으로 출력과 정답 간의 오차를 미분(gradient)하여 각 계층의 가중치를 조금씩 갱신하는 미분/최적화 절차가 핵심입니다. CNN의 합성곱 계층은 국소적인 필터 연산(컨볼루션)으로 특징을 추출하며, 풀링(pooling)으로 공간 축소 및 불변성을 확보하고, 마지막에 완전연결층으로 분류 결정을 내립니다.

딥러닝의 사고 구조는 계층적 표현 학습으로 요약됩니다. 퍼셉트론이나 SVM이 일회적인 판단에 그쳤다면, 다층 신경망은 여러 단계의 추론을 내부적으로 수행합니다. 예를 들어 CNN을 통한 이미지 인식에서, 첫 합성곱층은 저수준 패턴(에지)을 감지하고, 다음 층들은 그것을 조합해 중간 수준 특징(모서리나 텍스처)을 인식하며, 최종층에 가까워질수록 고수준 개념(객체의 일부 혹은 전체)을 표상합니다. 이러한 계층적 표상은 인간 인지가 지각 → 개념화 → 판단으로 나아가는 과정과 어느 정도 유사한 구조를 가집니다. 딥러닝은 각 층의 뉴런들이 이전 층의 출력을 입력으로 받아들여 연쇄적인 추론을 전개하므로, 기계가 추상화와 범주화를 단계적으로 배우는 셈입니다. 최종 출력층에서는 softmax 등을 통해 각 클래스일 확률을 산출하며, 이를 기반으로 판단을 내립니다. 이렇듯 딥러닝은 판단(결정) 이전에 다단계의 표상 학습과 은닉된 추론을 수행한다는 점이 특징입니다.