- 음악과 나 -/『 짬 통 』

싱경망...

noon2dy 2005. 10. 10. 16:45

 


http://dali.korea.ac.kr/~jypyun/neural.html 도 참조해보고.

 

http://iis.jnu.ac.kr/lec/1plan.html  전남대. 여기 죽인다.

 

 

 

신경망(한양대 copy) | 낙서장 2004/07/26 07:57
http://blog.naver.com/decanos/20004367941

신경망


신경망(neural networks)의 역사

  • 진화1940년대 초반에 컴퓨터가 발명되고 1956년에 인공지능이란 용어가 처음 사용된 이래 지능형 컴퓨터 기술은 그 동안 비약적인 발전을 하였으며, 인공지능의 아이디어와 방법들은 여러 분야에 적용
  • 인간은 유아들도 사물을 인식하고 언어와 지식을 습득하는 뛰어난 학습 능력을 갖고 있지만, 현재 대부분의 인공지능 시스템은 매우 제한된 학습 능력만을 가지고 있을 뿐
  • 인간이 현재의 컴퓨터 보다 뛰어난 적응 및 학습 능력이나 유연한 의사 결정 능력을 갖게 된 것은 아마도 정보처리 방식의 근본적인 차이에서 오는 것일 가능성이 높음
  • 신경망는 기존의 컴퓨터와 사람의 두뇌 구조 사이에 존재하는 이러한 차이점에 착안하여 기존의 연산 방식을 벗어나 생물학적인 두뇌의 정보처리 모델에 더욱 충실함으로써 보다 자연스럽게 사람의 기억, 학습 및 지능 현상을 흉내내려는 일련의 시도
  • 신경망에 관한 연구는 1943년부터 시작
    • 이때 McCulloch?와 Pitts는 인간의 두뇌를 수 많은 신경 세포들로 구성된 잘 정의된 컴퓨터라 생각하고, 최초로 신경망의 수학적 모델을 제안
    • 이 모델은 뉴론(neuron : 신경 세포)이 하나의 처리 단위로서의 계산 기능만을 중시한 나머지, 학습 기능에 대해서는 도외시
  • Hebb은 1949년에 발간된 그의 저서 “The Organization of Behavior"에서 뉴런의 시냅스(synapse : 신경 연접)에서 일어나는 상관 학습에 관하여 기술
    • 그는 뉴런에서 일어나는 학습 방법을 관찰함으로써 ”Hebb의 학습 규칙“이라는 신경망에 대한 학습 규칙을 개발
    • Hebb의 학습 규칙은 ”만일 뉴런 A가 뉴런 B의 활성화에 반복적으로 기여한다면, 뉴런 B를 활성화시키는데 있어서 뉴런 A의 효용성은 증가한다“는 것
    • 이러한 규칙은 학습에 관한 연구를 크게 발전시켰으며 적응적인(adaptive) 신경망 연구에 많은 영향을 끼침
  • 1958년에 Rosenblatt는 퍼셉트론(perceptron)이라는 신경망 모델을 제안하였는데, 퍼셉트론은 패턴을 인식하기 위하여 학습 기능을 이용함으로써 그 당시 커다란 기대를 받게 됨
    • 그는 퍼셉트론 연구에 있어서 수학적 분석과 디지털 컴퓨터를 사용한 시뮬레이션 방법을 병행하였는데, 퍼셉트론의 등장으로 많은 학자들이 신경망의 연구에 관심을 갖게 됨
  • 1969년 Minsky와 Papert가 그들의 저서 “Perceptrons"에서 퍼셉트론 모델을 수학적으로 철저히 분석하여, 퍼셉트론이 XOR 함수와 같이 단순한 선형 분리 문제도 풀 수 없음을 밝혀내면서 신경망에 관한 연구는 침체의 길을 걷게 됨
  • 이러한 신경망 연구의 암흑기 중에서도 1960년대 후반에서 1970년대 초반에 걸쳐 Grossberg, Willshaw, Amari, Anderson, Kohonen 등은 사람 눈의 움직임을 모방한 신경망, 분산 기억 모델의 수학적 분석, 선형 연상 기억 장치, 자기-조직화 연상 기억 장치 등에 관하여 독자적으로 꾸준한 연구를 계속
  • 1970년 후반에 그동안 독자적인 연구를 계속해 온 Rumelhart와 McClelland? 등이 PDP(Parallel Distributed Processing) 그룹을 결성하면서 신경망에 대한 연구가 부흥되기 시작
  • 1980년대 초에는 퍼셉트론과 같이 하나의 조정층(adjustable layer)을 갖는 모델의 한계점을 극복하기 위한 방법으로 입력층과 출력층 사이에 한 개 이상의 은닉층(hidden layer)을 둔 모델이 등장하게 되었으며, 특히 PDP 그룹에서는 은닉층과 함께 오류 역전파(error back propagation) 학습 알고리즘을 제안하여 선형 분리 문제뿐 만 아니라, 그 외의 여러 가지 문제들을 해결할 수 있는 계기를 마련함으로써 신경망에 대한 연구가 다시 활성화
  • 1980년대 이후, Hopfield의 Hopfield 네트워크, Fukushima의 Neocognition, Hinton의 Boltzmann 머신, Cooper와 Elbaum의 RCE(Restricted Coulomb Energy) 네트워크, Kohonen의 SOFM(Self Organization Feature Map) 등이 발표되었고, 현재 다양한 분야에서 신경망에 대한 연구와 응용이 활발하게 이루어지고 있음
  • 정리
    • 1943 : 인공 신경망 모델
    • 1949 : 학습 규칙
    • 1958 : 퍼셉트론 모델
    • 1960 : 델타 학습 규칙
    • 1969 : 퍼셉트론의 한계 입증
    • 1970 후반 : PDP 그룹 결성, 신경망 연구 부흥
    • 1980 초반 : 은닉층 모델, 오류 역전파 알고리즘 제안, 홈필드 모델, SOM, ART
    • 1987 : IEEE 국제 학술제의 개최, 국제 신경망 학회(INNS) 조직

생물학적 신경망과 인공 신경망

  • 신경망에 관한 연구는 인간의 두뇌와 신경 세포 모델에 대한 연구에서 시작
  • 신경 시스템에서 가장 기본적인 단위는 뉴런이라는 세포이다. 각각의 뉴런은 신경 시스템에서 여러 가지 기능적인 역할을 담당
  • 생물학적 신경망
    • 뇌는 다수의 뉴런이 서로 연결된 신경망으로 구성
    • 대뇌나 소뇌의 피질에는 이러한 뉴런이 1mm3안에 수 만개가 있다. 뉴런의 기본적인 기능은 정보의 수용, 연산처리, 출력의 전송 등의 3가지
    • 뉴런의 형태나 크기는 여러 가지가 있지만, 기본적으로는 체세포(soma)와 체세포로부터 나온 많은 돌기로 구성
    • 체세포는 신경의 중앙에 위치하며 직경 5내지 100미크론(micron)의 크기
    • 뉴런의 크기는 동물의 종류에 따라 다르고, 또한 같은 종류의 동물일지라도 뉴런의 종류에 따라 다름
    • 체세포로부터 나온 돌기는 축색 돌기(axon)라 불리는 한 개의 가느다란 섬유와 수상 돌기(dendrite)라 불리는 나무의 가지처럼 넓게 펴져 있는 비교적 두껍고 짧은 다수의 돌기로 나눔
    • 축색 돌기는 체세포에 붙어있으며 전기적으로 활성화되고, 뉴런에 위해 발생되는 펄스를 다른 뉴런들에게 전달
    • 수상 돌기는 다른 뉴런과 연결되어 입력 신호를 받아 연산을 수행한 후 체세포에 보냄
    • 체세포는 수상 돌기로부터 받은 신호 및 체세포 내에 직접 입력되는 신호를 펄스 신호로 변환
    • 축색 돌기는 펄스 정보를 다른 뉴런에 전달하는 케이블 역할
    • 축색 돌기의 끝부분은 가느다란 가지로 나뉘어져 있으며, 다른 뉴런의 수상 돌기와 체세포에 접속하는 시냅스(synapse)라 부르는 특별한 연결
    • 뉴런 간의 정보 교환은 모두 시냅스를 통하여 이루어지며, 정보의 전달 방향은 항상 단방향
    • 시냅스는 뉴런들 사이의 연결점으로 수상 돌기의 국부적인 전위를 펄스에 따라 양(+) 또는 음(-)의 방향으로 바꿀 수 있음
    • 이런 펄스의 전달은 하나의 시냅스에서 대량의 다른 뉴런으로 이루어지며 매우 느린 속도로 일어남
    • 여기서 시냅스에 관하여 자세히 살펴보면 다음과 같음
      • 시냅스에는 전기 시냅스라 불리는 특수한 것이 있지만, 일반적으로는 화학적 시냅스를 가리킴
      • 시냅스에서는 축색 돌기의 끝부분이 다른 뉴런의 수상 돌기나 체세포에 10~50nm(1nm = 10-9m) 정도의 좁은 간격으로 연결
      • 축색 돌기의 끝부분에는 아주 많은 시냅스 소포가 있음
      • 시냅스 소포 속에는 전달 물질이라 불리는 화학 물질이 축적되어 있으며, 이 물질의 종류는 뉴런의 종류에 따라 결정
      • 시냅스 후막은 시냅스 앞부분에서 방출되는 화학 전달 물질을 수용하여 이온 투과성으로 변화시키는 성질을 가지고 있음
      • 축색 돌기 끝부분에 전기적 펄스가 도착하면 일련의 반응이 일어나, 시냅스 후막 부근에 일관성 있게 양(+), 음(-)의 전위 변화가 일어남
      • 양(+)의 전위는 뉴런을 흥분시키므로 흥분성 시냅스 후전위(EPSP : Excitatory Post Synaptic Potential)라 부르며, 음(-)의 전위 변화는 역으로 흥분을 억제하므로 억제성 시냅스 후전위(IPSP:Inhibitiory Post Synaptic Potential)라 부름
      • EPSP를 발생시키는 시냅스는 흥분성 시냅스, IPSP를 발생시키는 시냅스는 억제성 시냅스라 함
      • 시냅스가 흥분성인가, 억제성인가는 방출되는 화학 전달 물질의 성질과 그것을 수용하는 뉴런의 시냅스 후막의 성질에 따라 결정

  • 인공 신경망
    • 인공 신경망의 뉴런과 생물학적인 뉴런과의 차이는 매우 큼
    • 우선 생물학적인 뉴런은 주위의 뉴런들과 고밀도의 연결을 가짐
    • 두뇌에서 뉴런의 경우 1000개에서 100,000개의 다른 뉴런들과 연결되어 있음
    • 인공적인 신경망에서는 이것의 1% 가량의 연결성도 현재 수준으로는 원활하게 처리하기 어려움
    • 또한 생물학적 뉴런들은 본래부터 전기 화학적(electrochemical)임
    • 즉, 뉴런들 사이의 연결 강도는 전기적인 신호에만 의존하는 것이 아니고, 전기적이고 화학적인 신호들에 의해 조정
    • 현재까지 이러한 전기 화학적인 신경망의 모델링은 거의 없없음
    • 생물학적 뉴런의 성질을 정보처리 기능의 면에서 다음과 같이 정리
      • 다입력 1 출력
      • 흥분성과 억제성의 시냅스 결합
      • 시간적, 공간적 연결 강도
      • 펄스 발생
      • 아날로그 정보를 펄스 빈도로 전송
      • 비선형성
      • 절대 불응기, 상대 불응기
      • 시간 지연
      • 순응, 적응, 피로
      • 기타
    • 이러한 성질의 몇 가지를 추상화한 뉴런 모델이 다수 제안
    • 이 중에서 뉴런의 가장 단순한 모델은 1943년에 McCulloch?과 Pitts가 제안한 뉴런
      • 뉴런이 N개의 입력을 갖고 각 입력의 신호를 x1, x2, x3 ..... xn , 출력을 y라 하면, 형식 뉴런의 동작은 아래의 식 (1)과 같이 이산 시간의 차분 방정식으로 기술
      • y(t+1) = f[(i=1∑N)wi*xi(t) - θ] …… (1)
        • (t = 0, 1, 2, …)
        • f는 식(2)의 계단함수(step function)
      • f(u) = 1 if u > 0
      • 0 if u ≤ 0 …… (2)
      • 형식 뉴런의 각 입력 및 출력은 1 또는 0의 값을 가지며, 1은 뉴런이 흥분 상태(활동 전위 펄스를 생성한 상태), 0은 뉴런이 흥분하지 않은 상태(정지상태)에 각각 대응
      • 식 (1)에서 wi는 i번째 입력의 시냅스 연결 강도를 나타냄
        • wi가 양(+)이면 흥분성 시냅스, 음(-)이면 억제성 시냅스를 나타내며, 결합이 없으면 wi=0
        • θ는 임계값을 나타내며 (i=1∑N)wi*xi(t)의 값이 θ보다 클 때만 뉴런이 흥분하여 펄스를 출력
      • 형식 뉴런은 일종의 다수결로 출력을 결정하는 소자로, 다 입력 1 출력의 비선형 소자
      • 형식 뉴런은 입력 부위, 가합 기능 부위(입력 조합 및 가중치 부여), 임계값 기능 부위, 출력 부위 등 네 개의 기능 부위
        • 입력 부위는 뉴런의 수상 돌기에 해당되며, 다른 뉴런의 신호를 시냅스로부터 받는 기능
        • 가합 기능 부위는 뉴런의 체세포에서 처럼 활성적 정보를 가진 입력 신호와 억제적 정보를 가진 입력 신호를 조합하고 가중치(weight)를 부여
        • 임계값 기능 부위는 뉴런의 활동 전위가 임계값을 상회할 때 뉴런이 활성화되어 점화
        • 가합된 신호가 임계값에 미달되면 아무런 반응도 일어나지 않음
        • 출력 부위는 뉴런의 축색 돌기에 해당되며, 체세포의 점화에 의해 발생되는 전기적 에너지를 통해 다른 뉴런으로 전달
      • 생물학적인 뉴런은 수상돌기, 축색돌기 그리고 시냅스로 이루어져 있는데, 인공 뉴런은 수상돌기와 축색 돌기를 전선으로, 시냅스는 연결 강도를 갖는 저항으로 모방
      • 생물학적 뉴론의 구조 및 기능의 수학적 McCulloch?-Pitts의 모델이 있는데, 이는 뉴론을 하나의 한계치 논리(threshold logic) 단위의 형태로 간주
      • 이와 같은 수학적 모델로서의 뉴론이 상호 연결되어 네트워크를 형성할 때 이를 신경망(neural network)이라고 하며, 이를 생물학적 신경망과 구별하여 특히 인공 신경망(artificial neural network)이라고도 함
      • 별도의 언급이 없는 한, 신경망은 인공 신경망를 의미
      • McCulloch?-Pitts의 뉴론 모델은 하나의 처리 단위(Processing Element ; PE)에 여러 개의 입력 채널과 하나의 출력 채널이 연결된 구조
        • 각 입력 채널에는 가중치가 있으며 처리 단위의 임계값(threshold) 보다 크면 1, 그렇지 않으면 0의 신호를 출력
        • 뉴런은 입력과 각 입력에 대응하는 가중치를 곱하여 합한 값 ∑xi*wi에 대해 비선형 함수 f를 적용한 값을 출력
        • 여기에서 θ는 뉴런 자체의 임계값(threshold) 또는 바이어스(bias)로서 ∑xi*wi의 값이 임계값 보다 작을 때에는 뉴런은 활성화되지 않도록 하는 역할
        • 여기에서 f와 같은 함수를 신경망 이론에서는 전달 함수(transfer function) 또는 활성 함수(activation function)
      • 전달 함수
        • 역치 함수
          • S값이 임계값 이상이 되면 1을 출력하고, 임계값 보다 작으면 0을 출력
        • 선형 함수
          • 일차식으로 출력값은 실수 전체
        • 시그모이드 함수
          • f(x)=1/(1+e-x)로 표현
          • e는 2.718282의 값을 갖는 상수이며, 출력은 0에서 1사이의 값을 갖음
        • 예를 들어 입력 x=[1 2 3], 연결강도 w=[1 0.3 0.5], 임계값 3, 활성화 함수는 역치함수인 경우에 신경망모델의 활성화 여부는 어떻게 판단할 수 있는가?
          • 식에 따라 S= 1*1 + 2*0.3 + 3*0.5
          • Y=f(S)=f(3.1)=1
          • 따라서 입력 x가 들어오면 출력은 1이 되므로 뉴런은 활성화
    • Rosenblatt가 제안한 가장 단순한 신경망 모델인 단층 퍼셉트론(single layered perceptron)
      • 입력층과 출력층으로 구성되어 있고, 전달 함수로 역치 함수를 사용하는 신경망
      • 단층 퍼셉트론의 동작을 알아보기 위해 입력이 2개이고 출력이 1개인 예
        • 단층 퍼셉트론은 2차원 평면 위의 점(x1, x2)에 대해 0 또는 1의 값을 출력
        • f(∑xi*wi - θ) = x1*w1 + x2*w2 - θ
        • 에 대해 f(∑xi*wi)의 값이 θ의 값보다 크면 1의 값을 출력하고, 그렇지 않으면 0을 출력
        • 따라서 이 신경망은 x1축과 x2 축으로 구성된 평면상에서 직선 x1*w1 + x2*w2 - θ = 0을 기준으로 평면상의 점들을 2개의 부류로 분류하는 역할
        • 신경망이 평면상의 점에 대해서는 1을 출력하고 0을 출력하도록 하려면, 연결선의 가중치 w1,w2를 조정
        • 이와 같이 주어진 입력에 대해 원하는 출력이 나오도록 연결선의 가중치를 조정하는 것을 신경망의 학습(learning) 또는 훈련(training)
        • 신경망을 학습시키기 위하여 주어진 입력과 원하는 출력의 쌍(pair)들을 학습 데이터(learning data)
        • 학습 데이터를 통해 잘 훈련된 신경망은 학습되지 않은 입력에 대해서도 근접한 해를 출력
        • 한편 학습 데이터가 입력과 출력 모두로 구성된 것이 아니라 입력만으로 구성되는 경우도 있는데, 이러한 경우(입력 데이터들만으로 연결 가중치를 조정하는 경우)의 학습 방법을 비감독 학습(unsupervised learning), 학습 데이터가 입력과 출력의 쌍으로 구성된 경우의 학습 방법을 감독 학습(supervised learning)
        • 단층 퍼셉트론은 XOR 문제에 적용될 수 없는 등 제약이 많아서 바람직한 신경망 모델은 되지 못함
        • 이러한 단층 퍼셉트론의 문제를 해결할 수 있는 대표적인 모델이 다층 퍼셉트론(multi-layered perceptron)
        • 다층 퍼셉트론은 입력층과 출력층 뿐만 아니라, 이들 사이에 1개 이상의 은닉층(hidden layer)이 존재하는 시그모이드 함수를 전달 함수로 사용하는 신경망
    • 단층 퍼셉트론이나 다층 퍼셉트론처럼 입력층에서 시작하여 출력층으로, 한 방향으로만 연산이 진행되는 신경망을 전진형(feedforward) 신경망
    • 뉴런에서 피드백이 발생하는 다층 퍼셉트론을 피드백형(feedback) 신경망
    • 피드백형 신경망은 망의 상태가 안정될 때까지는 출력을 발생시키지 않기 때문에 연산 시간이 일정하지 않은 반면, 전진형 신경망은 항상 일정한 연산 시간
    • 다층 퍼셉트론을 이용하여 숫자를 인식하는 예
      • 3 × 4 픽셀(pixel)로 구성된 숫자 7을 인식하는 신경망
      • 물론 숫자 7을 인식하기 위해서 if - then으로 구성할 수도 있고, table 형식으로 구성할 수도 있음
      • if - then 으로 구성한다면
        • x = GetBinaryFromImage();
        • if( x == 111101001001 ) then return 7;
      • 노이즈가 있을 경우는 어떻게 표현할 것인가? 노이즈로 인해 이진수가 111001001001로 바뀌었다고 하면 모든 경우의 수를 if -then으로 표현하기란 쉽지 않음
      • 하지만 신경망은 다층 퍼셉트론을 이용하여 분류(classification) 작업이 가능하며, 노이즈에 강함
      • 이미지로부터 신경망의 노드가 처리할 수 있는 데이터로 변환한 다음, 각 입력 노드값으로 설정하고 가중치(weight)가 적절히 설정되었다면 출력 노드에서 7이라는 노드가 가장 큰 값으로 표현될 것
      • 임의의 이미지를 입력으로 하였을 때 가장 큰 값의 출력 노드가 그 이미지가 가리키고 있는 숫자인 것
      • 문제는 "어떻게 가중치를 설정할 것인가"가 문제인데 초기 신경망의 가중치는 보통 -1.0 ~ 1.0의 임의값으로 설정
      • 신경망에서의 학습이란 원하는 결과의 노드가 최대값이 나오도록 적절히 가중치를 설정하는 과정
      • 즉, 111101001001이나 111001001001의 입력이 들어가도 출력 노드 7이 최대값이 되도록 가중치를 설정
      • 이때 학습에 사용되는 대표적인 알고리즘이 오류 역전파(error back propagation) 알고리즘
    • 망을 구성하고 있는 뉴런의 연결 형태와 동작에 따라 여러가지 신경망 모델이 제안
    • 신경망의 학습 알고리즘도 여러 가지 제안
      • 그 중에 대표적인 것으로는 Hopfield 네트워크 등에서 사용되는 Hebb의 학습 알고리즘과 다층 퍼셉트론등에서 사용되는 오류 역전파 알고리즘
    • 대표적인 신경망의 모델과 특징에 대해 간략하게 기술
      • Hopfield/Kohonen
        • 주 응용범위 : 최적화 문제 해결
        • 장점/비고 : 대규모 구현
        • 단점 : 학습기능 없음, 가중치 고정
      • Perceptron
        • 주 응용범위 : 인쇄체 문자 인식
        • 장점/비고 : 최초의 신경망
        • 단점 : 변화에 민감, XOR 해결 못함
      • Multi-layer Perceptron (MLP)
        • 주 응용범위 : 패턴 인식
        • 장점/비고 : 전진형 신경회로망 Perceptron 보다 일반적
        • 단점 : 복잡한 패턴 인식 불가
      • Input driven Multi-layer Perceptron
        • 주 응용범위 : 문자 , 음성인식
        • 장점/비고 : 학습용이 MLP 개선
        • 단점 : 방대한 학습 데이타를 사용한 지도학습
      • Boltzmann Machine
        • 주 응용범위 : 패턴 인식
        • 장점/비고 : 최소 에너지상태에 도달하기 위한 잡음 함수 사용
        • 단점 : 학습 시간이 김
      • Unidirectional Feedback Type Model
        • 주 응용범위 : 문자 인식에서 전처리
        • 장점/비고 : 병렬형 전자 회로 설계
        • 단점 : 학습 기능 없음
      • Self-Organizing Map
        • 주 응용범위 : 한 기하학적 영역을 다른 영역에 사상
        • 장점/비고 : 알고리즘적인 것보다 성능이 좋음
        • 단점 : 광범위한 학습
      • Neocognitron
        • 주 응용범위 : 문자인식
        • 장점/비고 : 복잡한 패턴 인식
        • 단점 : 뉴런과 연결이 많음

신경망의 학습과 회상

  • 인간의 뇌가 다른 시스템에 비해 가지는 가장 큰 장점은 경험을 통하여 학습을 할 수 있다는 것
  • 뇌의 구조와 동작 방식을 흉내 낸 신경망이 가지는 가장 큰 장점 역시 학습이 가능하다는 것
  • 신경망은 일단 학습이 되면, 어느 정도는 왜곡되거나 파손되었다고 하더라도 적절한 결과를 산출
  • 같은 신경망이라 하더라도 초기의 신경망은 갓난 아이와 같다고 할 수 있기 때문에 어떻게 학습시키는냐에 따라서 동작은 완전히 달라짐
  • 갓난 아이가 경험 등을 통하여 학습하면서 지식을 쌓듯이, 신경망 또한 학습은 지식을 부여할 수 있는 거의 유일한 방법이기 때문에 신경망 연구에 있어 가장 중요한 것 중의 하나가 바로 학습 방법의 개발
  • 지금까지 많은 학습 규칙들이 만들어져 왔으나, 그 기본은 언제나 주어진 입력에 대해 연결 가중치를 변화시키는 것
  • 헵의 규칙, 델타 규칙, 일반화된 델타 규칙, 인스타 규칙 등은 모두 신경망의 연결 가중치를 조절하는 학습 규칙들의 이름
  • 목적 패턴이란 주어진 입력 패턴에 대해 신경망이 출력해 주기 원하는 출력 패턴으로, 외부로부터 주어진 패턴
  • 이러한 목적 패턴을 사용하는 학습 방법을 감독 학습 방법, 목적 패턴을 사용하지 않는 학습 방법을 비감독 학습 방법
  • 학습과정
    • ① 초기 신경망의 학습을 위한 연결가중치를 적당한 값으로 초기화
    • ② 학습시킬 입력 패턴을 선정하고, 입력층에 입력 패턴을 제시
    • ③ 신경망의 인공뉴런들을 각층별로 동작시켜 출력 패턴을 출력
    • ④ 신경망의 출력층에 목적 패턴을 제시하고 비교(감독 학습의 경우).
    • ⑤ 선택된 학습 규칙에 따라 연결 가중치를 조정
    • ⑥ 신경망이 완전히 학습될 때까지 입력 패턴에 대해 ②~⑤의 과정을 반복
  • 학습을 통해 생성된 지식에 대해서 주어진 입력이 있다면 관련된 정보를 인출할 수가 있는데 이러한 과정을 회상(recall)
  • 신경망의 회상 역시 인간의 뇌에서 회상하는 것과 여러 가지 점에서 비슷하며, 특히 연관 회상 능력이 가장 두드러진 점
  • 회상 과정은 학습 과정에서 연결 가중치를 조절하는 부분과 감독학습의 경우 목적패턴과의 비교 부분을 뺀 것과 거의 같음
    • ① 회상할 입력 패턴을 선정
    • ② 신경망의 입력층에 입력 패턴을 제시
    • ③ 신경망의 인공뉴런을 층별로 동작시켜 출력패턴을 출력
    • ④ 더 회상할 입력 패턴이 있는 경우 ①로 감

전진형(feedforward) 신경망

  • 신경망은 구조에 따라 전진형 신경망과 피드백형(feedback) 신경망으로 나뉘고, 학습방법에 따라서는 감독학습과 비감독학습으로 나누어짐
  • 감독 학습 방법
    • 감독 학습 방법이란 신경망의 학습 과정을 관찰하는 감독이 존재하는 것
    • 감독이란 주어진 입력 패턴에 대한 신경망의 출력 패턴의 형태를 지시해 주는 목적 패턴을 의미
    • 입력 패턴에 대한 출력 패턴이 얻어지면, 그것을 목적 패턴과 비교하여 연결 가중치를 조절
    • 이런 과정이 반복되면 결국은 입력 패턴에 대해 그것과 쌍을 이루는 목적 패턴을 출력
    • 헵의 학습규칙
      • 1949년 Hebb에 의해 만들어진 최초의 신경망 학습 규칙으로 오늘날 대부분의 학습 규칙들은 이 헵의 규칙에서 발전된 것들
      • 헵의 규칙의 기본은 그 후 만들어진 다른 모든 신경망 학습 규칙과 마찬가지로 연결 가중치를 조절하는 것이며, 그 특성은 다음과 같이 아주 간단
        • "만일 어떤 신경세포의 활성이 다른 신경세포가 활성하는데 계속적으로 공헌을 한다면, 두 신경세포 간의 연결 가중치를 증가시켜 주어야 한다."
      • 연결 가중치는 wij로 나타내었는데, 첨자 i, j는 각각 그 연결 가중치에 의해 연결된 신경세포들을 의미하며, 정보의 전달은 앞쪽 첨자의 신경세포에서 뒤쪽 첨자의 신경세포로 전달(즉, i => j)
      • 아래은 신경세포의 4가지상태를 나타냄
      • 4가지 상태 중, 활성되는 경우는 (라)밖에 없으므로, 헵의 규칙에 따라 (라)의 경우에만 연결 가중치 wij를 증가시켜 주면 됨

      • Ni - Wij - Nj
        • N은 신경세포, Wij는 연결 가중치
        • (가) i = 0, j = 0 -> 활성화 N
        • (나) i = 0, j = 1 -> 활성화 N
        • (다) i = 1, j = 0 -> 활성화 N
        • (라) i = 1, j = 1 -> 활성화 Y

      • 헵의 규칙을 수학식으로 표현
        • w(new)ij = w(old)ij + αaiaj …… (1)
        • w(new)ij : 신경세포 i, j 사이의 조절된 후 연결 가중치
        • w(old)ij : 신경세포 i, j 사이의 조절되기 전 연결 가중치
        • α : 학습률 (0 〈 α ≤ 1)
        • ai : 신경세포 i의 활성값
        • aj : 신경세포 j의 활성값

      • 식 (1)에서 w(new)ij는 새롭게 조절된 신경세포 i, j 사이의 연결 가중치이며, w(old)ij는 조절되기 전의 연결 가중치
      • α는 학습률이라는 것으로 연결 가중치의 조절량을 결정하는 0과 1사이의 값을 갖는 상수
      • 즉, 이 값이 크면 w(old)ij에는 큰 값이 더해지므로 연결 가중치는 많이 조절되고, 반대로 이 값이 작으면 w(old)ij에 작은 값이 더해지므로 연결 가중치는 조금 조절
      • ai와 aj는 각각 신경세포 i, j의 활성값을 나타냄
      • 위의 그림의 (가), (나), (다)의 경우는 두 신경세포가 동시에 활성화되지 않은 경우
      • 이 경우에 ai와 aj중 적어도 하나는 언제나 0이므로, 식 (1)의 마지막 항 αaiaj는 0이 됨
      • 결국, 연결 가중치의 변화는 없고 w(new)ij = w(old)i가 됨
      • 반면, 두 개의 신경세포들이 동시에 활성된 경우, 즉 (라)의 경우인데, 두 신경세포의 활성 값 ai와 aj는 모두 1이므로 식 (1)의 마지막 항은 α*1*1 = α가 됨
      • 즉, 연결 가중치는 α만큼 증가하게 되어 w(new)ij = w(old)ij + α가 됨
      • 식 (1)은 두 개의 신경세포가 동시에 횔성된 경우에만 연결 가중치를 증가시켜 준다는 헵의 학습 규칙을 정확하게 표현
      • 감독학습방법의 경우 목적 패턴이 있어야 되는데 지금의 경우에는 목적 패턴이 없음
      • 즉, 헵의 규칙의 경우에는 외부로부터 신경망의 출력 형태를 지정하는 목적 패턴이 필요치 않으며, 학습은 단지 연결된 두 개의 신경세포와 그것들간의 연결 가중치에 의해서만 이루어지고 있는 것
      • 따라서, 헵의 규칙은 원래 무감독 학습 방법을 사용하는 것이었으나 현재는 주로 감독 학습 방법에 사용
      • 감독 학습 방법의 경우, 목적 패턴을 사용하여 신경망의 학습을 인위적으로 제어할 수 있기 때문
      • 신경망의 학습은 다음의 단계의 반복적인 학습 과정을 통해 학습
        • ① 입력층에 입력 패턴을 제시
        • ② 신경망을 동작
        • ③ 헵의 규칙에 의해 연결 가중치를 조절
        • w(new)ij = w(old)ij + αaiaj
        • ④ 신경망이 완전히 학습될 때까지 ①∼③ 과정을 입력 패턴에 대해 반복
      • 이 방법을 감독 학습 방법에 사용하려면 몇 가지 추가적인 설명
        • 첫째는 목적 패턴을 사용하는 방법에 관한 것
          • 즉, ③과정에서 연결 가중치를 조절하는데 있어서, 출력층 신경세포인 경우 그것의 실제 출력 대신에 목적 패턴이 사용되어야 한다는 것
          • 그렇게 해야만 신경망의 학습 결과 신경망의 출력이 목적 패턴과 같아질 수 있기 때문
        • 둘째는 신경망의 학습 정도에 관한 것
          • 즉, ④과정에서 신경망이 완전히 학습되었는지를 판단하는 기준이 필요
          • 여기에서, 에러가 우리가 원하는 수준까지 감소하게 되면 이 때는 학습되었다고 생각할 수 있음
      • 신경망에서 에러는 신경망의 실제 출력 패턴과 목적 패턴과의 차이에 의해 계산
      • errorp = (Op0? - tp0)2 + (Op1? - tp1)2 + + (Opn - tpn)2 …… (2)
      • = (Opj - tpj)2
      • ERROR = errorp
      • errorp : 입력 패턴 p에 대한 신경망의 에러
      • Opj : 입력 패턴 p에 대한 출력층의 j번째 신경세포의 실제 출력
      • tpj : 목적 패턴 p의 j번째 성분
      • ERROR : 모든 패턴에 대한 신경망의 에러

    • 델타 규칙과 단층 퍼셉트론
      • 델타 규칙은 1957년 Rosenblatt에 의해 만들어진 두 번째 신경망 학습 규칙
      • 연결 가중치를 조절함으로써 신경망을 학습시킨다는 기본 개념에 있어서는 앞서 이야기한 헵의 규칙과 동일하지만, 연결 가중치를 조절하는 방법에 있어서는 다소 차이
      • 델타 규칙의 초기 형태는 매우 단순한 것이었지만, 그것은 오늘날 감독 학습 방법을 사용하는 보다 복잡한 많은 학습 규칙들의 기본
      • 당시 주목을 받고 있던 퍼셉트론이라는 신경망에 적용되어 놀라운 성능을 나타냄으로써 한때, 신경망 연구자들로 하여금 신경망과 인공 지능의 미래에 대해 몹시 큰 기대를 갖게 하였던 학습 규칙
      • 델타 규칙의 경우도 헵의 규칙과 마찬가지로 매우 간단한 방법에 의해 연결 가중치를 조절
      • 델타 규칙의 주요 골자는 다음과 같음
        • "만일, 어떤 신경세포의 활성이 다른 신경세포가 잘못된 출력을 내는데 공헌을 하였다면, 두 신경세포 간의 연결 가중치를 그것에 비례하여 조절해 주어야 한다."
      • 여기에서, 잘못된 출력을 판단하는 기준은 신경세포의 활성 값과 목적 패턴과의 차이, 즉 에러를 의미
      • 델타 규칙을 식으로
        • w(new)ij = w(old)ij + αejai …… (3)
        • ej = tj - aj …… (4)
        • w(new)ij : 신경세포 i, j 사이의 조절된 후 연결 가중치
        • w(old)ij : 신경세포 i, j 사이의 조절되기 전 연결 가중치
        • α : 학습률 (0 〈 α ≤ 1)
        • ej : 신경세포 j의 에러
        • ai : 입력층 신경세포 i의 활성값
        • tj : 목적 패턴의 출력층 신경세포 j에 대응하는 성분값
        • aj : 출력층 신경세포 j의 활성값

      • 식 (3)은 위의 설명
      • 식 (4)의 의미
        • ej는 j번째 출력층 신경세포에 대응하는 목적 패턴의 성분값(tj)와 j번째 출력 신경세포의 활성값(aj)의 차이, 즉 해당 출력 신경세포의 에러를 의미하며 식 (4)에 의해 표현
        • 여기에서 헵의 규칙도 확인할 겸 식 (3)의 의미를 풀어보면
          • 첫 번째로 에러가 0인 경우, 즉 출력 신경세포 j의 활성 값이 우리가 원하는 목적 패턴의 성분과 정확하게 일치하는 경우 αejai = 0이므로 연결 가중치는 변하지 않음
          • w(new)ij = w(old)ij + 0
          • 이 경우 출력 신경세포가 정확한 출력을 내었으므로 그것에 달려 있는 연결 가중치를 조절할 필요가 없는 것
          • 두 번째로 신경세포 i의 활성값 ai가 0인 경우 역시 αejai = 0이므로 연결 가중치는 변하지 않음
          • 이 경우 신경세포 i는 출력 신경세포 j가 잘못된 결과를 내는 것에 전혀 기여하지 않았으므로 그것의 연결 가중치를 변경시키지 않는 것
          • 세 번째로 에러가 0이고 신경세포 i의 활성값 역시 0인 경우, 당연히 연결 가중치의 변화는 없음
          • 끝으로 에러가 0이 아니고 신경세포가 i의 활성값 역시 0인 아닌 경우, 드디어 연결 가중치는 αejai 만큼 변하게 됨
          • 여기서 주목해야 할 것은 연결 가중치는 그것에 달린 신경세포 i의 활성값 ai 에 비례하여 변화한다는 것
          • ai 가 크다면 연결 가중치는 많이 변화되고, ai 가 작다면 연결 가중치는 조금 변화
          • 이상에서 알 수 있듯이 델타 규칙도 헵의 규칙과 매우 유사한 것
      • 델타 규칙을 사용하여 신경망을 학습하는 과정을 요약
        • ① 입력층에 입력 패턴을 제시
        • ② 신경망을 동작
        • ③ 델타 규칙에 의해 연결 가중치를 조절
        • w(new)ij = w(old)ij + αejai
        • ④ 신경망이 완전하게 학습될 때까지 ①∼③과정을 입력 패턴에 대해 반복
      • 델타 규칙에 의한 학습 과정은 감독 학습 방법이 사용하는 일반적인 형태의 학습 과정과 동일
      • ③과정에 연결 가중치 조절식이 다를 뿜
      • 델타 규칙에서 학습 완료 정도를 나타내는 에러는 헵의 규칙에서와 같음
      • 앞서 식 (2)에서와 같이 신경망의 실제 출력 패턴과 목적 패턴과 차이에 의해 계산
      • 이 부분에서 중요한 것은 ‘잘못된 출력을 내는데 공헌한 신경세포들의 연결 가중치를 그 공헌 정도에 비례하여 조절한다’ 임
      • 이것은 수학식은 수식 (3)
      • 단층 퍼셉트론은 여러 규칙들을 사용할 수 있지만, 주로 앞서 설명한 델타 규칙으로 설명
      • 단층퍼셉트론은 하나의 층으로 이루어져 있어서 한계가 드러나는데, 이를 극복하기 위해 다층 퍼셉트론이 등장

    • 퍼셉트론의 한계와 다층 신경망
      • 1969년은 신경망의 역사에 있어 운명적인 해
      • 당시 기호 처리 인공지능의 귄위자였던 Misky와 그의 제자 Papert는 그들의 공저 ‘Perceptrons'에서 60여가지에 달하는 수학적 분석을 통해 매우 논리적으로 단층 퍼셉트론의 한계를 지적
      • 그 지적들 중 대표적인 XOR 문제
        • Minsky와 Papert가 당시에 주로 역치 함수를 사용
        • XOR 문제에 사용되는 단층 신경망과 역치 함수를 그린 것

        • XOR 문제의 예 SKIP

        • 선형 분리 가능(linearly separable)이라는 개념으로 단층 신경망의 한계를 설명
        • 2차원 평면상에서, 선형 분리 가능이란 평면상의 점들을 하나의 직선으로 원하는 대로 나눌 수 있음을 의미
        • 반대로 하나의 직선이 평면상의 점들을 원하는 대로 나눌 수 없을 때, 선형 분리 불가능(linear unseparable)하다고 함
        • XOR 문제는 2차원 공간상에서, 선형 분리 불가능한 문제 중의 하나
        • 따라서 단층 신경망인 단층 퍼셉트론은 선형 분리 가능한 문제에 대해서만 유효하다는 것을 의미
        • 단층 신경망의 이러한 한계는 매우 치명적인 것
        • 이 세상에는 선형 분리 가능한 문제보다 선형 분리 불가능한 문제가 훨씬 더 많기 때문
      • 다층 신경망을 사용할 경우, 은닉층에 의해 공간을 임의로 분할하여 선형 분리 불가능한 문제를 선형 분리 가능한 문제로 변환하고 이렇게 변환된 문제를 출력층에 의해 해결하도록 함으로써 선형 분리 불가능한 문제를 해결

      • 위 내용을 토대로 단층 신경망에서 XOR 문제를 해결하는 예 SKIP

      • 이러한 사실은 Minsky가 단층 신경망의 한계를 지적하던 당시의 신경망 연구자들도 이미 알고 있었지만 그러한 사실을 알고 있었음에도 불구하고 신경망 연구가 위기를 맞이하게 된 것은 당시로서는 다층 신경망을 학습시킬 수 있는 학습 규칙을 알아낼 수 없었기 때문

    • 일반화된 델타 규칙과 다층 퍼셉트론
      • 일반화된 델타 규칙은 1986년 Rumelhart에 의해 만들어진 학습 규칙으로 오늘날 가장 유명해진 신경망 학습 규칙 중의 하나
      • 다층 신경망을 학습시킬 수 있는 능력을 갖춘 규칙
      • 이 규칙은 헵의 규칙이나 델타 규칙보다는 복잡하지만, 기본적인 원리는 델타 규칙과 거의 유사하며, 그 골자는 다음과 같음
        • "만일 어떤 신경세포의 활성이 다른 신경세포가 잘못된 출력에 공헌을 하였다면, 두 신경세포간의 연결 가중치를 그것에 비례하여 조절해 주어야 한다. 그리고 이러한 과정은 그 아래에 있는 신경세포들까지 계속된다."
      • 처음 문장은 델타 규칙과 동일
      • 다른 문장은 델타 규칙에는 없던 것
      • 하나의 층만을 가진 단층 퍼셉트론을 학습시킬 수 있는 델타 규칙과는 달리 다수의 층으로 이루어진 다층 퍼셉트론을 학습시킬 수 있는 일반화된 델타 규칙의 경우, 출력층 신경세포의 잘못된 출력에 대한 책임은 바로 아래층 신경세포에게만 있는 것이 아니라 그것에 달린 더 아래층 신경세포에게도 있는 것이므로 그것들에게도 책임을 물어 연결 가중치를 조절해 주는 것
      • 이렇게 잘못에 대한 연대 책임을 묻기 위해, 신경세포들의 활성값이 아래층에서 위층으로 전파됐던 것과는 반대로, 출력 층에서 발생한 에러를 아래층으로 역전파시키게 됨
      • 그러므로 이 일반화된 델타 규칙을 오류 역전파 알고리즘이라고 부르며, 이것을 사용하는 신경망 모델을 오류 역전파 모델이라고 부름




      • 동작은 앞서 다룬 단층 퍼셉트론과 동일하기 때문에 설명이 필요가 없고, 출력층 신경세포들의 경우 에러를 구하는 방법은 델타 규칙과 동일
      • 즉, 목적 패턴에서 출력 신경세포의 활성값을 뺀 값이 바로 해당 출력 신경세포의 에러가 됨
      • 위 그림에서 e5, e6, e7 로 나타낸 것이 각 출력 신경세포들의 에러
      • 델타 규칙의 경우에는 이렇게 구한 에러를 사용하여, 바로 연결 가중치를 조절하였지만, 일반화된 델타 규칙에서는 이 에러를 여러번 가공하여 각각의 출력층 신경세포에 대해 델타(δ)라는 것을 구하게 됨
      • 위 그림에서 δ5, δ6, δ7로 나타낸 것이 해당 출력층 신경세포들의 델타가 됨
      • 식은 다음
        • δj = f'(Sj)ej = aj(1 - aj)ej …… (7)
        • ej = tj - aj
        • f'(Sj) = ∂f(Sj)/∂Sj = aj(1 - aj) ← 시그모이드 함수의 경우
        • δj : 출력층 신경세포 j의 델타
        • f'(Sj) : 출력층 신경세포 j의 활성 함수의 미분값
        • ej : 출력층 신경세포 j의 에러
        • tj : 출력층 신경세포 j에 대응하는 목적 패턴의 성분
        • aj : 출력층 신경세포 j의 활성값
      • 식 (7)에서 f'(Sj)는 신경세포의 활성 함수의 미분 값
      • 위의 그림을 보면 알겠지만, 출력층 신경세포들의 델타가 구해지면, 이 델타를 아래층 신경세포들로 역전파하는 과정이 진행
      • 위층 신경세포에서 발생한 델타와 그것에 연결된 연결 가중치가 곱해져 아래층 신경세포로 전달되고 그렇게 전달된 델타들은 거기서 합쳐짐
      • 그리고 그렇게 합쳐진 값이 바로 은닉층 해당 신경세포의 에러가 됨
      • 그것의 다음의 식 (8)에 해당
      • 이렇게 은닉층 신경세포들의 에러가 구해지면, 식(7)에 의해 은닉층 신경세포의 델타를 구할 수 있음
      • 식을 정리
        • δi = f'(Si)ei = ai(1 - ai)ei …… (8)
        • ei = wijδj ← 은닉층 신경세포의 경우 …… (9)
        • f'(Si) = ∂f(Si)/∂Si = ai(1 - ai) ← 시그모이드 함수의 경우
        • δi : 은닉층 신경세포 i의 델타
        • f'(neti) : 은닉층 신경세포 i의 활성 함수의 미분값
        • ei : 은닉층 신경세포 i의 에러
        • wij : 신경세포 i에서 신경세포 j로 가는 연결 가중치
        • δj : 출력층 신경세포 j의 델타
        • ai : 은닉층 신경세포 i의 활성값
      • 위 식을 보면서 알 수 있는 것은 은닉층 신경세포의 경우 에러를 구하는 식 (9)이지만, 다른 것들은 위에서 언급한 출력층 신경세포의 경우와 같다는 것
      • 은닉층 신경세포의 경우, 출력층 신경세포와는 달리 목적 패턴으로부터 직접 에러를 구할 수 없기 때문에, 출력층 신경세포에서 구해진 에러를 다소 변화시킨 델타를 역전파 받아서 자신의 에러로 삼는 것
      • 따라서, 위의 그림에서 신경세포 3의 에러 e3 = w35δ5 + w36δ6 + w37δ7 이 됨
      • 신경세포 4의 에러도 같은 방식으로 구할 수 있음
      • 신경세포 3, 4의 에러가 구해지면, 식(8)을 이용하여 은닉층 신경세포 3, 4의 델타 δ3, δ4를 구할 수 있음
      • 여기에서, δ3, δ4는 그 아래층으로 다시 역전파 됨
      • 은닉층 아래 또 다른 은닉층이 있다면, 이러한 과정은 계속
      • 이러한 에러의 역전파 과정은 입력층 바로 위층의 델타가 구해질 때까지 계속
      • 이렇게 구해진 델타를 사용하여 신경망의 연결 가중치를 조절
        • w(new)ij = w(old)ij + αδjai …… (10)
        • δj = aj(1 - aj)ej
        • ej = tj - aj ← 출력층 신경세포의 경우
        • wjkδk ← 은닉층 신경세포의 경우
        • w(new)ij : 신경세포 i, j 사이의 조절된 후 연결 가중치
        • w(old)ij : 신경세포 i, j 사이의 조절되기 전 연결 가중치
        • α : 학습률( 0 < α <= 1)
        • δj : 신경세포 j의 델타
        • ai : 신경세포 i의 활성값
        • aj : 신경세포 j의 활성값
        • ej : 신경세포 j의 에러
        • tj : 신경세포 j가 출력 층인 경우 해당 목적 패턴의 성분값
        • wjk : 신경세포 j가 은닉 층인 경우 위층 신경세포 k에 달린 연결 가중치
        • δk : 신경세포 j가 은닉 층인 경우 위층 신경세포 k의 델타
      • 일반화된 델타 규칙에 의해 연결 가중치를 조절하는 식(10)과 앞서 델타 규칙에서 연결 가중치를 조절하는 식(3) w(new)ij = w(old)ij + αejai 를 비교해 보면, 에러가 델타로 바뀌었다는 것을 제외하고는 동일하다는 것
      • 여기에서, 주의해야 될 것은 δj 는 신경세포 j의 에러로부터 구해지는데 신경세포 j가 출력층이냐 은닉층이냐에 따라 에러를 구하는 방법이 달라진다는 것
      • 다층 퍼셉트론은 문자 그대로 여러 개의 층으로 이루어진 퍼셉트론을 말함
      • 즉, 앞서 설명한 단층 퍼셉트론에 한개 이상의 은닉층들을 추가하여 다층으로 만든 것
      • 신경망이 단층에서 다층으로 발전할 수 밖에 없었던 가장 큰 이유는 이미 이야기한 선형분리 문제의 극복
      • 기본적으로 신경세포 하나의 역할은 그것의 입력으로 주어지는 신경세포들에 의해 구성되는 패턴 공간을 하나의 선으로 양분하는 것이기 때문에 다층으로의 변신이 없었다면, 선형 분리 문제를 극복할 수가 없었을 것
      • 다층 퍼셉트론을 학습시키기 위한 학습 규칙에는 주로 일반화된 델타 규칙을 사용
      • 그리고 그렇게 다층 퍼셉트론과 일반화된 델타 규칙을 결합한 신경망 모델을 오류 역전파 신경망이라고 부름
  • 무감독 학습 방법
    • 무감독 학습 방법은 인위적으로 주어지는 목적 패턴의 제어없이 자생적으로 생겨나는 지능의 발생 원리에 대해 보다 근원적으로 접근하고자 하는 것
    • 감독 학습 방법의 경우 목적 패턴을 사용하기 때문에 신경망의 출력을 사람이 원하는 대로 제어할 수 있지만, 무감독 학습 방법은 목적 패턴을 사용하지 않기 때문에 신경망의 출력을 인위적으로 제어할 수가 없음
    • 따라서 무감독 학습 방법은 감독 학습 방법보다 현실 응용성이 떨어짐
    • 무감독 학습 방법은 입력 패턴만으로 이루어진 학습 패턴이 사용
    • 하나의 입력 패턴이 신경망에 주어지면, 신경세포들은 자신의 연결 가중치가 주어진 입력 패턴과 유사해지도록 연결 가중치를 조절
    • 이러한 과정이 반복되면, 신경망의 신경세포들은 각각 특정한 입력 패턴에만 반응
    • 결국, 신경세포들은 주어지는 입력 패턴들을 몇 개의 부류(class)로 분류하게 되는 패턴분류기의 기능
    • 패턴 분류 기능은 신경망이 가지는 일반적인 특징이지만, 무감독 학습 방법의 경우에 두드러지게 볼 수 있음
    • 이러한 무감독 학습 방법에 의한 학습 과정에서 가장 큰 문제점 중의 하나는 주어진 하나의 입력 패턴에 대해 다수의 신경세포들이 반응할 수 있다는 것
    • 감독 학습의 경우에는 목적 패턴에 의해 주어진 입력 패턴에 반응할 신경 세포가 결정되지만, 무감독 학습 방법의 경우에는 그러한 역할을 해줄 목적 패턴이 없기 때문
    • 따라서 무감독 학습 방법을 사용하는 학습 규칙의 경우에는 주어진 입력 패턴에 대해 하나의 신경세포만이 반응할 수 있도록 해주는 메커니즘이 필요
      • 대표적으로 승자전취(winner takes all) 메커니즘이라는 것이 있는데, 이것은 일단 주어진 패턴에 대해 신경세포들이 반응하고 나면, 경쟁 관계에 있는 신경세포들 중에서 가장 큰 활성을 보인 신경세포를 찾아 그것을 승자 신경세포
      • 승자 신경세포가 선정되면, 그것의 활성 값만을 1로 하고 나머지 다른 신경세포들의 활성은 0으로 만듬이렇게 해서 결국은 승자만이 모든 것을 갖게 됨
    • 무감독 학습 방법을 사용하는 학습 규칙 중 가장 대표적인 것으로는 인스타 규칙

    • 인스타 규칙(Instar rule)
      • 인스타 규칙은 1974년 Grossberg에 의해서 만들어진 신경망 학습 규칙
      • 오늘날 무감독 학습 방법을 사용하는 학습 규칙들은 거의 대부분 이 인스타 규칙에 기본을 두고 있음
      • 아래 그림처럼 인스타 규칙은 다수의 연결을 통해 입력되는 입력들의 모양에서 온 것




      • 인스타 규칙의 기본 역시 다른 모든 신경망의 학습 규칙과 마찬가지로 연결 가중치를 조절하는 것이며, 그 골자는 다음
        • "어떤 신경세포가 특정 연결을 자극하면 그것의 연결 가중치를 그 자극과 같아지도록 조절한다."
      • 이러한 규칙을 식으로
        • w(new)ij = w(old)ij + α(ai - w(old)ij) …… (11)
        • w(new)ij : 신경 세포 i, j 사이의 조절된 후 연결 가중치
        • w(old)ij : 신경세포 I, j 사이의 조절되기 전 연결 가중치
        • α : 학습률(0 < α <=1)
        • ai : 신경세포 i의 활성값
      • 식(11)에서 알 수 있듯이 목적 패턴은 전혀 사용되지 않으며, 신경세포 j의 연결 가중치 wij는 단지 그것에 연결된 신경세포 ai의 활성값과 현재 연결 가중치의 차이에 비례하여 조절
      • 이것은 형태상 앞서 설명한 델타 규칙에서 목적 패턴과 출력 패턴의 차이에 비례하여 연결 가중치를 조절하는 것과 유사하
      • 델타 규칙의 경우에는 그렇게 함으로써 출력 패턴은 목적 패턴과 같아지게 됨
      • 한편 인스타 규칙에서는 신경세포의 출력과 연결 가중치의 차이에 따라 연결 가중치를 조절하고 있기 때문에 학습이 진행되면, 신경세포의 연결 가중치는 그것에 입력을 주는 신경세포의 활성값과 유사

      • 예제 SKIP

      • 무감독 학습 방법의 문제점이 발생
        • 어느 신경세포의 연결 가중치가 다른 신경세포들의 것에 비해 현저하게 클 경우, 모든 입력 패턴에 대해 반응해 버리는 경우가 생기기 때문
        • 따라서 신경망 연구자들은 이러한 경우를 막기 위해서 신경세포들의 연결 가중치를 초기화한 후 각각의 신경세포가 가진 연결 가중치들의 합이 일정한 값을 넘지 못하도록 하는 방법을 사용
        • 이것을 연결 가중치의 정규화(weight normalization)과정이라고 함
        • 이렇게 정규화 과정을 통해 신경세포들은 모두 공평한 연결 가중치 상태를 가지고 경쟁에 참가할 수 있게 됨
        • 그러나 정규화 과정은 서로 다른 입력 패턴을 변질시켜서 같은 패턴으로 만드는 수도 있음

    • 경쟁학습모델(competitive learing model)
      • 경쟁학습모델의 어휘적 의미는 경쟁 메커니즘을 통하여 학습하는 신경망 모델을 뜻함
      • 경쟁 학습 모델은 이미 오래 전부터 많은 연구자들에 의해 연구되어 왔으며, 현재 매우 많은 형태의 경쟁 학습 모델들이 발표
      • 초기 신경망 연구의 선구자인 Rosenblatt에서부터 시작되어 1973년 Marsburg, 1975년 일본의 Hukusima, 1976년 인스타 규칙의 Grossberg 등이 그 대표적인 연구자들
      • 경쟁 학습 모델의 가장 큰 특징은 면 개념을 사용하고 있다는 것
      • 면이란 같은 층내의 신경세포들을 무리지어 놓은 것을 말함
      • 아래의 그림은 경쟁 학습 모델의 구조를 나타낸 것이다. 즉, 같은 면내에 속한 신경세포들 끼리 경쟁을 하게 되는 것
      • 그리고 경쟁에서 이긴 승자 신경세포의 연결 가중치만이 주어진 입력 패턴에 대해 조절될 권리를 가지게 됨
      • 때문에 무감독 학습 방법을 사용하는 거의 모든 신경망모델들은 면 개념을 사용
      • 경쟁 학습 모델도 다층 구조를 가질 수 있음
      • 앞서 델타 규칙에서는 목적 패턴이 주어지는 출력층 신경세포만을 학습시킬 수 있었기 때문에 다층으로의 확장이 불가능하였지만, 경쟁 학습 모델의 경우, 목적 패턴을 사용하지 않을 뿐만 아니라 출력층 신경세포들이나 은닉층 신경세포 모두 동일한 학습 규칙에 의해 학습될 수 있게 때문에 얼마든지 다층으로의 확장이 가능
      • 즉, 출력층과 은닉층의 차이는 기능의 차이일 뿐, 구조와 동작의 차이는 없는 것
      • 인스타 규칙을 사용하는 경쟁 학습 모델에서 신경망을 학습시키는 과정은 다음과 같음
        • ① 입력층에 입력 패턴을 제시
        • ② 입력층을 제외한 모든 층에 대해 아래쪽 층부터 동작시킨다. 해당 층 내의 모든 면에 대해 승자 신경세포를 구함
        • 승자 신경세포의 연결 가중치를 조절
        • w(new)ij = w(old)ij + α(ai - w(old)ij)
        • ③ 출력층까지 ②과정을 반복
        • ④ 신경망이 완전하게 학습될 때까지①~③을 입력 패턴에 대해 반복
      • 경쟁 학습 모델의 학습 과정은 앞서 언급된 다른 신경망의 학습 과정과 거의 유사
      • 단지, 각 층의 동작마다 층 내의 존재하는 모든 면에 대해 승자 신경세포를 구한 후 그것의 연결 가중치를 조절해 준다는 것이 다를 뿐
      • 경쟁 학습 모델에서 중요한 것은 오직 주어진 패턴에 대해 승자 신경세포의 연결 가중치만이 조절된다는 것

피드백형 신경망

  • 피드백형 신경망은 아래층에서 위층으로 향하는 연결뿐만 아니라, 위층에서 아래층으로 향하는 반대 방향의 연결도 가지는 있는 신경망
  • 감독 학습 방법
    • 홉필드 네트워크(Hopfield Network)는 1982년 미국 캘리포니아 공과대학의 물리학자인 Hopfield에 의해 제안된 상호결합형 신경망 모델로서 연상 기억이나 최적화 문제를 병렬적으로 처리하는데 많이 사용
    • 특히 연상기억에 있어서는 일정한 범용 패턴들을 연결강도로 저장하였다가 미지의 입력패턴이 주어질 때 이와 가장 유사한 패턴을 찾아냄
    • 저명한 물리학자였던 홉필드는 물리학적 스핀 모델로부터 홉필드 네트워크를 착안하였으며 에너지 개념을 신경망에 처음으로 도입
    • 홉필드 네트워크는 다음과 같은 2가지의 중요한 제약
      • ① 뉴런사이의 연결강도(weight)는 대칭
      • 즉 wij=wji
      • ② 각 뉴런들은 완전히 비동기적으로(asynchronously) 동작할 때만 안정된 상태에 도달
    • 첫 번째 제약 조건은 생물학적인 뉴런에서는 일반적으로 대칭성이 성립할 수 없기 때문에 매우 중대한 제약점
    • 두 번째 제약 조건은 각 뉴런들이 완전히 비동기적으로 작동한다는 가정하에서만 네트워크가 제대로 수행될 수 있다는 것으로, 만약 동기적으로 작동할 때에는 에너지가 안정된 상태에 도달하지 못할 수 있으며 무한 루프에 걸릴 수도 있음
    • 홉필드 네트워크는 뉴런의 작용을 단지 임계값의 작용으로 보고 훈련에 의한 정보가 연결강도에 의해 표현된다는 간단한 이론에 기초하고 있으며, 연상기억(associative memory)이나 순회판매원 문제(Traveling Salesman Problem)와 같은 최적화(optimization) 문제를 해결하는데 있어 매우 유용
    • 또한 홉필드 네트워크는 많은 수의 비동기적이고 국소적인 계산을 통하여 전역적 최적화(global optimization)를 이룰 수 있다는 것이 증명되었기 때문에 더욱 많은 관심
    • 홉필드 네트워크는 자신을 제외한 모든 유니트들 간의 양방향으로 상호연결된 네트워크인데, 초기 버전에서 입출력은 이진수, 전달함수는 계단함수(hard limiter)를 사용하였으나 그 후 1986년에는 입출력이 아날로그인 버전이 발표
    • 아래는 홉필드 네트워크의 기본 구조를 나타내는데 X0, X1, X2, ... ,XN-1은 입력된 패턴이고 X0', X1',X2', ... ,XN-1'은 네트워크가 수렴한 상태의 출력패턴
    • 각 유니트는 자신을 제외한 다른 모든 유니트들과 완전하게 연결
    • 홉필드의 동작 알고리즘
      • [단계 1] 연결강도 wij를 결정
      • [단계 2] 알려지지 않은 입력패턴으로 초기화
      • [단계 3] 수렴할 때까지 계속 반복
      • [단계 4] 단계2로 가서 수행

  • 무감독 학습 방법
    • 스스로 학습을 할 수 있는 능력을 이용한 신경망 모델이 핀란드의 헬싱키공과 대학의 Kohonen에 의해서 제안
    • 그가 제안한 신경망은 자기조직화(self-organizing)의 특성을 이용하여 스스로 학습을 할 수 있도록 함
    • ‘자기조직화’란 주어진 입력 패턴에 대하여 정확한 해답을 미리 주지 않고 자기 스스로 학습 할 수 있는 능력
    • 코호넨 네트워크(Kohonen Network)는 역전파 네트워크와는 달리 일반적으로 계층적인 시스템이 아니며 2개의 층으로 이루어져 있음
    • 이 네트워크의 첫 번째 층은 입력층(input layer)이고, 두 번째 층은 경쟁층(competitive layer)인데 2차원 격자(grid)
    • 모든 연결들은 첫 번째 층에서 두 번째 층의 방향으로 되어 있으며, 두 번째 층은 완전 연결(fully connected)
    • 이 뉴런들은 경쟁층에서 고밀도로 연결
    • 코호넨 네트워크를 만들 때 다른 신경망에서는 일반적을 필요하지 않는 두 가지 일을 해야 함
      • 첫째는 층내의 뉴런의 연결강도 벡터(연결 가중치)가 임의값을 가지면서 적합하게 초기화
      • 둘째는 연결강도 벡터와 입력벡터가 통상 0에서 1사이의 정규화된 값을 사용하여야 한다는 것이고, 코호넨 네트워크에서는 매우 중요
    • 코호넨 네트워크의 학습 철학은 앞에서의 경쟁 학습 모델처럼 승자전취(winner take all)의 방식을 따름
    • 승자만이 출력을 낼 수 있으며, 승자와 그의 이웃들만이 그들의 연결강도를 조정
    • 승자 뉴런의 연결강도 벡터(연결 가중치)는 입력 벡터(활성값)와 가장 가까운 것
    • 이 뉴런과 그의 이웃 반경 안의 뉴런들은 연결강도를 조정해가면서 학습
    • 승자 뉴런을 결정하고 난 후에는 코호넨의 학습규칙에 따라 뉴런의 연결 강도를 조정
    • 이 규칙은 다음 식으로 표현
      • w(new)ij = w(old)ij + α(ai - w(old)ij)
      • w(new)ij : 조정된 후의 새로운 연결강도 벡터
      • w(old)ij : 조정되기 이전의 연결강도 벡터
      • ai : 입력패턴 벡터(활성값)
      • α : 학습률
    • 경쟁 학습 모델에서 기술한 바와 같이, 승자 연결강도 벡터는 기하학적으로 입력 패턴에 가까움
    • 따라서 코호넨의 학습은 단순히 연결강도 벡터와 입력패턴 벡터(활성값)의 차이를 구한 다음 그것의 일정한 비율을 원래의 연결강도 벡터에 더하는 것
    • 이 때 승자 뉴런만이 그것과 관련된 연결강도 벡터를 조정하는 것뿐만 아니라 그의 이웃 반경안에 드는 모든 뉴런들도 유사한 조정
    • 이것이 인스타 규칙과의 차이점
    • 훈련이 진행됨에 따라 이웃 반경은 서서히 줄어들어서 점점 적은 개수의 뉴런들이 학습
    • 최종적으로 단지 승자 뉴런만이 그것의 연결강도를 조정
    • 이러한 과정이 끝나면, 또 다른 입력벡터가 들어오게 되고 계속적으로 학습이 되풀이
    • 즉, 새로운 승자 뉴런이 선택되고, 출력 신호를 내고, 승자 뉴런과 그 이웃 반경의 뉴런들의 연결강도 벡터는 입력벡터에 다가가게 됨
    • 이러한 과정은 모든 훈련이 끝날 때까지 계속 반복
    • 그래서 지금까지 과정을 알고리즘으로 나타내면 다음과 같음
    • 자기조직화 형상지도(Self-organizing Feature Maps) 알고리즘
      • [단계 1] 연결강도를 초기화
      • [단계 2] 새로운 입력 벡터를 제시
      • [단계 3] 입력 벡터와 모든 뉴런들 간의 거리를 계산
      • [단계 4] 최소거리에 있는 출력 뉴런을 선택하며, 출력 뉴런의 이웃 뉴런들도 선택
      • [단계 5] 승자 뉴런과 이웃 뉴런들의 연결강도를 조정
      • w(new)ij = w(old)ij + α(ai - w(old)ij)
      • [단계 6] 단계 2로 가서 반복한다. 모든 뉴런들이 변화가 없을 때 종료

신경망의 특징

  • 신경망은 프로그램이 필요하지 않음
    • 신경망은 예제(example)를 통하여 학습
    • 흔히 신경망은 학습할 수 있는 여러 예제들로 이루어지 훈련 집합(traning set)으로 표현
    • 훈련 패턴으로 알려진 이러한 예제들은 벡터로 나타내어지며 영상, 음성신호, 센서 데이터, 로봇 팔의 움직임, 정적인 데이터 또는 진단을 통한 정보에서 얻어지는 것
    • 가장 잘쓰이는 훈련 시나리오는 감독 학습(supervised learning)인데, 통상 입력 패턴(input pattern)과 그에 대한 목표 출력(target output)으로 이루어짐
    • 목표 출력은 대개 정확한 해답 또는 입력 패턴에 대한 정확한 분류
    • 이런 예제들로부터 신경망은 내부적인 연결 강도를 조정
    • 만일 훈련이 성공적이라면 입력 패턴에 대해 정확한 답을 줄 수 있도록 내부적인 변수들이 조정
    • 일반적으로 훈련 예제들의 집합은 내부적인 변수들이 점차로 조정될 수 있도록 여러 번 반복하여 제공
    • 예제를 통해 학습을 하는 신경망은 프로그램이 필요 없는 컴퓨터 시스템을 만들 수 있는 잠재력
    • 이 점이 바로 프로그램에 의해서만 작동되는 전통적인 컴퓨터와는 전혀 다른 점
    • 컴퓨터 프로그램은 프로그래머에 의해 미리 정해진 순서를 따라 수행되는데 비하여, 신경망은 입력값과 출력값이 주어지면 원하는 결과를 낼 수 있도록 학습하는 것
    • 신경망 접근 방법은 사람이 특징을 인지하거나, 알고리즘이나 프로그램을 개발할 필요가 없으므로 시간과 노력을 줄일 수 있음
    • 그렇지만 신경망 접근 방법에도 단점
    • 그 중의 하나는 네트워크를 훈련시키는데 시간이 얼마나 걸릴지 사전에 알 수 없다는 것
    • 그럼에도 불구하고 신경망 접근 방법은 패턴의 인식에 있어서 기존의 방법에 비하여 많은 장점을 내포

  • 신경망 구조는 정보를 분산된 형태로 코드화
    • 신경망에 내장된 정보들은 전형적으로 많은 처리 장치들에 의해 저장
    • 이런 유형의 코드화는 특정한 정보가 기억 장치 내의 특정한 장소에 저장되는 전통적인 기억 방법과 매우 다름
    • 예를 들면 전통적인 음성 인식 시스템은 음성 인식 패턴의 틀(template)(각 음절이나 단어)들이 저장된 탐색표를 가지고 있으며, 음성 입력에 대하여 하나씩 비교
    • 그러한 틀은 컴퓨터 기억 장치의 정해진 장소에 저장되어 있으며 이와는 대조적으로 신경망은 여러 개의 처리 장치들을 동시에 사용함으로써 음절을 인식
    • 따라서 내부적인 표현은 네트워크의 일부 또는 전체에 걸쳐 분산되어 있음
    • 또한 한 음절 이상 또는 여러 패턴들이 같은 네트워크에 동시에 저장될 수도 있음
    • 분산 저장 방법은 많은 장점들을 가지고 있는데, 그 중 가장 중요한 장점은 정보의 표현 능력이 풍부하다는 것
    • 그러므로 신경망은 네트워크가 일부 파손되더라도 제대로 작동할 수도 있음
    • 이런 면에서 신경망은 결함 허용 시스템(fault tolerant system)

  • 신경망은 병렬 분산처리
    • 뇌의 하드웨어를 구성하는 뉴런의 동작 속도(0 ∼ 1,000Hz)는 느리지만, 방대한 뉴런에 의한 고도의 병렬 분산처리를 통하여 다량의 정보를 안정적이고 빠른 시간 내에 처리
    • 예를 들어 시각의 초기 과정에서 망막으로부터 외측 갑상체에 이르는 신경 섬유의 개수는 106개 정도로 1초당 106∼108 비트 정도의 방대한 정보가 입력
    • 사람이 그림을 보고 그것을 인식하는데 걸리는 시간은 수백 msec정도이며, 시냅스의 지연과 뉴런의 정보 전달 시간을 고려할 때, 수십 단계의 연산이 수행될 것으로 추정
    • 뇌가 처리 속도가 느린 뉴런을 이용하여 현재의 컴퓨터로 처리하기 힘든 패턴 인식을 짧은 시간에 수행할 수 있는 것은 이와같은 고도의 병렬 분산성 때문
    • 인간의 정보 처리 시스템은 하드웨어적 및 소프트웨어적으로 병렬 분산 처리를 하고 있으며 계층적 구조를 가지고 있다고 생각
    • 따라서 뇌를 표본으로 한 신경망의 일반적인 모델로서 나타낸 것이 각 계층 내에서 각각의 모듈이 서로 상호 결합된 계층적인 병렬 분산 처리 시스템이 타당할 것
    • 신경망은 구조와 특성면에서 현재의 디지털 컴퓨터와는 근본적으로 다름
    • 구조면에서 볼 때 컴퓨터는 정보 처리 장치(processor)와 주기억 장치가 물리적으로 분리되어 있지만 신경망은 그렇지 않음
    • 또한 처리 방식은 디지털 컴퓨터가 대부분 한 개의 처리 요소(processing element)에 의해서 순차적 처리를 하는 반면에, 신경망은 본질적으로 다수의 모듈과 서로 영향을 주며 동시에 서로 다른 처리를 실행하는 병렬 처리
    • 즉, 다수의 처리 요소가 동시에 작동하는 병렬 처리 머신의 일종
    • 이런 고도의 병렬성을 가진 시스템이 종래의 직렬형에는 없는 인간적인 능력을 발휘할 것으로 기대
    • 따라서 앞으로 논리 연산이 뛰어난 디지털 컴퓨터와 시각 또는 음성 인식 등의 감각 정보 처리에 뛰어난 신경망을 결합하여 서로의 장점을 살린다면, 강력한 성능을 발휘할 수 있는 새로운 컴퓨터가 등장할 것으로 예상

  • 신경망은 분류 작업에서 필요한 특징들을 발견할 수 있음
    • 이 발견은 사실상 네트워크의 내부적인 자기조직화
    • 네트워크에 영상들의 훈련 집합과 이 영상들의 범주가 주어졌을 때, 네트워크는 영상들의 서로 다른 범주들 사이의 구별되는 특징(feature)을 찾아냄
    • 이러한 특징들은 네트워크가 훈련을 끝낸 다음에 특징 추출층(feature detection layer)에서 그대로 드러남
    • 위에서 열거한 신경망의 특징들은 신경망 모델의 단순한 수학적인 구조를 통하여 설명될 수 있음
    • 비록 우음가 넓은 의미의 ‘학습’, ‘일반화’, ‘적응’ 등의 용어를 쓰고 있지만, 신경망의 동작은 지극히 단순하며, 각 노드에서의 값이나 신경망에서 이루어지는 계산들은 수학적으로 설명될 수 있고 이미 사용되고 있는 다른 수학적 모델들과 유사
    • 비록 많은 신경망 시스템들이 때때로 놀라운 성과를 보여주고 있지만, 그들의 내부적인 메카니즘은 신비롭지도 이해할 수 없는 것도 아니며 아주 단순

신경망의 응용 분야

  • 신경망은 기존 컴퓨터의 한계를 극복할 수 있는 특징으로 인하여 기존의 인공 지능 기법이나 계산 이론 기법으로 해결하기 힘들었던 분야, 즉 패턴 인식, 음성 인식, 자연 언어 이해 등의 응용 분야에 주로 많이 적용
  • 음성 합성 및 인식 분야
    • 존스 홉킨스 대학의 Sejnowski와 프리스턴 대학의 Rosenberg는 문장을 음성으로 변환하는 신경망 시스템을 만들었음
    • 이 시스템에서는 문자 입력을 음소로 출력하는 부분에 신경망 모델을 사용하고 NETtalk라는 음소를 합성하는 음성 합성기를 통하여 출력된 음소를 합성
    • 학습 방법으로는 Rumelhart와 Williams의 오류 역전파 방법을 사용
    • 임의의 가중치를 가진 비훈련 상태에서 시작하여, 짧은 시간을 거친 후에는 NETtalk는 계속적이고 서투른 발음을 시작
    • 이 단계에서는 모든 발음이 연결되고 단지 하나의 말소리로 들리게 된됨
    • 그러나 훈련을 통하여 학습을 계속하면 소리가 분리되고 하나 이상의 말소리가 들리게 된됨
    • 이 단계에서 출력은 유아의 발음과 같다. 학습이 계속될수록 NETtalk의 출력은 어린이처럼 발음하기 시작하고, 단어들은 명백히 분리할 수 있게 됨
    • 기존의 일반적인 방법을 이용하여 문장을 음소로 변환시키는 시스템도 동일한 기능을 수행할 수 있지만, 그것을 개발하는데 몇 년이 걸리며 또한 음운 법칙을 배우는데 많은 시간이 걸림
    • 반면에 NETtalk는 학습 능력이 있으므로 단지 3개월 정도의 개발 기간만이 소요
    • 음성 인식 분야에서도 최근 신경망을 이용하여 화자에 독립적인 음성 인식 방법을 찾으려는 연구가 진행 중
    • NEC사에서도 동적 프로그래밍과 신경망 기술을 결합하여 숫자를 인식하는 음성 인식 시스템을 만들어 오류율을 기존의 방법을 사용한 시스템의 1/3로 줄일 수 있다고 발표

  • 언어 학습 분야
    • 캘리포니아 대학의 Rumelhart와 카네기멜론 대학의 McClelland?는 영어 동사의 과거 시제를 배우는 신경망을 개발
    • 연구의 목적은 신경망이 아이들이 자라면서 동사의 과거 시제에 관한 법칙을 배우는 것과 같은 능력을 가질수 있는가를 시험하기 위해서
    • 여기서는 원형 동사의 음소 표현을 입력으로 받아 과거 시제의 음소 표현을 출력
    • 이 신경망에서는 모델의 구조가 좌우 대칭인 경우에 유용한 볼츠만 머신 학습 방법을 사용
    • 초기 학습을 거친 후에는 언어적 법칙을 발견하지만 모든 원형 동사에 동일한 법칙을 적용
    • 그 다음 단계에서는 규칙과 불규칙을 구분하게 되고 마지막 단계에서는 변형 법칙까지도 학습하게 됨
    • 이러한 응용 결과는 신경망은 학습 능력이 있고, 훈련을 통하여 주어진 정보를 일반화시킴으로써 새로운 입력 정보에 적응할 수 있다는 것을 보여줌
    • 또한 신경망을 이용한 자연어 처리에 관한 연구도 수행
    • 문맥으로부터 단어의 어떤 의미가 정확한지를 신경망에 훈련시킨 후, 단어의 의미를 분별할 수 있는 신경망이 개발
    • 예를 들면 문장 “Bob threw a fight" 와 "Bob threw a ball"에서 threw의 의미 차이를 신경망을 통하여 이해할 수 있음

  • 문자 인식 분야
    • 인쇄체 및 필기체 문자의 인식 능력을 바탕으로 이미 우편봉투 자동분류, 수표 및 지로용지의 인식, 인구센서스 결과의 통계, 세금보고서의 자동처리 등이 이루어지고 있음
    • 현재 세계적으로 독일의 Siemens, 일본의 NEC, 미국의 CEDAR, SUNY at Buffalo 등이 우편물 분류를 중심으로 한 높은 기술 수준을 보유
    • 한편 국내에서는 1999년 우편물 자동분류기 개발사업, 금융권 전장표 자동처리 시스템 사업 등을 시작으로 여러 기업들이 경쟁하고 있으며, 펜컴퓨터용 인식기, 한글 필기인식, 형식문서 인식 등을 위하여 산학연 컨소시움을 중심으로 활발하게 연구되고 있음

  • 영상 처리 분야
    • 미국 국방연구원(DARPA)의 지원에 의한 잠수함의 장애물 인식 신경망에 관한 연구
    • 잠수함은 바다속을 항해할 때 음파를 쏘아서 돌아오는 반사파를 분석함으로써 장애물이 암초인지, 적의 잠수함인지, 아니면 물고기인지 을 구별
    • 처음에 2여년에 걸쳐 전문가 시스템을 개발하였으나 실용화에는 많은 문제점이 노출
    • 그러나 다층 퍼셉트론 모델을 이용하여 60개의 노드와 12개의 중간 노드 그리고 2개의 출력 노드를 갖는 신경망에 오류 역전파 방법으로 학습시킨 결과, 상당히 우수한 결과
    • 신경망을 이용하여 사람의 도움없이 자동차를 자동 운행학 수 있는 시스템이 개발
    • 이 시스템은 자동차 운전석에 카메라를 부착하고 운전 페달에 센서를 달아서 사람이 운전하는 동안 화면(핸들)과 손발(가속, 브레이크 페달)의 움직임이 어떤 식으로 일어나는지에 대한 자료를 수집한 후 이를 사용하여 신경망을 학습
    • 이 신경망은 960개의 입력 유닛을 통해 운전대의 방향과 가속 및 브레이크 페달을 제어하는 출력을 생성함으로써 자동차를 제어
    • 실제로 고속도로에서 100km 정도의 속도로 주행한 바 있음

  • 이외에도 신경망은 주가 변동 예측, 항공사 좌석 예약 관리, 고객의 은행 신용도 판별, DNA 코드 분석 등에 응용되고 있음
  • 특히 최근에는 대규모의 복잡한 데이터로부터 유용한 규칙이나 새로운 지식을 발견하기 위한 데이터마이닝(data mining)에 관한 연구에서도 신경망이 활용되고 있음
  • 예를 들어, 신용카드 회사에서 고객의 카드를 결재할때 도용인지 아닌지를 잘 판별하여야 함
  • 이를 위하여 평소 그 고객의 카드 사용 행태를 신경망에 학습시킨 후, 카드 결재시 신경망을 사용하여 지금까지의 사용 패턴과의 차이를 분석하여 심각한 차이가 발생할 경우 결재를 거부함으로써 카드 도용을 방지하는 시스템이 개발
  • 이외에도 인간의 DNA 구조를 분석하거나, 천체 데이터를 분류하고 특징을 찾아주는 등의 순수 학문적인 연구에서도 신경망이 기여하고 있음

'- 음악과 나 - > 『 짬 통 』' 카테고리의 다른 글

인공생명  (0) 2005.10.16
CxImage  (0) 2005.10.11
기엽이 홈피  (0) 2005.06.09
자료구조..  (0) 2005.06.03
2번째 토요수업  (0) 2005.04.16