各位同學大家好
接著在這一節裡面我們要介紹的是適應線性元件
基本上它是感知機的另外一種延伸
它也是屬於單層的類神經網路
它與感知機最大不同是在轉移函數方面
它不再採用hardlims而是用purelin的方式來處理
另外它的學習方法也與感知機不同
它是利用很有名的學習方法我們稱之為最小學習平方法
透過這個方法它可以很迅速的來進行物件的分類
接著就讓我們來學習適應性元件的一些內容
適應性線性元件簡稱ANDLINE
以及它的學習規則最小平均平方演算法簡稱LMS
是在1960年代由Widrow跟Hoff所提出來的
ANDLINE跟感知機都有一個同樣的限制
因為它們是單層的神經網路
因此它們只能解決線性可分離的問題
適應線性元件與感知機最主要的差別是轉移函數
適應線性元件的轉移函數是purelin而不是硬限制器
這使得適應線性元件的輸出可以是任何的數值
而感知機的輸出只限制在不是1就是0
或者是不是1就是負1
適應線性元件使用Widrow-Hoff學習規則
也稱之為最小平均平方規則簡稱LMS
它的目的是要訓練權重
使得比感知機能夠達到更快的收斂速度
以及更高的精準度
適應線性元件的主要目的是要近似線性的函數
能夠進行型態的識別
感知機的訓練目的是要減少分類的誤差
而適應線性元件的目的是要減少
介於目標與適應線性元件輸出之間的平均平方誤差
適應線性元件也適合用來作為適應性的濾波器
預測器 模型識別器以及控制器
適應線性元件的模型如下圖所示
最左邊的是輸入訊號P
而n代表的是網路輸入訊號
適應線性元件的轉移函數採用的是purelin
而適應線性元件的輸出a會等於purelin of WP加上b
W指的是權重
P是輸入訊號
而b則為偏壓
適應線性元件使用線性轉移函數稱之為purelin
左圖為線性轉移函數的符號
右圖為線性轉移函數的函數關係
也就是適應線性元件的輸出a會等於purtlin of n
n是網路的輸入訊號
也就是網路輸入訊號n會等於適應線性元件的輸出訊號a
適應線性元件是一種單層的線性網路
左圖為適應線性元件的類神經網路架構圖
它會等效於右側的單層線性網路的方塊圖
其中R表示在輸入向量裡面元素的個數
S則為類神經元的個數
接著介紹LMS學習規則
也就是Widrow-Hoff學習規則
定義目標函數f等於誤差的平方除上2
也就是目標值減掉神經網路的輸出值a的平方除上2
也就是t of k減掉W of k
乘上P of k減掉b of k的平方除上2
其中k代表的是第k個的運算
而W b則代表權重以及偏壓
為了求得f函數的最小值
因此計算梯度如下
partial f partial wSR會等於partial f partial a
乘上partial a乘上partial wSR
而partial f partial a會等於ts of k 減掉as of k
partial a對partial wSR會等於PRk
因此partial f partial  wSR
會等於負的es of k乘上PR of k
而partial f partial bs會等於partial f partial a
乘上partial a乘上partial bx
同樣的partial f partial a
會等於ts of k減掉as of k
而partial a partial bs會等於e
所以partial f partial bs會等於es of k乘上負1
其中wSR是權重的一個分量
而bs則是偏壓的一個分量
而權重以及偏壓則沿著負的梯度的方向進行更新
所以wSR of k加1會等於wSR of k加上η
乘上es of k乘上PR of k
而bs of k加1會等於bs ofｋ加上η乘上es of k
其中η我們稱之為學習速率
它決定了每一個步距的長度
通常η的值是從0到1之間
若寫成向量矩陣的形式
則新的權重W of k加1會等於舊的權重
W of k加上學習速率η乘上誤差e of k
再乘上輸入向量的轉置PT of k
而新的偏壓b of k加1會等於舊的偏壓b of k
加上學習速率η乘上誤差e of k
若適應線性元件的偏壓被移除
也就是偏壓等於0
則適應線性元件變成一個線性聯想器
也就是類神經網路的輸出a會等於n
n會等於W乘上P
因此輸出的分量ai會等於Σj等於1到r wij乘上pj
其中wij代表是權重的分量
而pj則為輸入訊號的分量
聯想器的任務是學習Q對的輸入輸出向量
p1 t1 p2 t2一直到pQ tQ
也就是如果網路接收一個輸入P等於PQ
那麼它應該能夠產生一個輸出a會等於tQ
若一條突觸兩側的神經元同時被激化
則突觸也就是權重的強度將會增大
如果一個正的輸入pj會產生一個正的輸出ai
則應該增加權重wij的值
Hebb學習規則分成監督式的學習
也就是新的權重會等於舊的權重加上α乘上tiq乘上pjq
若寫成矩陣的形式就是新的權重W會等於
舊的權重加上tq乘上pq的轉置這邊令α等於1
而非監督式的學習則為
新的權重會等於舊的權重加上α乘上f of aiq乘上g of pjq
也可以改寫成新的權重會等於
舊的權重加上α乘上aiq乘上pjq
若初始權重等於0則監督式的Hebb學習規則可以寫成
新的權重W會等於t1乘上p1的轉置加上t2乘上p2的轉置
一直加到tQ乘上pQ的轉置可以改寫成
t1 t2一直到tQ乘上p1的轉置p2的轉置一直到pQ的轉置
也就是T乘上P的轉置
其中T會等於t1 t2一直到tQ的向量
而P則會等於p1 p2一直到pQ的向量
假設輸入向量pq是正規化的正交
則pq的轉置乘上pk會等於1或者是0
當q等於k的時候其值為1
當q不等於k的時候其值為0
如果將pk輸入到網路則網路的輸出可計算如下
a會等於W乘上pk
而W等於Σq等於1到Q tq乘上pq的轉置再乘上pk
由於pq是一個正規化的向量
因此pq的轉置乘上pk會等於1
當q等於k的時候
因此我們可以得到a會等於tk
也就是Hebb學習規則會產生正確的輸出
當輸入向量是單位向量但彼此之間沒有正交的時候
則a會等於W乘上pk會等於Σq等於1到Q
tq乘上pq的轉置乘上pk
由於沒有正交因此當q不等於k的時候
pq的轉置乘上pk不會等於0而產生了誤差
這個誤差的大小將依賴於輸入訊號之間彼此的關係
接下來舉輸入向量為正交的範例
p1等於0.5 負0.5 0.5 負0.5的向量
而t1等於1 負1的向量
p2是0.5 0.5 負0.5 負0.5
t2等於1 1的向量
則權重會等於T乘上P的轉置
而相乘的結果會等於1 0 0 負1 0 1 負1 0
而將訓練好的權重乘上輸入向量p1
得到結果是1 負1
訓練好的權重W乘上p2得到結果是1 1
都會剛好等於我們的目標輸出值因此誤差是等於0
接著我們看輸入向量彼此之間不是正交的情形
p1等於0.5774 負0.5774 負0.5774的向量
t1則等於負1
而p2等於0.5774 0.5774 負0.5774
t2等於正1
則權重W會等於T乘上P的轉置
結果會等於0 1.547 0
因此將訓練好的權重W乘上輸入向量p1
得到結果是負0.8932
同樣的將W乘上p2得到結果是0.8932
這兩個結果都不等於我們的目標值t1以及t2
因此產生了些微的誤差
當輸入向量不是正交的時候Hebb規則會產生誤差
因此接下來我們介紹利用仿反矩陣來減少誤差
當輸入是pq的時候則線性聯想器的輸出為aq
定義性能指標為誤差等於Σq等於1到Q tq減掉Wpq的平方
我們目標就是要選擇權重矩陣W
使得這個誤差函數為最小
由於性能指標誤差可寫成T減掉權重
乘上輸入向量P的平方
其中T等於t1 t2一直到tQ的向量
P是p1 p2一直到pQ的向量
如果P矩陣有反矩陣的話
則權重可選擇T乘上P的反矩陣
則我們的誤差就會等於0
若P不存在任何反矩陣
則使性能指標誤差為最小的權重函數
可以根據線性代數中的仿反矩陣規則
也就是W會等於T乘上P+
其中P+稱之為仿反矩陣會等於
P的轉置乘上P的反矩陣乘上P的轉置
假設p1等於1 負1 負1 t1等於負1
而p2等於1 1 負1 t2等於1
則P的轉置會等於1 負1 負1 1 1 負1
所以P的仿反矩陣會等於
P+會等於P的轉置乘上P的反矩陣乘上P的轉置
而權重W會等於T乘上P+會等於0 1 0
因此當輸入為p1的時候
網路的輸出Wp1會等於負1
這個結果與目標值t1是一致的
當輸入為p2的時候網路輸出為Wp2等於正1
這個結果也與目標值t2一致的
接著我們針對線性適應元件來做總結
首先我們介紹ADALINE網路
也就是適應線性元件的原理
適應線性元件基本上它也是一種單層的類神經網路
它只有輸入層跟輸出層它是沒有隱藏層的
同時我們也學習到ADALINE網路的模型
包含了轉移函數 權重以及偏壓
尤其它的轉移函數是利用purelin的方式來處理
這個與感知機是很大的不同
更重要的是我們推導了Widrow-Hoff學習的規則
Widrow-Hoff學習規則又稱之為LMS演算法
也就是最小平方誤差演算法
這個演算法裡面它利用目標函數的誤差
以及最陡梯度法來進行權重的更新
這個方法非常重要
它在目前深度學習裡面是很常採用的一種方法
接著我們也介紹了線性聯想器的模型
它與ADALINE最大的不同是它沒有偏壓
我們可以利用它來做一些記憶的學習
同時我們也介紹了線性聯想器它所對應的Hebb學習規則
Hebb學習規則又可以分成監督式的學習規則
與非監督式的學習規則
以上就是這一節的總結
