神經網絡優化算法與《最優化方法》課程教學融合研究

來源：樹人論文網發表時間：2022-01-24

簡要：摘要: 近年來，人工智能在學術界和工業界都取得了極大的成功，這正是由于深度神經網絡在最近十年內的飛速發展。神經網絡模型的目標就是最優化，對一個復雜的問題中作出最優決策。幾

　　摘要: 近年來，人工智能在學術界和工業界都取得了極大的成功，這正是由于深度神經網絡在最近十年內的飛速發展。神經網絡模型的目標就是最優化，對一個復雜的問題中作出最優決策。幾乎所有的神經網絡模型都可以建模為一個優化問題。本文就求解神經網絡模型過程中涉及的優化算法進行總結，并對《最優化方法》課程教學內容進行了探索。通過將神經網絡模型及其優化算法與《最優化方法》課程教學融合，使學生熟悉并掌握其原理和優化求解方法，具備更強的核心競爭力。

　　關鍵詞: 人工智能; 最優化方法; 神經網絡

神經網絡優化算法

　　孫杰寶; 楊暢; 吳勃英科技風 2022-01-24

　　一、概述

　　隨著人工智能的不斷發展和在社會各個領域應用的不斷深入，人們逐漸切實領略到其改變人類生活方式的潛力。實際中，存在很多對人類來說較為容易，但卻難以通過數學公式表達的問題，如語音識別、人臉識別。人往往能夠通過經驗輕松地處理這些問題。由于深度神經網絡能夠從大量的樣本中提取內在的語義特征、學習經驗并做出決策，其在處理這類的任務方面有著出色的表現。神經網絡模型是目前人工智能中表現最為優秀的算法之一。

　　優化算法需要大量的數值計算，通常情況下是指通過迭代過程更新解的估計值來解決數學問題的算法。最優化方法[1]在這個訓練學習的過程中起著重要的作用，是求解模型的關鍵。作為人工智能實現模塊的核心工具之一，學習并掌握一定的優化算法的重要性也日趨顯著。教育的變革不應當僅僅局限于教學方法探索方面，更應該緊跟國家發展的戰略與方向，與時俱進提出新的教學理念，緊跟科學發展更新教學內容，從而精準地定位培養目標。社會發展是課程改革和教育發展的原動力。對當代教育來說更應該培養學生在掌握專業知識的同時，具備將所學知識應用到我國發展中所面臨的實際問題的能力。因此，最優化方法的課程內容如何與當前社會實際應用相匹配、如何體現本課程特色、如何滿足當前社會與行業的人才需求等問題一直是教學工作中需要關注和思考的問題。

　　二、課程教學改革的必要性

　　在 21 世紀，在物聯網技術高速發展的同時，如何培養同時具備理論分析和實踐應用的創新性人才是極為重要的。這也是最優化方法課程改革不可避免要面對的問題。

　　隨著互聯網與計算機硬件的不斷發展，近 20 年來，各行各業都積累了大量的數據。人類對數據的采集、存儲、傳輸及處理能力飛速提升。因此，亟須有效的數據分析算法來合理利用這些數據。機器學習[2]恰巧滿足了處理海量數據的迫切需求。實際上，科學研究的模式方法由傳統的“理論+實踐”到如今的“理論+實驗+計算”，以至近年來流行的“數據科學”，機器學習扮演著越來越重要的角色。數據科學的核心是通過對數據進行分析從而獲取有價值的信息，數據分析是以“計算”為依托的。現如今，在多媒體、圖形學以及網絡通信、軟件工程，甚至芯片設計、體系結構等計算機學科的分支領域中，機器學習的身影無處不在。此外，機器學習已經成為推動計算機視覺、自然語言處理等計算機應用技術領域向前發展最重要的動力源泉。

　　人工智能的目標就是最優化，在一個復雜的環境中做出最優決策，幾乎所有的人工智能問題都可以建模為一個優化問題。最優化理論可以判定人工智能目標函數的最大值、最小值是否存在，并且可以尋找到滿足最優目標的數值。機器學習算法在人工智能領域中扮演著至關重要的角色，是人工智能中的核心技術，將其引入最優化課程中，在拓寬學生知識面的同時還能夠讓學生掌握最先進的科學技術，從而提高學生在就業中的競爭力。在本科生、研究生教學中，引導學生思考、探索最前沿的科學問題是一項重要的任務。數值優化算法是機器學習求解的基本策略，所以將其相融合是一個很自然的想法。這恰恰為學生創新能力的培養提供了素材。鑒于此，將人工智能中的神經網絡模型引入《最優化方法》課程是非常有必要的。

　　如何將最優化方法中被廣泛應用的一些工具性算法與其嚴謹又抽象的數學理論相結合，是廣大數學教育工作者堅持不懈的目標。這種結合一方面可以使得學生接受嚴格數學理論的熏陶，培養嚴謹的數學思維，同時又能夠熟練掌握相應的計算方法，為后續課程的學習與科學研究奠定基礎[4-6]。當前的最優化方法課程教學內容主要包括傳統的凸優化算法的基本概念、基本理論、基本方法和基本算法，其重點是理論基礎和基本技術，尚未包含人工智能的相關內容。因此，有必要從求解神經網絡模型的角度對最優化方法課程教學內容進行更新探索。

　　三、神經網絡中的優化教學內容探索

　　神經網絡模型是目前最具代表性的人工智能算法。人工智能的目標就是最優化: 在復雜環境與多體交互中做出最優決策。幾乎所有的人工智能問題最后都會歸結為一個優化問題的求解，因而最優化理論與方法是人工智能必備的基礎知識。深度學習[3]優化算法與純優化算法最大的區別在于目標不同。純優化是找到優化問題的最優解，比如能量最小點，但是深度學習其實只是借用了純優化的手段，最終的目的是讓模型的泛化誤差最小。深度學習優化算法有很多，例如: SGD( 隨機梯度下降法) 、動量方法、Adagrad 自適應學習率調整方法、Adam、Nadam 等。下面首先介紹神經網絡模型，再介紹求解神經網絡模型過程中經常使用的優化算法: 梯度下降法。

　　( 一) 神經網絡[2]

　　神經網絡模型: 假設有訓練樣本集 xi ，yi ( ) :

　　上圖所示為一個神經元，其輸出 hW，b ( x) = f WT ( )x = f ∑3 i= 1Wixi ( ) +b ，其中 Wi 和 b 為待訓練的系數，f: R→R 為給定的“激活函數”。訓練神經元就是將給定的數據集 xi ，yi ( ) 代入上述神經元模型中，通過給定的損失函數關于其中的系數 Wi 和 b 進行泛函最小化求解。神經網絡的結構如下圖所示:

　　這里的藍色圓圈表示輸入，“+1”代表偏置節點，即截距。上圖中最左邊一列為輸入層，最右邊一列為輸出層 ( 本文上例中輸出層為單一節點) 。中間的部分稱為隱藏層，這是由于中間的隱藏層是通過輸入層與損失函數數據計算得來的，其具體的值并不能直接觀察得到。下面本文給出一些記號。nl 為神經網絡的層數( 上例中 nl = 3) ，Ll 表示網絡的第 l 層( L1 為輸入層，Lnl 為輸出層) ，待訓練的網絡參數記為 W，b。在上例中 ( ) W，b = W( 1) ，b( 1) ，W( 2) ，b( 2) ( ) ，其中 W( l) ij ，l = 1，2，( W( 1) ∈ R3×3 ， W( 2) ∈R1×3 ) 為第 l 層中第 j 個神經元與第 l+1 層第 i 個神經元聯結的參數，即上圖中連線的權重; b( l) i 是第 l+1 層中第 i 個神經元的偏置。上例神經網絡結構的前向傳播為: a( 2) 1 = f W( 1) 11 x1+W( 1) 12 x2+W( 1) 13 x3+b( 1) 1 ( ) a( 2) 2 = f W( 1) 21 x1+W( 1) 22 x2+W( 1) 23 x3+b( 1) 2 ( ) a( 2) 3 = f W( 1) 31 x1+W( 1) 32 x2+W( 1) 33 x3+b( 1) 3 ( ) hW，b( x) = a( 3) 1 = f W( 2) 11 a( 2) 1 +W( 2) 12 a( 2) 2 +W( 2) 13 a( 2) 3 +b( 2) 1 ( ) 其中 a( l) i 表示 l 層第 i 個神經元的激活值，且 a( l) i = xi， l = 1。使用 z ( l) i 表示第 l 層第 i 個單元的輸入加權和，即: z ( 2) i =∑n j= 1W( 1) ij xj +b( 1) i 則上述神經網絡計算過程可重新表示為: z ( 2) = W( 1) x+b( 1) a( 2) = f z ( 1) ( ) z ( 3) = W( 2) a( 2) +b( 2) hW，b( x) = a( 3) = f z ( 3) ( )

　　( 二) 反向傳播與梯度下降法[2]

　　這部分，本文介紹如何通過反向傳播與梯度下降法求解神經網絡的參數( W，b) 。首先，設樣本集為: x( 1) ，y ( 1) ( ) ，…，x( m) ，y ( m) ( ){ } 其為 m 個樣例構成的集合，x 為神經網絡的輸入，y 為期望的輸出值。對于單個( x，y) ，本文研究的損失函數為: J( ) W，b; x，y = 1 2 ‖hW，b( x) -y‖2 對于包含 m 個樣例的數據集，整體的損失函數為: J( W，b) = 1 m ∑ m i= 1 J W，b; x( i) ，y ( i) ( ) [ ] + λ 2 ∑ nl -1 l= 1 ∑ s l i= 1 ∑ s l -1 j= 1 W( l) ji ( ) 2 = 1 m ∑ m i= 1 1 2 ‖hW，b( x( i) ) -y ( i) ‖2 ( )[ ] + λ 2 ∑ nl -1 l= 1 ∑ s l i= 1 ∑ s l -1 j= 1 W( l) ji ( ) 2 為了防止過擬合，增加上式中的正則化項( 第二項) 來降低權重的值。針對上述損失函數，梯度下降法為按照下列公式更新參數 W 和 b: W( l) ij =W( l) ij -α W( l) ij J( W，b) b( l) i = b( l) i -α b( l) i J( W，b) 這里 α 是學習速率。關于初始化，將參數 W( l) ij 和 b( l) i 初始化為趨近于零的隨機值( 如正態分布 N( 0，ε2 ) 生成的隨機值，可以設置 ε 為 0.01) 。梯度下降法中一個重要的步驟為計算關于 W 和 b 的偏導數。由于神經網絡結構的特殊性，可以使用反向傳播來計算針對單個樣本的偏導數W( l) ij J( ) W，b; x，y 和 b( l) i J( ) W，b; x，y ，進而得到整體損失函數 J( W，b) 的偏導數: W( l) ij J( W，b) = 1 m ∑ m i= 1 W( l) ij J( W，b; x( i) ，y ( i) ) [ ] +λW( l) ij b( l) i J( W，b) = 1 m ∑ m i= 1 b( l) i J( W，b; x( i) ，y ( i) ) [ ]

　　反向傳播的主要思路為給定樣本( x，y) ，首先進行“前向傳播”得到神經網絡中所有的激活值以及神經網絡最后的輸出值 hW，b ( x) 。然后，對每層的每個節點計算殘差 δ ( l) i ，其表示此節點對最終神經網絡的輸出值的殘差的影響。對于殘差，首先可直接算出神經網絡輸出與實際真實值之間的差，并記其為 δ ( nl ) i 。然后依次從后往前，可以計算出中間隱藏單元的殘差。具體的細節為: ( 1) 根據前向傳導公式，依次得到 L2，L3，…，Lnl 層的激活值。 ( 2) 對輸出層( 第 nl 層) 的每個輸出單元 i，殘差計算公式為: δ ( nl ) i = z ( nl ) i 1 2 ‖y-hW，b( x) ‖2 = - yi-a( nl ) i ( ) ·f' z ( nl ) i ( ) ( 3) 對 l = nl-1，nl-2，nl-3，…，2 層第 i 個節點，殘差的計算公式為: δ ( l) i = ∑ s l +1 j= 1 W( l) ji δ ( l+1) j ( ) ·f' z ( l) i ( ) ( 4) 計算 W( l) ij J( ) W，b; x，y 與 b( l) i J( ) W，b; x，y ，具體公式為: W( l) ij J( ) W，b; x，y = a( l) j δ ( l+1) i b( l) i J( ) W，b; x，y = δ ( l+1)

　　上述的計算過程可以表示為矩陣運算的形式。本文使用符號“·”來表示向量阿達瑪乘積( 若 a = b·c，則 ai = bici ) 。具體的反向傳導矩陣運算步驟為: ( 1) 根據前向傳導公式，依次得到 L2，L3，…，Lnl 層的激活值。 ( 2) 對輸出層( 第 nl 層) ，殘差計算公式為: δ ( nl ) = - y-a( nl ) ( ) ·f' z ( nl ) ( ) ( 3) 對 l = nl - 1，nl - 2，nl - 3，…，2 層，殘差的計算公式為: δ ( l) = W( l) ( ) T δ ( l+1) ( ) ·f' z ( l) ( ) ( 4) 計算所需的偏導數，具體公式為: #W( l) J( ) W，b; x，y = δ ( l+1) a( l) ( ) T #b( l) J( ) W，b; x，y = δ ( l+1) 下面，梯度下降法中的一次迭代過程可以總結為: ( 1) 對所有的 l，令 ΔW( l) : = 0，Δb( l) : = 0。 ( 2) 對 i = 1…m， ①反向傳播算法計算#W( l) J( W，b; x，y) 和#b( l) J( W，b; x，y) ; ②計算 ΔW( l) : =ΔW( l) +#W( l) J( ) W，b; x，y ; ③計算 Δb( l) : =Δb( l) +#b( l) J( ) W，b; x，y 。 ( 3) 更新權重 W 和 b: W( l) = W( l) -α 1 m ΔW( l) ( ) +λW( l) [ ] b( l) = b( l) -α 1 m Δb( l) [ ] 通過梯度下降法迭代過程，減小代價函數 J( W，b) ，得到最優的參數 W 和 b。

　　結論

　　“人工智能”不僅是一項科學技術，更是一種可以認識當下萬事萬物的思維方式。本文基于應用這樣的認知邏輯到實際問題中，從教育的角度出發，將人工智能中的神經網絡算法求解融入最優化方法課程內容當中。希望把握國家發展戰略與教育變革發展方向，探索實現教育變革的路徑，使得學校教育緊跟時代發展的步調與方向。此外，當前機器學習取得的一系列優秀成果使得其被廣泛應用到各行各業，機器已經開始取代一些器械重復性的工作。在此趨勢之下，學生對于神經網絡原理與最優化方法的學習與掌握將極大地提高其在就業市場的核心競爭力。《最優化方法》改革建議: 在向同學們講解一般的優化方法的同時，也介紹一些神經網絡優化中出現的問題及一般的解決辦法。同時將神經網絡優化中的實際問題提煉出來交給學生去做，讓學生通過查閱文獻、交流討論、編程實現來解決實際問題并對其中的問題做相應的理論分析。這不僅能夠使得教學內容與時俱進，提高學生對最優化方法的理解，同時也能鍛煉學生查閱資料、合作與動手能力。

上一篇：人工智能技術支持的個性化學習路徑研究

下一篇：新一代人工智能賦能“揚州智造”路徑研究

相關論文推薦

論文指導 >

SCI期刊推薦 >

論文常見問題 >

SCI常見問題 >

国产视频www-国产视频xxx-国产视频xxxx-国产视频一二-一本大道香蕉中文日本不卡高清二区-一本久久精品一区二区

神經網絡優化算法與《最優化方法》課程教學融合研究