哪種算法是解決回歸問題的最好算法?線性回歸、神經網絡還是隨機森林?
來源:原創 時間:2018-03-09 瀏覽:2144 次現在,不管你想要解決什么樣的機器學習MLS,都有很多算法可供選擇,盡管在某種程度上,其中一種算法并不總是比另一種更好。然而,每種算法的一些特點可以作為快速選擇最優算法和調整超參數的標準。在本文中,我們將介紹幾種著名的機器學習算法來解決回歸問題。并根據各自的優缺點設定了使用該標準的時間。特別是對于回歸問題選擇最佳的機器學習算法,本文將為您提供重要的指導!線性回歸和多項式回歸從簡單的情況開始,單變量線性回歸用線性模型為單個輸入自變量(特征變量)和輸出因變量建立關系模型。它在多個獨立的輸入變量(特征變量)和輸出因變量之間建立了一個關系模型,因為輸出變量是輸入變量的線性組合,因此總是線性的。
第三種最常見的情況是多項式回歸。該模型是指數變量、正弦變量、余弦變量等特征變量的非線性組合。但是,我們需要了解數據與輸出的關系。利用隨機梯度下降SGD訓練回歸模型。
其優點是建模速度快,特別是當要建模的關系不是特別復雜,數據量很小時。線性回歸是一種簡單易懂的回歸方法,由于它必須對特征變量和數據結構之間的關系有一定的了解,因此對非線性數據進行多項式回歸可能會很困難。當涉及到高數據復雜度時,這些模型的性能不如其他模型。神經網絡神經網絡是由一組互聯節點組成的。這些節點被稱為神經元。數據中的輸入特征變量作為多變量線性組合傳遞給神經元,其中值乘以每個特征變量稱為權值。然后將非線性應用于線性組合。為了建立具有多層結構的神經網絡復雜的非線性關系模型,將各層的輸出以同樣的方式傳遞到下一層。
輸出通常不是非線性的。利用隨機梯度下降(SGD)和反向傳播算法訓練神經網絡。這兩種算法都顯示在上述動態GIF圖中。由于神經網絡具有多個非線性層(和參數),因此非常適合于建立更復雜的非線性關系。神經網絡中的數據非常適合于建模。該結構基本上是非常靈活的學習任何類型的特征變量關系。為網絡提供更多的培訓數據(無論是通過添加新數據集還是擴展原始數據集)提高網絡性能。
安裝程序還可以提高網絡性能。所以不容易理解。網絡培訓可能是非常具有挑戰性和計算密集,需要微調的超級參數和設置學習速率表。網絡的高性能需要大量的數據。在“小數據量”的情況下,其他機器學習算法的性能通常不如其他機器學習算法。
回歸樹和隨機森林隨機決策樹是一種直觀的模型,它通過遍歷樹枝和節點,根據決策選擇下一條支路。決策樹歸納法(決策樹歸納法)是一組訓練實例作為輸入,確定哪一組最適合分割,數據集分割,在分割后的數據集中循環,直到對所有訓練實例進行分類,任務結束。通過構造決策樹對屬性進行劃分,可以生成子節點的純度,這將使日志根據分割所需的所有集中分類實例最小化,所需的分割次數是以純度為單位的。這關系到信息的獲取,需要知道有多少實例以前沒有,才能進行正確的分類。在實際應用中,它將通過比較熵或單個當前數據集來劃分,一個分類所需的信息量的例子,如果將當前的數據集劃分為給定的屬性,則可以對單個實例進行分類。
隨機森林是一組簡單的決策樹,輸入向量運行在多個決策樹中。對于回歸,輸出所有值是決策樹的平均值;對于分類問題,使用投票方案來確定最終類別。優點:善于學習復雜且高度非線性的關系,往往可以具有很高的性能,其性能優于多項式回歸,并且具有神經網絡的性能。而且通常很容易理解,雖然最終的訓練模型可以學習到更復雜的關系,但是基于訓練過程的決策邊界是很容易理解的。
缺點:由于決策樹訓練的性質,可能容易重過擬合。決策樹模型可能過于復雜,并且不需要完整的結構。有時通過適當的修剪和大型隨機森林集合來緩解這種情況。使用較大的隨機森林獲得更高的性能組合,將使速度慢,需要更多的內存。
結論機器學習是一種“不免費午餐”的定理,沒有人能解決機器學習算法的所有問題。機器學習算法的性能取決于數據的大小和數據結構。因此,我們可以用簡單的實驗來測試和判斷所選算法是否是最佳的。