訂閱
糾錯
加入自媒體

Python數據科學:線性回歸

變量分析:

相關分析:一個連續(xù)變量與一個連續(xù)變量間的關系。

雙樣本t檢驗:一個二分分類變量與一個連續(xù)變量間的關系。

方差分析:一個多分類分類變量與一個連續(xù)變量間的關系。

卡方檢驗:一個二分分類變量或多分類分類變量與一個二分分類變量間的關系。

本次介紹:

線性回歸:多個連續(xù)變量與一個連續(xù)變量間的關系。

其中線性回歸分為簡單線性回歸多元線性回歸。

/ 01 / 數據分析與數據挖掘

數據庫:一個存儲數據的工具。因為Python是內存計算,難以處理幾十G的數據,所以有時數據清洗需在數據庫中進行。

統(tǒng)計學:針對小數據的數據分析方法,比如對數據抽樣、描述性分析、結果檢驗。

人工智能/機器學習/模式識別:神經網絡算法,模仿人類神經系統(tǒng)運作,不僅可以通過訓練數據進行學習,而且還能根據學習的結果對未知的數據進行預測。

/ 02 / 回歸方程

01 簡單線性回歸

簡單線性回歸只有一個自變量與一個因變量。

含有的參數有「回歸系數」「截距」「擾動項」。

其中「擾動項」又稱「隨機誤差」,服從均值為0的正態(tài)分布。

線性回歸的因變量實際值與預測值之差稱為「殘差」。

線性回歸旨在使殘差平方和最小化。

下面以書中的案例,實現一個簡單線性回歸。

建立收入月均信用卡支出的預測模型。

import numpy as np

import pandas as pd

import statsmodels.api as sm

import matplotlib.pyplot as plt

from statsmodels.formula.api import ols

# 消除pandas輸出省略號情況及換行情況

pd.set_option('display.max_columns', 500)

pd.set_option('display.width', 1000)

# 讀取數據,skipinitialspace:忽略分隔符后的空白

df = pd.read_csv('creditcard_exp.csv', skipinitialspace=True)

print(df.head())

讀取數據,數據如下。

對數據進行相關性分析。

# 獲取信用卡有支出的行數據

exp = df[df['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2', axis=1)

# 獲取信用卡無支出的行數據,NaN

exp_new = df[df['avg_exp'].isnull()].copy().iloc[:, 2:].drop('age2', axis=1)

# 描述性統(tǒng)計分析

exp.describe(include='all')

print(exp.describe(include='all'))

# 相關性分析

print(exp[['avg_exp', 'Age', 'Income', 'dist_home_val']].corr(method='pearson'))

輸出結果。

發(fā)現收入(Income)平均支出(avg_exp)相關性較大,值為0.674。

使用簡單線性回歸建立模型。

# 使用簡單線性回歸建立模型

lm_s = ols('avg_exp ~ Income', data=exp).fit()

print(lm_s.params)

# 輸出模型基本信息,回歸系數及檢驗信息,其他模型診斷信息

print(lm_s.summary())

一元線性回歸系數的輸出結果如下。

從上可知,回歸系數值為97.73,截距值為258.05。

模型概況如下。

其中R值為0.454,P值接近于0,所以模型還是有一定參考意義的。

使用線性回歸模型測試訓練數據集,得出其預測值及殘差。

# 生成的模型使用predict產生預測值,resid為訓練數據集的殘差

print(pd.DataFrame([lm_s.predict(exp), lm_s.resid], index=['predict', 'resid']).T.head())

輸出結果,可與最開始讀取數據時輸出的結果對比一下。

使用模型測試預測數據集的結果。

# 對待預測數據集使用模型進行預測

print(lm_s.predict(exp_new)[:5])

輸出結果。

1  2  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號