Python數(shù)據(jù)科學(xué):線性回歸
變量分析:
①相關(guān)分析:一個連續(xù)變量與一個連續(xù)變量間的關(guān)系。
②雙樣本t檢驗:一個二分分類變量與一個連續(xù)變量間的關(guān)系。
③方差分析:一個多分類分類變量與一個連續(xù)變量間的關(guān)系。
④卡方檢驗:一個二分分類變量或多分類分類變量與一個二分分類變量間的關(guān)系。
本次介紹:
線性回歸:多個連續(xù)變量與一個連續(xù)變量間的關(guān)系。
其中線性回歸分為簡單線性回歸和多元線性回歸。
/ 01 / 數(shù)據(jù)分析與數(shù)據(jù)挖掘
數(shù)據(jù)庫:一個存儲數(shù)據(jù)的工具。因為Python是內(nèi)存計算,難以處理幾十G的數(shù)據(jù),所以有時數(shù)據(jù)清洗需在數(shù)據(jù)庫中進行。
統(tǒng)計學(xué):針對小數(shù)據(jù)的數(shù)據(jù)分析方法,比如對數(shù)據(jù)抽樣、描述性分析、結(jié)果檢驗。
人工智能/機器學(xué)習(xí)/模式識別:神經(jīng)網(wǎng)絡(luò)算法,模仿人類神經(jīng)系統(tǒng)運作,不僅可以通過訓(xùn)練數(shù)據(jù)進行學(xué)習(xí),而且還能根據(jù)學(xué)習(xí)的結(jié)果對未知的數(shù)據(jù)進行預(yù)測。
/ 02 / 回歸方程
01 簡單線性回歸
簡單線性回歸只有一個自變量與一個因變量。
含有的參數(shù)有「回歸系數(shù)」「截距」「擾動項」。
其中「擾動項」又稱「隨機誤差」,服從均值為0的正態(tài)分布。
線性回歸的因變量實際值與預(yù)測值之差稱為「殘差」。
線性回歸旨在使殘差平方和最小化。
下面以書中的案例,實現(xiàn)一個簡單線性回歸。
建立收入與月均信用卡支出的預(yù)測模型。
import numpy as np
import pandas as pd
import statsmodels.a(chǎn)pi as sm
import matplotlib.pyplot as plt
from statsmodels.formula.a(chǎn)pi import ols
# 消除pandas輸出省略號情況及換行情況
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
# 讀取數(shù)據(jù),skipinitialspace:忽略分隔符后的空白
df = pd.read_csv('creditcard_exp.csv', skipinitialspace=True)
print(df.head())
讀取數(shù)據(jù),數(shù)據(jù)如下。
對數(shù)據(jù)進行相關(guān)性分析。
# 獲取信用卡有支出的行數(shù)據(jù)
exp = df[df['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2', axis=1)
# 獲取信用卡無支出的行數(shù)據(jù),NaN
exp_new = df[df['avg_exp'].isnull()].copy().iloc[:, 2:].drop('age2', axis=1)
# 描述性統(tǒng)計分析
exp.describe(include='all')
print(exp.describe(include='all'))
# 相關(guān)性分析
print(exp[['avg_exp', 'Age', 'Income', 'dist_home_val']].corr(method='pearson'))
輸出結(jié)果。
發(fā)現(xiàn)收入(Income)和平均支出(avg_exp)相關(guān)性較大,值為0.674。
使用簡單線性回歸建立模型。
# 使用簡單線性回歸建立模型
lm_s = ols('avg_exp ~ Income', data=exp).fit()
print(lm_s.params)
# 輸出模型基本信息,回歸系數(shù)及檢驗信息,其他模型診斷信息
print(lm_s.summary())
一元線性回歸系數(shù)的輸出結(jié)果如下。
從上可知,回歸系數(shù)值為97.73,截距值為258.05。
模型概況如下。
其中R值為0.454,P值接近于0,所以模型還是有一定參考意義的。
使用線性回歸模型測試訓(xùn)練數(shù)據(jù)集,得出其預(yù)測值及殘差。
# 生成的模型使用predict產(chǎn)生預(yù)測值,resid為訓(xùn)練數(shù)據(jù)集的殘差
print(pd.DataFrame([lm_s.predict(exp), lm_s.resid], index=['predict', 'resid']).T.head())
輸出結(jié)果,可與最開始讀取數(shù)據(jù)時輸出的結(jié)果對比一下。
使用模型測試預(yù)測數(shù)據(jù)集的結(jié)果。
# 對待預(yù)測數(shù)據(jù)集使用模型進行預(yù)測
print(lm_s.predict(exp_new)[:5])
輸出結(jié)果。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.1立即下載>> 【限時下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
即日-9.16點擊進入 >> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 宇樹機器人撞人事件的深度剖析:六維力傳感器如何成為人機安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨角獸:給機器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實用主義
- 7 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號,AI還有哪些機會
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機遇!江門市新會區(qū)(深圳)“AI + 機器人” 產(chǎn)業(yè)對接會成功舉辦