讓我們繪製資料來查看每人 GDP 與女性平均壽命之間的關聯性。
輸出如下:
現在讓我們繪製一條線,並查看我們取得的內容。
輸出如下:
此初始模型有多差? 讓我們計算其 $R^2$ 分數來加以了解。 $R^2$ 分數 (也稱為決定係數) 代表回應中有多少比例的變異數可從預測中預測。 因此,0 是最差的 (模型不會說明任何變異數),而 1 是最佳的 (模型會說明所有差異)。
輸出如下:
此第一個模型只在 的變異性中占 30%,不適合表示經濟活動和女性平均壽命的關係。
這些結果並不理想,因為每人 GDP 與女性平均壽命之間沒有線性關聯性。 相反地,關聯性呈肘型曲線。 當國家/地區非常貧窮時,資料呈現的結果是,即使每人 GDP 只有些微增加,也可能會大幅增加女性平均壽命,但最多只可達到某個點。 在國家/地區達到每人約 10,000 美元之後,財富增加與其他項目增加的關聯性就會變小很多。 這會指出這些因素之間有對數關聯性:女性平均壽命與 GDP 無關,但為其對數。
讓我們建立新的資料行來包含每人 GDP 的對數 (以國家/地區唯依據)。 請注意,因為我們要在 GDP 資料行中處理 10 的次方,所以我們將使用以 10 為底數的對數,而不是自然對數,以便解譯。
輸出如下:
region 群組 生育能力 ppgdp lifeExpF pctUrban log_ppgdp 0 亞洲 其他 5.968 499.0 49.49 23 2. 1 歐洲 其他 1.525 3677.2 80.40 53 3. 2 非洲 非洲 2.142 4473.0 75.00 67 3. 3 非洲 非洲 5.135 4321.9 53.17 59 3. 4 加勒比海 其他 2.000 13750.1 81.10 100 4.
現在讓我們根據 繪製新的 資料行,以查看是否有更趨於線性的關聯性。
輸出如下:
這較為理想,但離完美還有一大段距離。 資料的圖形似乎有曲線,而我們將在稍後檢查如何處理此狀況。 讓我們先解譯這裡所提供的模型,了解其提供的內容。 這比第一個模型好多少? 我們來看看 $R^2$ 分數。
輸出如下:
使用 (而不是 ) 大約會將 中此模型所占的變異數加倍 (增加到 60%)。 但我們的模型實際上代表什麼?
輸出如下:
在代數中,線條通常是由下列形式的方程式所定義:
$$y = ax + b $$
在方程式中,$a$ 是斜率,$b$ 是截距。 相同的術語適用於線性迴歸。 斜率代表在以 10 為底數的每個每人 GDP 對數單位中,女性平均壽命單位 (年) 中模型的預測變更。 換句話說,模型預測每人 GDP 每增加十倍時,女性平均壽命就會增加 11.6 年。
截距會比較抽象,因為其不會直接繫結到任何資料點。 而是顯示線條與 $y$ 軸交叉時 ($x=0$),交叉點上的值。 如果我們仍在處理 與 的模型,我們可將截距解譯為在假設每人 GDP 為美元 0 元的國家/地區上,女性的基準平均壽命為:29.8 歲。 不過,我們會將與模型化,而 0 的對數則未定義。
在我們的模型中,最簡單的方式就是,接受截距作為模型其他部分運作所需的數學抽象概念。 我們的模型可以陳述為:
$$ { m lifeExpF} = 11.6 imes { m log_ppgdp} + 29.8 $$
到此这篇python pivot函数(python convolve函数)的文章就 介绍到这了,更多相关内容请继续浏览下面的相关 推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/pythonbc/17339.html