宜丰做网站的,什么是营销网站建设,安溪建设局网站,seo整体优化步骤怎么写最小二乘法简介 1、背景描述2、最小二乘法2.1、最小二乘准则2.2、最小二乘法 3、最小二乘法与线性回归3.1、最小二乘法与线性回归3.2、最小二乘法与最大似然估计 4、正态分布#xff08;高斯分布#xff09; 1、背景描述 在工程应用中#xff0c;我们通常会用一组观测数据去… 最小二乘法简介 1、背景描述2、最小二乘法2.1、最小二乘准则2.2、最小二乘法 3、最小二乘法与线性回归3.1、最小二乘法与线性回归3.2、最小二乘法与最大似然估计 4、正态分布高斯分布 1、背景描述 在工程应用中我们通常会用一组观测数据去估计模型的参数模型是我们根据经验知识预先给定的。例如我们有一组观测数据 ( x i , y i ) (x_i,y_i) (xi,yi)通过简单分析我们猜测y与x之间存在线性关系那么我们的模型可以给定为 y k x b ykxb ykxb
该模型只有两个参数理论上我们只需要通过两组观测值建立二元一次方程组即可求解。类似的如果模型有n个参数我们只需要n组观测值即可求解。换句话说这种情况下模型的参数是唯一确定解
但是在实际应用中由于我们的观测会存在误差偶然误差、系统误差等所以我们总会做更多观测。例如在上述例子中尽管只有两个参数但是我们可能会观测n组数据 ( x 0 , y 0 ) 、 ( x 1 , y 1 ) 、 . . . 、 ( x n − 1 , y n − 1 ) (x_0,y_0)、(x_1,y_1)、...、(x_{n-1},y_{n-1}) (x0,y0)、(x1,y1)、...、(xn−1,yn−1)这会导致我们无法找到一条直线经过所有的点也就是说方程无确定解
于是这就是我们要解决的问题虽然没有确定解但是我们能不能求出近似解使得模型能在各个观测点上达到“最佳“拟合
那么“最佳”的准则是什么可以是所有观测点到直线的距离和最小也可以是所有观测点到直线预测点真实值-理论值的绝对值和最小还可以是所有观测点到直线预测点真实值-理论值的平方和最小 2、最小二乘法
2.1、最小二乘准则 19世纪初1806年法国科学家勒让德发明了“最小二乘法”。勒让德认为让误差真实值-理论值的平方和最小估计出来的模型是最接近真实情形的。换句话说勒让德认为最佳的拟合准则是使 y i y_i yi与 y f ( x i ) yf(x_i) yf(xi)的距离的平方和最小 L ∑ i 1 m ( y i − f ( x i ) ) 2 L\sum_{i1}^m(y_i-f(x_i))^2 Li1∑m(yi−f(xi))2
这个准则也被称为最小二乘准则。这个目标函数取得最小值时的函数参数就是最小二乘法的思想所谓“二乘”就是平方的意思
勒让德在原文中提到使误差平方和达到最小在各方程的误差之间建立了一种平衡从而防止了某一极端误差取得支配地位而这有助于揭示系统的更接近真实的状态
至于为什么最佳准则就是误差平方而不是其它的勒让德当时并没有给出解释直到后来高斯建立了正态误差分析理论才成功回答了该问题 1829年高斯建立了一套误差分析理论从而证明了确实是使误差真实值-理论值平方和最小的情况下系统是最优的
误差分析理论其实说到底就一个结论观察值的误差服从标准正态分布即 ϵ ∈ N ( 0 , 1 ) ϵ∈N(0,1) ϵ∈N(0,1)
关于正态分布的介绍见本文第4节
2.2、最小二乘法 最小二乘法就是一个数学公式在数学上称为曲线拟合不仅包括线性回归方程还包括矩阵的最小二乘法
最小二乘法是解决曲线拟合问题最常用的方法。令 其中 φ k ( x ) \varphi_k(x) φk(x)是事先选定的一组线性无关的函数 a k a_k ak是待定系数 ( k 1 , 2 , . . . , m , m n ) (k1,2,...,m,mn) (k1,2,...,m,mn)拟合准则是使 y i ( i 1 , 2 , . . . , n ) y_i(i1,2,...,n) yi(i1,2,...,n)与 f ( x i ) f(x_i) f(xi)的距离 δ i \delta_i δi的平方和最小称为最小二乘准则
百度百科词条给出的基本原理如下 最小二乘法又称最小平方法是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据并使得这些求得的数据与实际数据之间误差的平方和最小
最小二乘法是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具
3、最小二乘法与线性回归
3.1、最小二乘法与线性回归 对于勒让德给定的最佳拟合准则我们可以看到最小二乘法其实就是用来做函数拟合的一种思想。至于如何求解具体的参数那就是另外一个问题了
最小二乘法的本质是一种数学思想它可以拟合任意函数。而线性回归只是其中一个比较简单且常用的函数所以讲最小二乘法基本都会以线性回归为例
线性回归因为比较简单可以直接推导出解析解而且许多非线性的问题也可以转化为线性问题来解决所以得到了广泛的应用
线性回归简介见文章传送门
3.2、最小二乘法与最大似然估计 最大似然估计最大化给定样本集发生的概率即就是极大化似然函数(Likelihood Function)而似然函数就是样本的联合概率。由于我们通常都会假设样本是相互独立的因此联合概率就等于每个样本发生的概率乘积
假设我们有m组观测数据 ( x 1 , y 1 ) , . . . , ( x m , y m ) (x_1,y_1),...,(x_m,y_m) (x1,y1),...,(xm,ym)我们猜测其关系符合 y k x b ykxb ykxb 假设真实值与预测值之间的误差为 ε i y i − y y i − f ( x i ) \varepsilon_iy_i-yy_i-f(x_i) εiyi−yyi−f(xi) 根据高斯的误差分析理论观测值的误差服从标准正态分布见文末即给定一个 x i x_i xi模型输出真实值 y i y_i yi的概率为 p ( y i ∣ x i ) 1 2 π e − ε i 2 2 p(y_i|x_i)\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}} p(yi∣xi)2π 1e−2εi2
则根据最大似然估计似然函数有 L ( ω ) ∏ i 1 m p ( y i ∣ x i ) ∏ i 1 m 1 2 π e − ε i 2 2 L(\omega)\prod_{i1}^mp(y_i|x_i)\prod_{i1}^m\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}} L(ω)i1∏mp(yi∣xi)i1∏m2π 1e−2εi2
两边取对数得 J ( ω ) l n ( L ( ω ) ) ∑ i 1 m l n ( 1 2 π e − ε i 2 2 ) ∑ i 1 m l n 1 2 π − 1 2 ∑ i 1 m ε i 2 J(\omega)ln(L(\omega)) \sum_{i1}^mln(\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}}) \sum_{i1}^mln\frac{1}{\sqrt{2\pi}}-\frac{1}{2}\sum_{i1}^m\varepsilon_i^2 J(ω)ln(L(ω))i1∑mln(2π 1e−2εi2)i1∑mln2π 1−21i1∑mεi2
去掉无关常数项得 J ( ω ) l n ( L ( ω ) ) − 1 2 ∑ i 1 m ε i 2 − 1 2 ∑ i 1 m ( y i − f ( x i ) ) 2 J(\omega)ln(L(\omega))-\frac{1}{2}\sum_{i1}^m\varepsilon_i^2-\frac{1}{2}\sum_{i1}^m(y_i-f(x_i))^2 J(ω)ln(L(ω))−21i1∑mεi2−21i1∑m(yi−f(xi))2
要使 L ( ω ) L(\omega) L(ω)概率最大即 J ( ω ) J(\omega) J(ω)最大则使下面多项式结果最小即可 ∑ i 1 m ( y i − f ( x i ) ) 2 \sum_{i1}^m(y_i-f(x_i))^2 i1∑m(yi−f(xi))2
上述结果表明最大似然估计似然函数等价于最小二乘法这也表明了以误差平方和作为最佳拟合准则的合理性
因此我们可以说最小二乘法其实就是误差满足正态高斯分布的极大似然估计最小化误差平方本质上等同于在误差服从正态高斯分布的假设下的最大似然估计
4、正态分布高斯分布 正态分布Normal Distribution也称高斯分布Gaussian Distribution其曲线呈钟型两头低中间高左右对称因此也被称为钟形曲线
定义若连续型随机变量x有如下形式的密度函数 则称x服从参数为 ( μ , σ 2 ) (\mu,\sigma^2) (μ,σ2)的正态分布(Normal Distribution)记为 X − N ( μ , σ 2 ) X-N(\mu,\sigma^2) X−N(μ,σ2) 性质
关于 x μ xμ xμ 对称在 x μ xμ xμ 处达到最大值 1 2 π σ \frac{1}{\sqrt{2\pi}\sigma} 2π σ1越远离 μ μ μ密度函数值越小数学期望均值为 μ μ μ标准差为 σ \sigma σ方差为 σ 2 \sigma^2 σ2
标准正态分布又称 μ μ μ分布是以0为均值数学期望、以1为标准差的正态分布记为 X − N ( 0 , 1 ) X-N(0,1) X−N(0,1)密度函数 参考文章 https://blog.csdn.net/MoreAction_/article/details/106443383 https://blog.csdn.net/MoreAction_/article/details/121591653 https://blog.csdn.net/qq_46092061/article/details/119136137