相关和回归

我们知道，可以通过对指标的维度拆来解寻找指标变化的原因。当我们找到问题的原因时，自然会进一步思考一个问题：指标变化的原因这么多，其中的关键因素又是哪个呢？例如，我们在工作场景中时不时会讨论这些问题：

电商类产品想知道哪个品类销售对整体销售贡献更大；
渠道运营想知道哪个渠道的用户对整体活跃作用更大；
负责留存的想知道哪个客群对整体的留存关系更大；
产品想知道到底哪些维度（城市、年龄、接入设备等）会影响整体活跃。

还有很多类似的场景，在这种情况下我们不仅要要找到数据变化的原因，还需要明确出不同原因的重要性。因为实际工作中可用资源有限，只能集中优势资源解决核心问题。

Excel计算相关系数

方法一：使用 CORREL 函数。
方法二：使用“数据分析”模块的“相关系数”功能。

线性回归

如果只有一个自变量 X，而且因变量 Y 和自变量 X 之间的数量变化关系呈现近似的线性关系，就可以建立一元线性回归方程，通过自变量 X 的值来预测因变量 Y 的值，这就是所谓的一元线性回归预测，回归方程如下所示： $$ Y = aX + b $$ 我们可以通过历史数据（已知的 $ X $ 和 $ Y $ ），确定参数 $ a $ 和 $ b $ 的值，还原出回归方程，从而实现预测。很显然，$ a $和 $ b $ 的取值可以有很多种选择，那么什么才是最好的 $ a $ 和 $ b$ 呢？如果把真实值记为 $ y $，把预测值记为 $ \hat{y} $，那么让 $ SSR $ 值最小的 $ a $ 和 $ b $ 就是最好的 $ a $ 和 $ b $ ，称之为最小二乘解，其中$ SSR $ 值计算公式如下所示： $$ SSR = \sum_{i=1}^{n}(y_i - \hat{y_i})^2 $$ 损失函数是凹函数，找到使函数最小的a和b的值，可以通过向凹函数的拐点进行逼近的方式来找到更好的a和b的值，具体的公式如下所示：

$$ a^\prime = a + (-1) \times \frac {\partial loss(a, b)} {\partial a} \times \Delta \ b^\prime = b + (-1) \times \frac {\partial loss(a, b)} {\partial b} \times \Delta $$ 对于上面的求 $ SSR $ 的函数来说，可以用下面的公式计算偏导数： $$ f(a, b) = \frac {1} {N} \sum_{i=1}^{N}(y_i - (ax_i + b))^2 \ \frac {\partial {f(a, b)}} {\partial {a}} = \frac {2} {N} \sum_{i=1}^{N}(-x_iy_i + x_i^2a + x_ib) \ \frac {\partial {f(a, b)}} {\partial {b}} = \frac {2} {N} \sum_{i=1}^{N}(-y_i + x_ia + b) $$ 上面的方法称为梯度下降法。

在Excel中，可以使用“数据分析”模块的“”来实现线性回归。

对于回归分析，最为重要的是评价回归的结果是否理想，这关系到能否通过回归方程去预测将来，我们先看看决定系数（Multiple R-Squared，通常称之为$ R^2 $）。在统计学习中，决定系数用于度量因变量的变化中可由自变量解释部分所占的比例，也就是你的回归模型的解释力是否良好，$ R^2 $ 的值越接近1越好。 $$ SS_{tot} = \sum_{i}(y_{i} - \bar {y})^2 \ SS_{res} = \sum_{i}(y_{i} - \hat {y_i})^2 \ R^2 = 1 - \frac {SS_{res}} {SS_{tot}} $$

接下来我们还要对回归方程的显著性进行检验，主要包括 t 检验（回归系数的检验）和F检验（回归方程的检验）。对于F检验（F-statistic）的结果，主要关注其 p-value ，如果 p-value 小于0.05，那么说明拟合效果是不错的。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

77.相关和回归.md

77.相关和回归.md

相关和回归

相关分析基本概念

相关分析应用场景

Excel计算相关系数

相关分析案例

分析哪个客群的留存对整体留存贡献更大

案例2：找出对购买转化率贡献最高的渠道

案例3：分析哪些因素对 DAU 的影响更大

线性回归

Files

77.相关和回归.md

Latest commit

History

77.相关和回归.md

File metadata and controls

相关和回归

相关分析基本概念

相关分析应用场景

Excel计算相关系数

相关分析案例

分析哪个客群的留存对整体留存贡献更大

案例2：找出对购买转化率贡献最高的渠道

案例3：分析哪些因素对 DAU 的影响更大

线性回归