简单线性回归概念 R代码实现简单线性回归

发布：2022-10-10 15:57:58

阅读：4590

作者：网络整理

简单线性回归是一种统计方法，使我们能够总结和研究两个连续（定量）变量之间的关系。一个以x表示的变量被视为自变量，另一个以y表示的变量被视为因变量。假设这两个变量是线性相关的。因此，我们试图找到一个线性函数，尽可能准确地预测响应值（y）作为特征或自变量（x）的函数。

为了理解这个概念，让我们考虑一个薪水数据集，其中给定了每个自变量（经验年限）的因变量（薪水）的值。

薪资数据集

年薪和经验

1.1 39343.00

1.3 46205.00

1.5 37731.00

2.0 43525.00

2.2 39891.00

2.9 56642.00

3.0 60150.00

3.2 54445.00

3.2 64445.00

3.7 57189.00

出于一般目的，我们定义：

x作为特征向量，即x=[x_1,x_2,....,x_n]，

y作为响应向量，即y=[y_1,y_2,....,y_n]

对于n次观察（在上面的示例中，n=10）。

给定数据集的散点图

现在，我们必须找到一条适合上述散点图的线，通过它我们可以预测任何y值或任何x值的响应。

最适合的线称为回归线。

以下R代码用于实现简单线性回归

dataset=read.csv('salary.csv')
install.packages('caTools')
library(caTools)
split=sample.split(dataset$Salary,SplitRatio=0.7)
trainingset=subset(dataset,split==TRUE)
testset=subset(dataset,split==FALSE)
lm.r=lm(formula=Salary~YearsExperience,
data=trainingset)
coef(lm.r)
ypred=predict(lm.r,newdata=testset)
install.packages("ggplot2")
library(ggplot2)
ggplot()+geom_point(aes(x=trainingset$YearsExperience,
y=trainingset$Salary),colour='red')+
geom_line(aes(x=trainingset$YearsExperience,
y=predict(lm.r,newdata=trainingset)),colour='blue')+
ggtitle('Salary vs Experience(Training set)')+
xlab('Years of experience')+
ylab('Salary')
ggplot()+
geom_point(aes(x=testset$YearsExperience,y=testset$Salary),
colour='red')+
geom_line(aes(x=trainingset$YearsExperience,
y=predict(lm.r,newdata=trainingset)),
colour='blue')+
ggtitle('Salary vs Experience(Test set)')+
xlab('Years of experience')+
ylab('Salary')

可视化训练集结果

线性回归

单变量线性回归

单变量线性回归是监督学习中用于解决回归问题的一类算法模型，它根据给出的数据集，用直线拟合数据点，从而预测出不在数据集里的值。

2023-11-08 10:04:13

Logistic回归中OR值的概念、含义及计算详解

Logistic回归是一种用于分类问题的线性模型，常用于预测二分类问题中的概率值。在Logistic回归中，我们使用sigmoid函数将线性预测值转换为概率值，并对其进行分类决策。在Logistic回归中，OR值是一个重要的指标，用于衡量模型中不同变量对结果的影响程度。本文将详细介绍OR值的概念及含义，并讲解Logistic回归分析中如何计算OR值。

2023-09-08 10:15:29

套索回归

套索回归是一种线性回归技术，它通过对模型系数进行惩罚来减少变量的数量，从而提高模型的预测能力和泛化性能。它的主要用途是在高维数据集中进行特征选择，同时控制模型的复杂度，以避免过拟合。套索回归可以应用于多种领域，例如生物学、金融、社交网络等。本文将对套索回归进行详细介绍。

2023-09-08 09:52:14

吉洪诺夫正则化

吉洪诺夫正则化，也被称为岭回归或L2正则化，是一种用于线性回归的正则化方法。它通过向模型的目标函数中添加一个L2范数惩罚项，来控制模型的复杂度和泛化能力。这个惩罚项对于模型的权重进行平方和的惩罚，使权重的值不会变得过大，从而缓解过拟合问题。

2023-09-01 10:10:54

广义线性模型和logistic回归的关系

广义线性模型和logistic回归是两个密切相关的统计模型。广义线性模型是一个通用的框架，可以用来建立各种类型的回归模型，包括线性回归、logistic回归、Poisson回归等。logistic回归是广义线性模型的一个特殊情况，用于建立二元分类模型。

2023-07-11 10:04:43

广义线性模型与一般线性模型的区别

广义线性模型和一般线性模型是统计学中常用的回归分析方法。尽管这两个术语非常相似，但它们在某些方面存在区别。以下是广义线性模型与一般线性模型的详尽比较。

2023-07-11 09:58:10

什么是广义线性模型？

广义线性模型（Generalized Linear Model，简称GLM）是一种统计学习方法，用于描述和分析因变量与自变量之间的关系。GLM扩展了传统的线性回归模型，允许因变量不仅仅是连续的数值型变量，还可以是二元的、多元的、计数的或者分类型的变量。

2023-07-11 09:54:53

使用套索回归进行特征选择的方法（附示例）

套索回归是一种非常有效的特征选择方法，它可以通过调整正则化强度来控制特征的数量和质量。在实际应用中，我们可以使用交叉验证来选择最佳的正则化强度，以达到更好的模型性能和特征选择效果。

2023-06-06 10:45:40

使用正规方程进行线性回归的方法和条件

正规方程是一种用于线性回归的方法，它可以通过数学公式直接计算出最佳拟合直线，而不需要使用迭代算法。这种方法非常简单而且容易理解，适用于小型数据集。

2023-04-27 10:31:36

多项式回归分析多项式回归是线性还是非线性

多项式回归是一种回归分析方法，适用于非线性数据关系的建模。与简单线性回归模型只能拟合直线关系不同，多项式回归模型可以拟合更为复杂的曲线关系。

2023-04-26 11:10:13