✍️ 周茂 , 陈箫翰,王亮  •  📅 2026-05-27

regress

官方文档:

regress

简介:

一维数据线性回归

regress 读取一个或多个表数据(也可从标准输入读取),确定每个分段最佳的线性[加权] 回归模型 \(y(x) = a + b x\) 。用户可自己指定输出哪些数据和模型。默认情况下,将 所有的输入数据作为一个整体来确定模型,但也可将数据分为等间距的数据段,在每段分别确定 模型。除了确定最贴近的模型外,该模块还可以输出所有可能的不同斜率的回归模型,这在分析 居于很多离群数据时非常有用。

备注

如果用户需要对 x 和 y 坐标的对数结果做拟合,可以使用 -iflags 选项在读数据后 将其转换为对数坐标

语法

gmt regress [ table ] [ -A[min/max/inc][+f[n|p]] ] [ -Clevel ] [ -Ex|y|o|r ] [ -Fflags ] [ -N1|2|r|w ] [ -S[r] ] [ -T[min/max/]inc[+i|n] |-Tfile|list ] [ -V[level] ] [ -W[w][x][y][r] ] [ -Z[+|-]limit ] [ -aflags ] [ -bibinary ] [ -bobinary ] [ -dnodata[+ccol] ] [ -eregexp ] [ -fflags ] [ -ggaps ] [ -hheaders ] [ -iflags ] [ -oflags ] [ -qflags ] [ -sflags ] [ -wflags ] [ --PAR=value ]

输入数据

table

一个或多个ASCII或二进制表数据。若不提供表数据,则会从标准输入中读取。

前两列为分别为 xy。在设置 -W-E 时,需要另外的 1-3 列作为数据的误差估计,或他们之间的相关系数(见 -W)。

可选选项

-A
-A[min/max/inc][+f[n|p]]

给出一系列不同斜率的回归直线进行系统分析,或将最佳拟合限制在指定的斜率范围内。

(1)当给出 min/max/inc 时,程序会在指定的斜率角度范围内进行搜索:

  • min :最小斜率角度(单位:度)

  • max :最大斜率角度(单位:度)

  • inc :角度步长(单位:度)

例如 -A-90/90/1 表示从 −90° 到 +90°,每隔 1° 计算一次回归系数。 在该模式下,程序并不是只寻找一条最佳直线,而是对每一个给定的斜率角度 根据回归类型参数 -E 和误差范数参数 -N, 计算该斜率条件下的最佳截距(即在斜率固定时,使误差最小的直线位置)。 对于每个数据段,程序会输出随角度变化的一系列结果,包括:角度(angle), 拟合误差(E),斜率(slope)和截距(intercept)。 在所计算的角度范围内,误差最小的那组模型参数, 会被写入数据段头部,并在详细输出模式 -Vi 下报告。

(2)除了用于“搜索多条直线”外,本选项还可用于限制最佳拟合的斜率范围。 默认情况下,最佳拟合会在所有可能斜率中搜索。 若添加 +f-N2 情况除外),则程序只会在当前设定的角度范围内寻找误差最小的回归直线。

  • +fn :只允许在负斜率范围内寻找最佳回归

  • +fp :只允许在正斜率范围内寻找最佳回归

https://docs.generic-mapping-tools.org/6.6/_images/GMT_slopes.png

扫描斜率 -A 以观察使用 LMS ( -Nr ) 准则的完全正交回归的拟合误差随直线角度的变化情况。这里我们可以看到,最佳解对应的直线角度为 -78.3 度,但在 78.6 度处存在另一个几乎同样好的局部极小值。

-C
-Clevel

设置用于回归置信带 (confidence bands) 可选计算的置信水平(以 % 为单位)[默认为 95]。该选项仅在 -F 包含输出列 c 时使用。

-E
-Ex|y|o|r

本选项设定如何计算拟合残差,可从以下选项中选择:

  • x :拟合误差是实际数据点与拟合直线的水平距离。

  • y :拟合误差是实际数据点与拟合直线的竖直距离[默认]。

  • o :拟合误差是实际数据点与拟合直线的垂直距离。

  • r :拟合误差是实际数据点与拟合直线的水平距离和竖直距离的乘积。

线性回归默认只有因变量才有误差,所以设定拟合误差为实际数据点与拟合直线的竖直距离为默认。 如果数据点的自变量存在误差,而因变量不存在误差,则应选择 xor 适用于自变量和因变量都有误差的情形。 二者的区别是:在自变量和因变量中有一个的误差为 0 时,r 选项的残差会为 0,而 o 选项不会。

https://docs.generic-mapping-tools.org/6.6/_images/GMT_misfit.png

四种残差类型。对于 k = x, y 或 o,会最小化 \(e_k\) 长度的平方和。对于 -Er,则最小化绿色区域的面积之和。

-F
-Fflags

选择输出数据的列的组合,输出顺序将与指定的顺序一致。可从以下选项中选择:

  • x :观测值 x

  • y :观测值 y

  • m :模型预测值。

  • r :残差(残差 = 数据减去模型)。

  • c :回归的对称置信区间,参见 -C 以指定置信水平。

  • z :标准化残差或所谓的 z 分数 (z-scores)。

  • w :离群值权重(0 或 1)。对于 -Nw,这些是重新加权最小二乘法 (Reweighted Least Squares) 的权重。

默认值为 [xymrczw]。

使用 -Fp 会输出包含 12 个模型参数的单条记录:

npoints xmean ymean angle misfit slope intercept sigma_slope sigma_intercept r R n_effective

注意R 只能在选择 -Ey 时设置。

-N
-N1|2|r|w

选择最小化拟合误差的方法。拟合误差是用各实测数据点的残差(residual)计算得到的。 所有的线性回归都是找到拟合误差(misfit)最小时的回归参数(斜率和截距)。 本选项最小化拟合误差的方法包括:

  • 1 :各数据点的残差的绝对值的和,即残差的 \(L_1\) 范数。

  • 2 :各数据点的残差的平方的和,即残差的 \(L_2\) 范数(Ordinary Least Squares Regression,简称 OLS,就是最小二乘法) [默认]。

  • r :各数据点的残差的平方的中位数(Least Median of Squares Regression,简称 LMS)。

  • w :通过 LMS 识别异常值并移除后的残差的平方和的平均值(Reweighted Least Squares Regression,简称 RLS)。

一般的线性回归使用的是最小二乘法,即本选项的默认值。 LMS 在处理离群值时更为稳健。 RLS 是先进行 LMS 回归,用其识别数据中的离群值并分配零权重,然后使用最小二乘法重新进行回归。

-S
-S[r]

限制输出哪些记录。默认情况下,所有数据记录都将按照 -F 指定的格式输出。使用本选项排除被回归算法识别为离群值的数据点。 使用 -Sr 来反转此行为,仅输出离群值记录。

-T
-T[min/max/]inc[+i|n] |-Tfile|list

在参数指定的等间距点处评估最佳拟合回归模型。如果仅给出了 -Tinc,将把 minmax 重置为每个分段中 x 的极值。 若要完全跳过模型评估,使用 -T0。详细请参见 生成一维数组

-V
-V[level]

设置 verbose 等级 [w]。 (参数详细介绍)

-W
-W[w][x][y][r]

指定加权回归以及将要提供的权重类型。

  • 如果提供了 x 观测值的 1-\(\sigma\) 不确定度,请附加 x

  • 如果提供了 y 的 1-\(\sigma\) 不确定度,请附加 y

  • 如果提供了 xy 观测值之间的相关性,请附加 r。这些列在输入中出现的顺序应紧随必选的 xy 列之后。

同时给出 xy (以及可选的 r )意味着进行正交回归。单独给出 x 需要配合使用 -Ex,单独给出 y 需要配合使用 -Ey

通过 \(w = 1/\sigma\) 的关系将 xy 的不确定度转换为回归权重 w 。使用 -Ww 可以把输入列解释为预先计算好的权重。 注意 :相对于回归线的残差将根据给定的权重进行缩放。大多数范数随后会对此加权残差进行平方( -N1 是唯一的例外)。

-Z
-Z[±]limit

更改离群值检测的阈值:当使用 -Nw 时,残差 z 分数(z-scores)超过此 limit [默认 ±2.5] 的点将被标记为离群值。 若要仅将负或正的 z 分数视为可能的离群值,请指定带符号的 limit

-a
-a[[col=]name][,...]

控制输入或输出为 OGR/GMT 格式时对非空间元数据的处理方式。 (参数详细介绍)

-bi
-bi[ncols][type][w][+l|b]

控制二进制文件的输入格式。 (参数详细介绍)

-bo
-bo[ncols][type][w][+l|b]

控制二进制文件的输出格式。 (参数详细介绍)

-d
-d[i|o]nodata

将某些特定值当作 NaN。 (参数详细介绍)

-e
-e[~]"pattern" | -e[~]/regexp/[i]

筛选或剔除匹配指定模式的数据记录。 (参数详细介绍)

-f
-f[i|o]colinfo

显式指定当前输入或输出数据中每一列的数据类型。 (参数详细介绍)

-g
-g[a]x|y|d|X|Y|D|[col]zgap[+n|p]

确定数据或线段的间断。 (参数详细介绍)

-h
-h[i|o][n][+c][+d][+msegheader][+rremark][+ttitle]

在读/写数据时跳过文件开头的若干个记录。 (参数详细介绍)

-i
-icols[+l][+sscale][+ooffset][,...][,t[word]]

对输入的数据进行列选择以及简单的代数运算。 (参数详细介绍)

-o
-ocols[,...][,t[word]]

对输出的数据进行列选择以及简单的代数运算。 (参数详细介绍)

-q
-q[i|o][~]rows[+ccol][+a|f|s]

对输入或输出的行进行筛选,该选项在一定程度上可以代替 gawk 的某些功能。 (参数详细介绍)

-s
-s[cols][+a|+r]

设置 NaN 记录的处理方式。 (参数详细介绍)

-w
-wy|a|w|d|h|m|s|cperiod[/phase][+ccol]

将输入坐标转换为循环坐标。 (参数详细介绍)

-^-

显示简短的帮助信息,包括模块简介和基本语法信息(Windows下只能使用 -

-++

显示帮助信息,包括模块简介、基本语法以及模块特有选项的说明

-? 或无参数

显示完整的帮助信息,包括模块简介、基本语法以及所有选项的说明

--PAR=value

临时修改GMT参数的值,可重复多次使用。参数列表见 配置参数

ASCII 格式精度

ASCII 格式输出数据通过 gmt.conf 配置文件控制。控制经纬度格式的参数为 FORMAT_GEO_OUT ;控制绝对时间的的参数包括 FORMAT_DATE_OUTFORMAT_CLOCK_OUT ;普通浮点数通过参数 FORMAT_FLOAT_OUT 控制。上述格式控制可能会导致精度损失,这会在下游计算中导致一些问题。 如果用户需要保证数据精度,则应考虑将数据写为二进制文件,或者使用 FORMAT_FLOAT_OUT 指定更多的有效数字。

注意事项

输出的分段头 (segment header) 将包含我们为每个分段计算的各种统计数据。 其顺序依次为: N (点数)、 x0 (加权平均值 x)、 y0 (加权平均值 y)、 angle (直线角度)、 E (不拟合度量)、 slope (斜率)、 intercept (截距)、 sigma_slope 以及 sigma_intercept 。 对于标准回归 ( -Ey ),还会报告皮尔逊相关系数 r 和判定系数 R 。最后以有效测量数 \(n_{eff}\) 结束。

对于加权数据,在计算需要最小化的平方回归不拟合度量 -N2 时,使用:

\[E_2(\nu) = \frac{\sum_{i=1}^n w_i e_i^2}{\sum_{i=1}^n w_i} \frac{n_{eff}}{n_{eff}-2},\]

其中有效测量数由下式给出:

\[n_{eff} = \frac{\left (\sum_{i=1}^n w_i\right )^2}{\sum_{i=1}^n w_i^2}.\]

因此 \(\nu = n_{eff} - 2\) 是有效自由度。

对于涉及除直线拟合之外更通用的线性模型回归,请参阅 math -A 以及 LSQFITSVDFIT 算子。

示例

返回通过远程文件 hertzsprung-russell.txt 中数据的最佳拟合正交回归线坐标:

gmt regress @hertzsprung-russell.txt -Eo -Fxm

对 points.txt 中的 x-y 数据进行标准最小二乘回归,并返回 x、y 以及带有 99% 置信区间的模型预测值:

gmt regress points.txt -Fxymc -C99 > points_regressed.txt

若只想获取上述回归的斜率:

slope=`gmt regress points.txt -Fp -o5`

对数据 rough.txt 进行重新加权最小二乘回归,并返回 x、y、模型预测值以及 RLS 权重:

gmt regress rough.txt -Fxymw > points_regressed.txt

对数据 crazy.txt 进行正交最小二乘回归,但先对 x 和 y 取对数,然后返回 x、y、模型预测值和标准化残差 (z-scores):

gmt regress crazy.txt -Eo -Fxymz -i0-1l > points_regressed.txt

对于同一文件,检查正交 LMS 不拟合度量在 0 到 90 度之间(步长 0.2 度)如何随角度变化:

gmt regress points.txt -A0/90/0.2 -Eo -Nr > points_analysis.txt

强制正交 LMS 选择具有正斜率的最佳解:

gmt regress points.txt -A+fp -Eo -Nr > best_pos_slope.txt

参考文献

Bevington, P. R., 1969, Data reduction and error analysis for the physical sciences, 336 pp., McGraw-Hill, New York.

Draper, N. R., and H. Smith, 1998, Applied regression analysis, 3rd ed., 736 pp., John Wiley and Sons, New York.

Rousseeuw, P. J., and A. M. Leroy, 1987, Robust regression and outlier detection, 329 pp., John Wiley and Sons, New York.

York, D., N. M. Evensen, M. L. Martinez, and J. De Basebe Delgado, 2004, Unified equations for the slope, intercept, and standard errors of the best straight line, Am. J. Phys., 72(3), 367-375.

相关模块

math, trend1d, trend2d