预测模型建立

2024-05-21 12:53

1. 预测模型建立

松散含水层含水量预测模型的建立，主要是将预测松散含水层含水量问题转化为利用支持向量机求解的数学模型，主要包括如下4个步骤:
1)选取训练集T={(x1，y1)，…，(xl，yl)}∈(χ×y)l。
2)选择适当的核函数K(x，x')，如线性核函数、径向基核函数、多项式核函数和Sigmoid核函数。
3)确定支持向量机中的参数，如C，ε，γ等。
4)建立模型。
(一)训练集的选取
1.预测基本输入特征量
选取合适的训练集，对于建立松散含水层含水量预测模型是非常重要的，本课题对预测模型输入特征量的选取遵循以下原则:
1)现有物探仪器设备可测、或可转换参数，具有实用性和可观测性。
2)要与所研究地下含水层结构的综合物探方法相配套，充分挖掘所获观测数据的信息资源。
3)优化组合，兼顾所利用的输入特征量间的互补性，避免或减少冗余性。
4)保障预测模型具有广泛的推广能力。
建模时要把所有的数据分为训练集和测试集，根据训练集，求出决策函数，而用测试集测试所得决策函数的准确率。那么选择一个合适的训练集，第一要满足训练集中的样本点数量不能过多，也不能太少;第二训练集中所含特征向量不能太少，如果太少则不能够反映实际情况，影响分类或者回归的准确性，但也不能太多，否则会增加计算难度，甚至影响训练速度和时间。除了样本点多少的选择以外，还要在数据中不能选择过多的属性。属性选择要达到以下3个目的:首先是确认哪些属性与预测输出特征量相关的特性;其次是尽量降低输入空间维数，缩小求解问题的规模;最后是提高准确率，得到更好的决策函数。
基于上述原则，将支持向量机预测模型的预测输入基本特征量选定为:反演电阻率值ρ、反演含水层厚度H，半衰时Th，衰减度D，视极化率ηs，纵波速度v等地面物探观测参数作为基本输入特征量讨论。
为了验证上述输入特征量选择原则的正确性，选择了石家庄市西马庄水源地现有电测深资料与单孔单位涌水量资料并进行了秩相关性分析，原始数据见表5-1所示。分析结果如表5-2所示。
表5-1 西马庄原始数据


表5-2 西马庄电性参数与涌水量相关分析


2.综合性参数的引入
鉴于第四纪含水层一般呈高阻性，在电测深反演解释过程中易产生Th等值现象的解释误差。依据含水层的富水性对应于一定的电阻率值，而单孔单位涌水量既与含水层富水性有关，又与其厚度有关。为了尽可能消除因等值现象导致解释所产生的误差，又能使输入特征量与预测量有更为密切的相关性，使预测模型具有良好的推广能力，对此，将电测深反演后的含水层电阻率与其层厚度相乘作为一个输入特征量T'，该特征量T'与含水层单孔单位涌水量相关分析结果表明，二者有更为密切的相关性，见表5-3所示。
表5-3 综合参数与涌水量相关分析


考虑到不同的地区地下水所含矿化度的不同，因其孔隙水的导电性不同，将会导致同类富水层电阻率有较大差别。为了消除孔隙水的导电性对预测精度的影响，突出含水层有效孔隙度特征，基于ρ=αΦ-ms-nρw式，引入了相对综合因子参数T″，其表达式为

含水层含水量预测综合物探技术

式中:ρf为孔隙流体的电阻率;ρt为岩石的电阻率;H为含水层厚度。
从而将原基本输入特征量ρ和H组合为一个输入特征量T″。
3.激发比的引入
考虑到激发比可以放大激电异常，对第四系含水层有更为灵敏的反应。因此将激电模型里的极化率、衰减度参量用激发比参量代替，其表达式为J=ηsD。由表5-4和表5-5可知，激发比的引入，改善了模型预测精度。
表5-4 未引入激发比模型预测结果


表5-5 引入激发比模型预测结果


4.输入特征量的归一化
由于各输入特征量的量度差异较大，在用支持向量回归机进行建模训练和使用时，有必要对输入特征量进行归一化。归一化是指将属性数据按比例缩放，使之落入一个小的特定区域，如［-1，1］或［0，1］范围内。
归一化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属性相比，权重差距过大。本次所建模型采用最小-最大规范化方法:将输入特征量归一化到［0，1］范围内。归一化公式为

含水层含水量预测综合物探技术

式中:x为某个输入参数对应的值;xmin和xmax分别为该项特征量的设置最小值和最大值;xs为该输入参数的归一化值。
5.预测输入特征量的优选
在基本预测输入特征量归一化处理的基础上，需要进一步研究特征量组合结构的优化性问题，即确定预测模型最佳输入特征量的数量和成分。
通过电测深找水实践证明:
第四纪地下含水层结构对应特定的电测深异常特征，所获取的地电参数与单孔涌水量均存在着一定的对应关系，但深入研究还表明:作为预测输入量而言，每一参量与单孔涌水量间存在着不同的相关性，输入量相互之间可能还存在着冗余成分，为提高预测模型的预测精度和模型运算速度，探讨上述地电参量与地下水单孔涌水量的相关性和输入特征量的最佳组合问题，揭示地电参数与地下含水层含水量的内在关联是十分必要的，也是确定预测模型输入特征向量的基础。
鉴于地电参数与地下含水层含水量间不存在明确的函数关系，在优化分析过程中，以石家庄市西马庄水源地的已知8眼井孔的资料为基础，将现有的已知特征量参数:T″，Th，D，ηs及激发比J作为分析对象，利用高斯径向基核函数，C=1024，ε=0.5，γ=1.0和ε-SVR模型进行7+1循环式训练-预测方式。其分析结果如表5-6所示。
由表5-6所列预测精度可得到以下结论:
表5-6 特征量的优化分析表 单位:%


第一，随着特征数量的增大，其预测精度得到提高，四个特征量预测精度最好;
第二，若采用三个特征量时，其中的T″，Th，D组合最佳，其次为T″，D，ηs。以上结论对建模时输入特征量的优化筛选提供了重要的参考依据。
6.预测模型输入特征量的确定
基于上述分析，针对研究对象的尺度及精度要求，建立了4种预测模式。对于不同的预测模型，分别确定了其输入特征量。
模型一:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、含水层厚度h、含水层层数n和井孔孔径。该模型主要用于对精度要求不高的区域水文地质调查。
模型二:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、含水层的半衰时Th、含水层厚度h、含水层层数n和井孔孔径。该模型主要用于专门性水文地质调查。
模型三:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、半衰时Th、衰减度D、含水层厚度h、含水层层数n和井孔孔径。该模型主要用于对精度要求较高但探测深度要求不高的地下水源评价与开发工作。
模型四:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、纵波波速v、含水层厚度h、含水层层数n和井孔孔径。该模型主要用于对精度要求较高，探测深度较深的地下水源评价与开发工作。
(二)核函数的选择
在建立预测模型过程中，需要选择函数K(·，·)，即选择一个映射Φ(·)，把x所在的输入空间χ映射到另一个空间H。H是一个Hilbert空间，即可以是有限维空间也可以是无穷维空间。因此核函数方法的核心内容就是采用非线性变换Φ将n维矢量空间中的随机矢量x映射到高维特征空间，在高维特征空间中设相应的线性学习算法，由于其中各坐标分量间的相互作用只限于内积，因此不需要知道非线性变换Φ的具体形式，只要利用满足Mercer条件的核函数替换线性算法中的内积，就能得到原输入空间中对应的非线性算法。
支持向量回归机中的核函数对于预测模型的推广能力产生直接的影响，在选取核函数时，通常采用的方法有:一是利用专家的先验知识预先给定核函数;二是采用Cross-Validation方法，即在核函数选取时，分别试用不同的核函数，归纳预测误差最小的核函数就是最好的核函数。在本课题中我们采用了第二种方法进行核函数的选择。
为使确定的核函数具有最佳的预测效果，首先要对相应的核数的参数进行优化筛选。由(5-20)，(5-22)，(5-24)式可见，径向基核函数需要确定1个核参数，即系数γ;Sigmoid核函数需要确定2个参数，分别为:系数γ和常数r;多项式核函数需要确定3个参数，分别为:阶数d、系数γ和常数r。
在筛选过程中，将石家庄市西马庄水源地的井旁电测深成果和抽水试验数据作为研究基础，具体数据详见表5-1所示。
将其划分为两个子集，即一个训练集和一个预测验证集。由此对上述每一种核函数利用已确定的训练集进行建模参数优化筛选。具体方法为:对于径向基函数采取了交叉验证和网格搜索的方法，多项式核函数和Sigmoid核函数采用了试凑法。
试验一:径向基核函数交叉验证
对石家庄西马庄水源地8眼井作试验数据，选出7个作为训练样本，一个不参加训练的样本。再将选出的7个训练样本随机分为3组，选择其中两组进行训练，另外一组作为验证，这样一个接一个，进行3次。每次验证时，尝试所有的参数对，计算其交叉校验的平均性能MSE，最后以模型在3次验证数据上的性能平均值作为这一学习参数下的模型性能，然后循环8次，从而确定最佳参数值范围。确定的搜索范围分别为C(2-10，215)，ε(2-10，23)，γ(2-10，210)。为了增加搜索速度，我们步长选择的是2的指数倍。最终确定参数C=1024，ε=0.5，γ=1。
试验二:多项式核函数试凑法
借鉴试验一的分析结果，选择参数C=1024，ε=0.5。在选取核参数之前，我们需要对多项式核的阶数d做出限定，选择的阶数不易过大，如阶数太大，不仅增加了学习模型的复杂性，易出现“过拟合”现象，导致SVM的推广性能降低。因此，规定d的取值不超过4。另外对γ和r做了初步筛选，圈定了其范围分别为:γ∈［1，4］;r∈［0.1，1］。然后采用阶梯式搜索分别找出最优的阶数d、系数γ和常数r;
首先进行阶数d的选择，设定参数γ=1，r=0.2;从8眼井中选出7个作为训练样本，d依次选择1、2、3、4进行训练，预测那个没有参加训练的样本，循环8次然后将预测结果进行对比。本文采用两个误差指标来衡量模型的预测效果:均方误差(MSE)和平均绝对百分比误差(MAPE)，其表达式分别为

含水层含水量预测综合物探技术

式中: 为预测值;xi为实测值;N为试验次数，这里N取8。
由表5-7可以看出:当d=3或d=4时，预测精度相近，但考虑到阶数越大，学习模型的复杂性越大，因此选取d=3最佳参数。
表5-7 不同阶数多项式核函数对预测结果影响统计表


然后进行系数γ选择，设定参数d=3，r=0.2;γ依次选择1、2、3、4进行训练，然后将预测结果进行对比，可知γ=1为最佳参数(表5-8)。
表5-8 不同γ多项式核函数对预测结果影响统计表


最后进行常数r的选择，设定参数d=3，γ=1.0;r依次选择0.2、0.4、0.6、0.8和1进行训练，然后将预测结果进行对比，可知r=0.8为最佳参数(表5-9)。
表5-9 不同r多项式核函数对预测结果影响统计表


最终确定参数d=3，γ=1，r=0。
试验三:Sigmoid核函数试凑法
选取石家庄西马庄水源地8眼井作试验数据，仍借鉴试验一的分析结果，选择参数C=1024，ε=0.5。
对γ和r做了初步筛选后，确定γ为0.1;圈定r∈［0.01，1］。下边对参数r进行精细选择，设定r值分别为:0.01、0.1、0.2、0.4、0.8，从8眼井中选出7个作为训练样本，预测样本不参加训练集，经过8次循环，通过对预测结果的对比，从而确定r=0.01～0.1时预测效果最好。分析结果如表5-10所示。
表5-10 不同rSigmoid核函数对预测结果影响统计表


核函数的选择通常采用Cross-Validation法，即在核函数选取时，分别试用不同的核函数，归纳预测误差最小的核函数就是最好的核函数。
我们将石家庄西马庄8眼井的资料与北京潮白河水源地7眼井的资料组合建立新的建模集，从中任意选出14个作为训练集样本，另外1个样本组成预测集，这样进行了8组试验，通过图5-3我们看到基于RBF核函数的预测模型预测精度最高。因此我们认为利用RBF核函数建立的含水层含水量预测模型预测效果最佳。

图5-3 三种核函数预测精度对比

(三)参数确定
采用径向基核函数所建立的模型需要确定的参数共有三个，分别为核函数参数γ，惩罚系数C和松弛变量ε。
惩罚因子C为正常数，惩罚因子C决定了对超出误差ε的样本惩罚程度。从结构风险的角度考虑，C值取得过大，问题倾向于经验最小，忽略对结构复杂程度的考虑;反之则更多地考虑了问题的复杂程度，忽略了经验数据的作用。因此可以说，C是支持向量机回归和泛化能力的平衡参数。惩罚因子C取不同的常数值，对结果有不同的影响。
由表5-11可知当C值取1024和2048时预测精度相同，说明当C大于一定值时，其变化对分析结果产生的影响变小。
表5-11 不同C值对预测结果影响统计表


通过对比试验，最终取值C=1024，ε=0.5，γ=1.0。
(四)模型建立
构造并求解最优化问题

含水层含水量预测综合物探技术

得到最优解 每个支持值β=(a*i-ai)。
构造决策函数

含水层含水量预测综合物探技术

其中 
将所求得的核函数系数、β值及b值带入5-44式，即为ε-SVR预测模型。

预测模型建立

2. 预测模型建立

(一)参数拟合原理
在得到单井涌水量与所测量的地球物理测井各种参数之间的关系方程之后,可以发现里面还有很多待定的常数,这些常数在各种不同的地方是不一样的,为了能够确定这些系数,就需要获得这个地区的单井涌水量和对应的测井参数,然后拟合得到对应于这个地区的待定参数,这个被称为参数拟合。本程序所采用的拟合方法是改进型阻尼最小二乘法进行多参数数据拟合[14]。下面介绍一下拟合方法的原理。
设按上述任一模型计算得到的第i个孔的单位涌水量为qi。抽水实测单位涌水量为qj,由前述诸个模型可见,qj是个非线性多元变量函数,因而采用下述两种函数作为目标函数。并用最优化方法求取选定模型的待定系数是适当的。
(A+λ2K)ΔP=B
(1)目标函数取各井单位涌水量相对误差的平方和

含水层含水量预测综合物探技术

式中:λ为阻尼系数。
(2)目标函数取各井单位涌水量绝对误差的平方和

含水层含水量预测综合物探技术

选用哪种目标函数,应根据预测区各井单井涌水量的差异大小以及预测要求而定。若涌水量差异较大,而对涌水量较小者的预测精度要求较高,则宜选择相对误差的平方和作为目标函数,此时,小水量钻孔的预测精度虽然提高了,但大水量钻孔的预测精度相对降低了。若涌水量变化较小,且对涌水量较小者并不要求与大水量钻孔有相同高的预测精度,则适宜采用绝对误差的平方和作为目标函数。拟合流程见图5-4。
(二)模型构建
使用最小二乘准则,待求的模型系数a、b、c、d、e、f、g、R的值,应使得目标函数取极小值。显然,这是个非线性多元变量函数求最小二乘极小的问题,可采用最优化方法中比较有效的马奎特法(或称阻尼最小二乘法)求解,通常经过几次迭代就可求得各个模型的待定系数。
马奎特法是最优化中求最小二乘极小解比较有效的算法,它比梯度法、共轭梯度法收敛快,又比高斯牛顿法稳定,因而早已在很多其他反演解释中得到广泛应用。
经典马奎特算法中,由模型系数组成的矢量及其修正量的各元素相互间差别很大时,阻尼系数必将取得较大,这将增加迭代次数,降低运算速度,同时他还要求模型系数初值应靠近极小点,否则不易收敛,也就是说稳定性不理想。因此,我们采用加权阻尼因子的方法,即将经典马奎特方程中的单位矩阵K修改为与模型系数的大小有关的对角阵K,效果是模型系数大,阻尼小;模型系数小,阻尼大。从而使各模型系数以同等速度向极小点收敛,提高了算法的运算速度与稳定性,这就是改进的阻尼最小二乘法,其方程为

含水层含水量预测综合物探技术


图5-4 多参数拟合流程图


含水层含水量预测综合物探技术

利用上述拟合方法所求取的预测模型的待定参量a、b、c、d、e、、fg、R代入(5-61)式,便得到利用地球物理测井电阻率参量预测含水层含水量模型。

3. 预测模型的建立与求解

( 1) 变量选取与基础数据的获取
依据数量化理论选取相对瓦斯涌出量作为因变量 ( 理论 Y 值) 。首先，对历年发生的煤与瓦斯突出资料进行统计。计算出各次突出过程中，突出煤的影响范围和突出瓦斯的影响范围。经分析，大多数情况下，突出煤的范围和突出瓦斯的范围相比较，突出煤的范围远远小于突出瓦斯的范围。若在同一张曲线图里对比二者，其各自特征不易寻求，考虑到突出煤的影响范围较小，故不予作图分析。绘制瓦斯突出范围的曲线图，但由曲线图并不能看出煤与瓦斯突出的相对趋势，只可看出图中大多数的点落在突出量为 100t 的范围以内。如果对各点影响距离进行平均计算，平均大约为 80m，故取 80m 为危险影响范围的半径。因此，在已开采区瓦斯地质图上以突出点为圆心，80m 为半径画圆。
在通过上述方法画出的图中，寻求钻孔和突出点的远近关系。根据钻孔和突出点的远近确定钻孔区域危险值 ( 即实测值 Y) 。根据现场实际情况与专家意见在影响范围圈内的钻孔的危险值定为 45，离突出点非常近的钻孔其危险值定为 80，远离突出点的钻孔其危险值定为 4 ～5。
自变量的选取首先应考虑所选变量是否与煤与瓦斯涌出量密切相关，是否充分反映瓦斯涌出量的变化规律，其次还应考虑预警区能否取得相应的观测数据。从相关变量与瓦斯涌出的关系考虑，煤与瓦斯突出的预警指标选择了基岩厚度、煤层厚度、泥岩厚度、顶板含砂率和煤层变异系数等比较容易取得的数值，并将各数值进行归一化处理，同时考虑到变异系数的精确度不如前面几项，故将其转换为定性变量参加计算。
所用公式如下:

煤矿安全地理信息系统设计与开发

式中: δ 为标准差; 为矿井的平均煤层厚度，m; n 为勘探区见煤点数;xi为勘探区见煤点实测厚度，m。
通过公式计算出结果后，以结果中间值 0. 2 为界，将该变量划分为两个类目，取得的定量数据属于哪个类目，便将其记为 “1”，另一个类目则记为 “0”。这样，表示煤层变异系数的变量就转化为定性变量。
影响煤与瓦斯突出的巷道类型、开采方式等只能作为定性变量考虑，鉴于这些指标的主观性较强，本研究不进行考虑。至此，本研究所取变量已经满足了验证应用数量化理论解决问题的条件。
通过以上方法，可得各统计单元因变量和自变量的取值结果见表 8. 2。
( 2) 预测方程的建立
根据表 8. 2 中的基础数据，采用数量化理论计算预测瓦斯涌出量的数学模型。首先计算了包括全部 6 个自变量的预测方程。结果表明，煤层变异系数小于 0. 2 和预测方程的关系不密切。因此，将此变量删去，不作为预测方程的自变量考虑。对其余的 5 个变量重新进行计算，最后得到如下形式的预测方程:
表 8. 2 已知统计单元基础数据


续表



煤矿安全地理信息系统设计与开发

式中: 为相对瓦斯涌出量预警值，m3/t;X1为基岩厚度，定量变量;X2为煤层厚度，定量变量;X3为泥层厚度，定量变量;X4为含砂率，定量变量;δ(1，2)为煤层变异系
数，＞0.2的类目的反应。
(3)基于数量化理论的预测结果采用前述各自变量的取值方法，对各个统计单元逐一取值。然后，将各统计单元的各自变量数据(4个定量数据和1个定性数据)代入预测方程(8.2)，便可计算出各个预测统计单元的相对瓦斯涌出量预测值。预测结果见表8.3。
表 8. 3 基于数量化理论 (Ⅰ) 预测结果


续表


( 4) 煤与瓦斯突出危险性级别确定
根据计算结果，得出基于数量化理论的单元的 IND 值，并根据生产中煤与瓦斯突出危险性的实际情况，参考专家意见，划分警限与警度区间见表 8. 4。
表 8. 4 基于数量化理论的煤与瓦斯突出危险性分级标准


( 5) 试验数据与结果分析
本研究选用 5 个预警指标: 基岩厚度、煤层厚度、泥岩厚度、顶板含砂率和煤层变异系数，既有定量变量，也有按照定性变量来处理的定量变量。从验证模型建立方法和步骤方面考虑，已经满足条件，若再增加指标模型建立的方法和步骤不会改变，只是计算过程变复杂而已。v运用本研究结果与试验矿井 2005 ～2008 年生产过程中的数据记录进行了对比，对比结果显示，本研究所得结果与实际生产时遇到的情况基本一致，表明应用数量化理论分析研究煤与瓦斯突出危险性是可行的。

预测模型的建立与求解

4. 预测模型建立

(一)参数拟合原理
在得到单井涌水量与所测量的地球物理测井各种参数之间的关系方程之后，可以发现里面还有很多待定的常数，这些常数在各种不同的地方是不一样的，为了能够确定这些系数，就需要获得这个地区的单井涌水量和对应的测井参数，然后拟合得到对应于这个地区的待定参数，这个被称为参数拟合。本程序所采用的拟合方法是改进型阻尼最小二乘法进行多参数数据拟合［14］。下面介绍一下拟合方法的原理。
设按上述任一模型计算得到的第i个孔的单位涌水量为qi。抽水实测单位涌水量为qj，由前述诸个模型可见，qj是个非线性多元变量函数，因而采用下述两种函数作为目标函数。并用最优化方法求取选定模型的待定系数是适当的。
(A+λ2K)ΔP=B
(1)目标函数取各井单位涌水量相对误差的平方和

含水层含水量预测综合物探技术

式中:λ为阻尼系数。
(2)目标函数取各井单位涌水量绝对误差的平方和

含水层含水量预测综合物探技术

选用哪种目标函数，应根据预测区各井单井涌水量的差异大小以及预测要求而定。若涌水量差异较大，而对涌水量较小者的预测精度要求较高，则宜选择相对误差的平方和作为目标函数，此时，小水量钻孔的预测精度虽然提高了，但大水量钻孔的预测精度相对降低了。若涌水量变化较小，且对涌水量较小者并不要求与大水量钻孔有相同高的预测精度，则适宜采用绝对误差的平方和作为目标函数。拟合流程见图5-4。
(二)模型构建
使用最小二乘准则，待求的模型系数a、b、c、d、e、f、g、R的值，应使得目标函数取极小值。显然，这是个非线性多元变量函数求最小二乘极小的问题，可采用最优化方法中比较有效的马奎特法(或称阻尼最小二乘法)求解，通常经过几次迭代就可求得各个模型的待定系数。
马奎特法是最优化中求最小二乘极小解比较有效的算法，它比梯度法、共轭梯度法收敛快，又比高斯牛顿法稳定，因而早已在很多其他反演解释中得到广泛应用。
经典马奎特算法中，由模型系数组成的矢量及其修正量的各元素相互间差别很大时，阻尼系数必将取得较大，这将增加迭代次数，降低运算速度，同时他还要求模型系数初值应靠近极小点，否则不易收敛，也就是说稳定性不理想。因此，我们采用加权阻尼因子的方法，即将经典马奎特方程中的单位矩阵K修改为与模型系数的大小有关的对角阵K，效果是模型系数大，阻尼小;模型系数小，阻尼大。从而使各模型系数以同等速度向极小点收敛，提高了算法的运算速度与稳定性，这就是改进的阻尼最小二乘法，其方程为

含水层含水量预测综合物探技术

式中:

含水层含水量预测综合物探技术


图5-4 多参数拟合流程图


含水层含水量预测综合物探技术

利用上述拟合方法所求取的预测模型的待定参量a、b、c、d、e、f、g、R代入(5-61)式，便得到利用地球物理测井电阻率参量预测含水层含水量模型。

5. 预测模型建立

松散含水层含水量预测模型的建立,主要是将预测松散含水层含水量问题转化为利用支持向量机求解的数学模型,主要包括如下4个步骤:
1)选取训练集T={(x1,y1),…,(xl,yl)}∈(x×y')。
2)选择适当的核函数K(x,x′),如线性核函数、径向基核函数、多项式核函数和Sigmoid核函数。
3)确定支持向量机中的参数,如C,ε,γ等。
4)建立模型。
(一)训练集的选取
1.预测基本输入特征量
选取合适的训练集,对于建立松散含水层含水量预测模型是非常重要的,本课题对预测模型输入特征量的选取遵循以下原则:
1)现有物探仪器设备可测、或可转换参数,具有实用性和可观测性。
2)要与所研究地下含水层结构的综合物探方法相配套,充分挖掘所获观测数据的信息资源。
3)优化组合,兼顾所利用的输入特征量间的互补性,避免或减少冗余性。
4)保障预测模型具有广泛的推广能力。
建模时要把所有的数据分为训练集和测试集,根据训练集,求出决策函数,而用测试集测试所得决策函数的准确率。那么选择一个合适的训练集,第一要满足训练集中的样本点数量不能过多,也不能太少;第二训练集中所含特征向量不能太少,如果太少则不能够反映实际情况,影响分类或者回归的准确性,但也不能太多,否则会增加计算难度,甚至影响训练速度和时间。除了样本点多少的选择以外,还要在数据中不能选择过多的属性。属性选择要达到以下3个目的:首先是确认哪些属性与预测输出特征量相关的特性;其次是尽量降低输入空间维数,缩小求解问题的规模;最后是提高准确率,得到更好的决策函数。
基于上述原则,将支持向量机预测模型的预测输入基本特征量选定为:反演电阻率值ρ、反演含水层厚度H,半衰时Th,衰减度D,视极化率ηs,纵波速度v等地面物探观测参数作为基本输入特征量讨论。
为了验证上述输入特征量选择原则的正确性,选择了石家庄市西马庄水源地现有电测深资料与单孔单位涌水量资料并进行了秩相关性分析,原始数据见表5-1所示。分析结果如表5-2所示。
表5-1 西马庄原始数据


表5-2 西马庄电性参数与涌水量相关分析


2.综合性参数的引入
鉴于第四纪含水层一般呈高阻性,在电测深反演解释过程中易产生hT等值现象的解释误差。依据含水层的富水性对应于一定的电阻率值,而单孔单位涌水量既与含水层富水性有关,又与其厚度有关。为了尽可能消除因等值现象导致解释所产生的误差,又能使输入特征量与预测量有更为密切的相关性,使预测模型具有良好的推广能力,对此,将电测深反演后的含水层电阻率与其层厚度相乘作为一个输入特征量T″,该特征量T″与含水层单孔单位涌水量相关分析结果表明,二者有更为密切的相关性,见表5-3所示。
表5-3 综合参数与涌水量相关分析


考虑到不同的地区地下水所含矿化度的不同,因其孔隙水的导电性不同,将会导致同类富水层电阻率有较大差别。为了消除孔隙水的导电性对预测精度的影响,突出含水层有效孔隙度特征,基于,ρ=αΦ-ms-nρw引入了相对综合因子参数T″,其表达式为

含水层含水量预测综合物探技术

式中:ρf为孔隙流体的电阻率;ρt为岩石的电阻率;H为含水层厚度。
从而将原基本输入特征量ρ和H组合为一个输入特征量T″。
3.激发比的引入
考虑到激发比可以放大激电异常,对第四系含水层有更为灵敏的反应。因此将激电模型里的极化率、衰减度参量用激发比参量代替,其表达式为J=ηsD。由表5-4和表5-5可知,激发比的引入,改善了模型预测精度。
表5-4 未引入激发比模型预测结果


表5-5 引入激发比模型预测结果


4.输入特征量的归一化
由于各输入特征量的量度差异较大,在用支持向量回归机进行建模训练和使用时,有必要对输入特征量进行归一化。归一化是指将属性数据按比例缩放,使之落入一个小的特定区域,如[-1,1]或[0,1]范围内。
归一化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属性相比,权重差距过大。本次所建模型采用最小-最大规范化方法:将输入特征量归一化到[0,1]范围内。归一化公式为

含水层含水量预测综合物探技术

式中:x为某个输入参数对应的值;xmin和xmax分别为该项特征量的设置最小值和最大值;xs为该输入参数的归一化值。
5.预测输入特征量的优选
在基本预测输入特征量归一化处理的基础上,需要进一步研究特征量组合结构的优化性问题,即确定预测模型最佳输入特征量的数量和成分。
通过电测深找水实践证明:
第四纪地下含水层结构对应特定的电测深异常特征,所获取的地电参数与单孔涌水量均存在着一定的对应关系,但深入研究还表明:作为预测输入量而言,每一参量与单孔涌水量间存在着不同的相关性,输入量相互之间可能还存在着冗余成分,为提高预测模型的预测精度和模型运算速度,探讨上述地电参量与地下水单孔涌水量的相关性和输入特征量的最佳组合问题,揭示地电参数与地下含水层含水量的内在关联是十分必要的,也是确定预测模型输入特征向量的基础。
鉴于地电参数与地下含水层含水量间不存在明确的函数关系,在优化分析过程中,以石家庄市西马庄水源地的已知8眼井孔的资料为基础,将现有的已知特征量参数:T″,Th,D,ηs及激发比J作为分析对象,利用高斯径向基核函数,C=1024,ε=0.5,γ=1.0和ε-SVR模型进行7+1循环式训练-预测方式。其分析结果如表5-6所示。
由表5-6所列预测精度可得到以下结论:
表5-6 特征量的优化分析表 单位:%


第一,随着特征数量的增大,其预测精度得到提高,四个特征量预测精度最好;
第二,若采用三个特征量时,其中的T″,Th,D组合最佳,其次为T″,D,ηs。以上结论对建模时输入特征量的优化筛选提供了重要的参考依据。
6.预测模型输入特征量的确定
基于上述分析,针对研究对象的尺度及精度要求,建立了4种预测模式。对于不同的预测模型,分别确定了其输入特征量。
模型一:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于对精度要求不高的区域水文地质调查。
模型二:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、含水层的半衰时Th、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于专门性水文地质调查。
模型三:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、半衰时Th、衰减度D、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于对精度要求较高但探测深度要求不高的地下水源评价与开发工作。
模型四:输入特征量为含水层的反演电阻率、ρ隔水层的反演电阻率ρ隔、视极化率ηs、纵波波速v、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于对精度要求较高,探测深度较深的地下水源评价与开发工作。
(二)核函数的选择
在建立预测模型过程中,需要选择函数K(·,·),即选择一个映射φ(·),把x所在的输入空间x映射到另一个空间H。H是一个Hilbert空间,即可以是有限维空间也可以是无穷维空间。因此核函数方法的核心内容就是采用非线性变换φ将n维矢量空间中的随机矢量x映射到高维特征空间,在高维特征空间中设相应的线性学习算法,由于其中各坐标分量间的相互作用只限于内积,因此不需要知道非线性变换φ的具体形式,只要利用满足Mercer条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法。
支持向量回归机中的核函数对于预测模型的推广能力产生直接的影响,在选取核函数时,通常采用的方法有:一是利用专家的先验知识预先给定核函数;二是采用Cross-Validation方法,即在核函数选取时,分别试用不同的核函数,归纳预测误差最小的核函数就是最好的核函数。在本课题中我们采用了第二种方法进行核函数的选择。
为使确定的核函数具有最佳的预测效果,首先要对相应的核数的参数进行优化筛选。由(5-20),(5-22),(5-24)式可见,径向基核函数需要确定1个核参数,即系数γ;Sigmoid核函数需要确定2个参数,分别为:系数γ和常数r;多项式核函数需要确定3个参数,分别为:阶数d、系数γ和常数r。
在筛选过程中,将石家庄市西马庄水源地的井旁电测深成果和抽水试验数据作为研究基础,具体数据详见表5-1所示。
将其划分为两个子集,即一个训练集和一个预测验证集。由此对上述每一种核函数利用已确定的训练集进行建模参数优化筛选。具体方法为:对于径向基函数采取了交叉验证和网格搜索的方法,多项式核函数和Sigmoid核函数采用了试凑法。
试验一:径向基核函数交叉验证对石家庄西马庄水源地8眼井作试验数据,选出7个作为训练样本,一个不参加训练的样本。再将选出的7个训练样本随机分为3组,选择其中两组进行训练,另外一组作为验证,这样一个接一个,进行3次。每次验证时,尝试所有的参数对,计算其交叉校验的平均性能MSE,最后以模型在3次验证数据上的性能平均值作为这一学习参数下的模型性能,然后循环8次,从而确定最佳参数值范围。确定的搜索范围分别为C(2-10,215),ε(2-10,23),γ(2-10,210)。为了增加搜索速度,我们步长选择的是2的指数倍。最终确定参数C=1024,ε=0.5,γ=1。
试验二:多项式核函数试凑法
借鉴试验一的分析结果,选择参数C=1024,ε=0.5。在选取核参数之前,我们需要对多项式核的阶数d做出限定,选择的阶数不易过大,如阶数太大,不仅增加了学习模型的复杂性,易出现“过拟合”现象,导致SVM的推广性能降低。因此,规定d的取值不超过4。另外对γ和r做了初步筛选,圈定了其范围分别为:γ∈[1,4];r∈[0.1,1]。然后采用阶梯式搜索分别找出最优的阶数d、系数γ和常数r;
首先进行阶数d的选择,设定参数γ=1,r=0.2;从8眼井中选出7个作为训练样本,d依次选择1、2、3、4进行训练,预测那个没有参加训练的样本,循环8次然后将预测结果进行对比。本文采用两个误差指标来衡量模型的预测效果:均方误差(MSE)和平均绝对百分比误差(AMPE),其表达式分别为

含水层含水量预测综合物探技术

式中: 为预测值;xi为实测值;N为试验次数,这里N取8。
由表5-7可以看出:当d=3或d=4时,预测精度相近,但考虑到阶数越大,学习模型的复杂性越大,因此选取d=3最佳参数。
表5-7 不同阶数多项式核函数对预测结果影响统计表


然后进行系数γ选择,设定参数d=3,r=0.2;γ依次选择1、2、3、4进行训练,然后将预测结果进行对比,可知γ=1为最佳参数(表5-8)。
表5-8 不同γ多项式核函数对预测结果影响统计表


最后进行常数r的选择,设定参数d=3,γ=1.0;r依次选择0.2、0.4、0.6、0.8和1进行训练,然后将预测结果进行对比,可知r=0.8为最佳参数(表5-9)。
表5-9 不同r多项式核函数对预测结果影响统计表


最终确定参数d=3,γ=1,r=0。
试验三:Sigmoid核函数试凑法
选取石家庄西马庄水源地8眼井作试验数据,仍借鉴试验一的分析结果,选择参数C=1024,ε=0.5。
对γ和r做了初步筛选后,确定γ为0.1;圈定r∈[0.01,1]。下边对参数r进行精细选择,设定r值分别为:0.01、0.1、0.2、0.4、0.8,从8眼井中选出7个作为训练样本,预测样本不参加训练集,经过8次循环,通过对预测结果的对比,从而确定r=0.01~0.1时预测效果最好。分析结果如表5-10所示。
表5-10 不同rSigmoid核函数对预测结果影响统计表


核函数的选择通常采用Cross-Validation法,即在核函数选取时,分别试用不同的核函数,归纳预测误差最小的核函数就是最好的核函数。
我们将石家庄西马庄8眼井的资料与北京潮白河水源地7眼井的资料组合建立新的建模集,从中任意选出14个作为训练集样本,另外1个样本组成预测集,这样进行了8组试验,通过图5-3我们看到基于RBF核函数的预测模型预测精度最高。因此我们认为利用RBF核函数建立的含水层含水量预测模型预测效果最佳。

图5-3 三种核函数预测精度对比

(三)参数确定
采用径向基核函数所建立的模型需要确定的参数共有三个,分别为核函数参数γ,惩罚系数C和松弛变量ε。
惩罚因子C为正常数,惩罚因子C决定了对超出误差ε的样本惩罚程度。从结构风险的角度考虑,C值取得过大,问题倾向于经验最小,忽略对结构复杂程度的考虑;反之则更多地考虑了问题的复杂程度,忽略了经验数据的作用。因此可以说,C是支持向量机回归和泛化能力的平衡参数。惩罚因子C取不同的常数值,对结果有不同的影响。
由表5-11可知当C值取1024和2048时预测精度相同,说明当C大于一定值时,其变化对分析结果产生的影响变小。
表5-11 不同C值对预测结果影响统计表


通过对比试验,最终取值
(四)模型建立
构造并求解最优化问题

含水层含水量预测综合物探技术

得到最优解 每个支持值 。
构造决策函数

含水层含水量预测综合物探技术

将所求得的核函数系数、β值及b值带入5-44式,即为ε-SVR预测模型。

预测模型建立

6. 预测模型的介绍

常见的预测模型有一元线性回归模型，计算公式为Y=a+b*x.一元非线性回归模型：Y=a+bl*x1+b2*x2+…+bm*xm。

7. 预测模型的建模方法

预测模型的建模方法回归分析法，时间序列分析法，灰色预测法。
回归分析法
基本思想：根据历史数据的变化规律，寻找自变量与因变量之间的回归方程式，确定模型参数，据此预测。回归问题分为一元和多元回归、线性和非线性回归。

特点：技术比较成熟，预测过程简单;将预测对象的影响因素分解，考察各因素的变化情况，从而估计预测对象未来的数量状态;回归模型误差较大，外推特性差。
适用范围：回归分析法一般适用于中期预测。回归分析法要求样本量大且要求样本有较好的分布规律，当预测的长度大于占有的原始数据长度时，采用该方法进行预测在理论上不能保证预测结果的精度。另外，可能出现量化结果与定性分析结果不符的现象，有时难以找到合适的回归方程类型。
时间序列分析法
基本思想：把预测对象的历史数据按—定的时间间隔进行排列，构成一个随时间变化的统计序列，建立相应的数据随时间变化的变化模型，并将该模型外推到未来进行预测。
适用范围：此方法有效的前提是过去的发展模式会延续到未来，因而这种方法对短期预测效果比较好，而不适合作中长期预测。
灰色预测法
基本思想：将一切随机变量看作是在一定范围内变化的灰色变量，不是从统计规律角度出发进行大样本分析研究，而是利用数据处理方法(数据生成与还原)，将杂乱无章的原始数据整理成规律性较强的生成数据来加以研究，即灰色系统理论建立的不是原始数据模型，而是生成数据模型。

适用范围：预测模型是一个指数函数，如果待测量是以某一指数规律发展的，则可望得到较高精度的预测结果。影响模型预测精度及其适应性的关键因素，是模型中背景值的构造及预测公式中初值的选取。

预测模型的建模方法

8. 预测模型

本研究建立的预测模型，表达的是三维空间地质空间中的矿化指标与控矿指标之间的定量关联关系，可用来对研究区内分布的隐伏矿体进行定位定量预测。
矿化分布实际上是矿化指标在三维地质空间上的分布，描述这些指标的变量称为矿化变量。矿化变量包括:①Cu—单元铜平均品位;②CuOre—单元铜金属量。
控矿指标描述了控矿地质因素的成矿有利度，反映了地质控矿作用在三维地质空间上的分布结果，故称为控矿变量。不同的矿化变量对应地有不同的控矿变量:矿化变量Cu对应的控矿变量———ddG1，ddF1，daIP1，dwr1G1，aIT1，wr2G1，ddD31;矿化变量CuOre对应的控矿变量———ddG2，ddF2，daIP2，dwr1G2，aIT2，wr2G2，ddD32。
矿化指标与控矿指标的关联关系，在数学上可以表达为控矿变量(控矿指标)空间到矿化变量(矿化指标)空间的映射，而矿化变量空间中的每个矿化变量均属于某个有界的实数域，故可以将这种映射看作为泛函，其函数化表达模型为MV=f(GV)，式中MV为矿化变量空间，GV为控矿变量空间。该泛函关系可以通过多元回归等统计方法来实现函数化表达。
由前述控矿地质因素定量分析知，提取出的控矿指标与矿化指标具有显著的线性相关性，所以泛函模型MV=f(GV)可以实例化为普通的多元线性函数模型:

危机矿山深部隐伏矿大比例尺定位定量预测技术研究

式中:MVk为MV中的矿化变量(Cu，CuOre)，GVj为GV中的控矿变量((ddG1，ddF1，daIP1，dwr1G1，aIT1，wr2G1，ddD31)和(ddG2，ddF2，daIP2，dwr1G2，aIT2，wr2G2，ddD32))，Bk0，Bk1，…，Bkp为线性函数的待求参数，ε为期望值为零的随机变量。参数Bk0，Bk1，…，Bkp可通过对GV和MV在地质空间控制区域中离散化单元的量化数据进行多元线性回归分析获得。
表13－1、13－2为用回归分析方法建立矿化泛函模型的计算结果。表中所示统计检验(F检验)表明，矿化变量Cu、CuOre分别与控矿变量(ddG1，ddF1，daIP1，dwr1G1，aIT1，wr2G1，ddD31)、(ddG2，ddF2，daIP2，dwr1G2，aIT2，wr2G2，ddD32)之间在统计意义上存在着显著的线性函数关系。
表13－1 矿化变量Cu与对应控矿变量的线性回归模型


表13－2 矿化变量CuOre与对应控矿变量的线性回归模型


矿化泛函模型定量地揭示了控矿变量与矿化变量之间的关联关系，可以用来对研究区内所有的立体单元的矿化指标Cu、CuOre进行估值预测。同时，为了对立体单元的含矿性进估计，定义单元含矿性指标IOre为:

危机矿山深部隐伏矿大比例尺定位定量预测技术研究

单元含矿性指标Iore相当于矿化指标值的概率化，故与矿化指标一样，对控矿变量具有函数依赖性，因而在控矿变量与含矿性指标之间也存在类似的泛函模型。由于IOre表示的是概率值，故采用逻辑斯蒂(Logistic)回归模型作为单元含矿性估计模型:

危机矿山深部隐伏矿大比例尺定位定量预测技术研究

式中:i为立体单元编号，IÔrei为立体单元i的含矿性指标的估计量，GVj为GV中的控矿变量(ddG2，ddF2，daIP2，dwr1G2，aIT2，wr2G2，ddD32)，Bk0，Bk1，…，Bkp为逻辑斯蒂模型的待求参数。参数Bk0，Bk1，…，Bkp可通过对GV和MV在地质空间控制区域中离散化单元的量化数据进行极大似然估计获得，结果如表13－3所示。
表13－3 含矿性指标Iore的逻辑斯蒂回归模型