4 理论方法
线性回归是利用数理统计中的回归分析来确定两个或多个变量之间相互依赖的定量关系的一种统计分析方法。 它被广泛使用。
回归分析中只包含一个自变量和一个因变量,两者之间的关系可以近似为一条直线。 这种回归分析称为线性回归分析。 其表达形式为,e为误差,服从均值为0的正态分布。
在进行线性回归分析之前,我们对时间序列指标进行了平稳性检验。 非平稳时间序列的回归将导致伪回归并产生指标选择的错误信号。
一般来说,随机过程的平稳性有两种概念:弱平稳性和严格平稳性。 时间序列分析中通常所说的平稳随机过程是弱平稳随机过程。 金融时间序列通常表现出明显的时间趋势。 在检验时间趋势之前,需要判断时间序列是否存在单位根。 拒绝单位根假设后,可以确定数据是由具有趋势的稳定过程生成的。
David 和 Wayne 的单位根检验,即 - (DF) 检验,是检验数据平稳性的常用方法。 本研究采用增强DF检验,即ADF检验,模型如下:
其中t为时间或趋势变量,此时的原假设为: 如果拒绝原假设,则原始时间序列没有单位根,并且原始序列是平稳的。 如果不能拒绝原假设,则原始时间序列具有单位根,并且该序列不是平稳的。
当我们发现序列检验不平稳时,为了防止伪回归的发生,我们通常选择对指标序列进行渐进差分处理。 对于一般的财务数据来说,经过第一次差分后,总数据就变成了增长率。 一般情况下都会稳定。
弹性网络回归(Zhou and,2005)是一种使用 L1 和 L2 先验作为正则化矩阵的线性回归模型。 这种组合用于很少有非零权重的稀疏模型,例如Lasso回归,但可以保持岭回归的正则化性质。 我们可以使用参数来调整 L1 和 L2 的凸组合(一种特殊类型的线性组合)。 当多个特征彼此相关时,弹性网络非常有用。 Lasso 更喜欢随机选择其中之一,而 更喜欢选择两者。
弹性网络是岭回归和Lasso回归之间的折衷,由混合比r控制:
弹性网络的客观方程:
一般来说,我们应该避免使用朴素线性回归,并对模型进行一定的正则化。 弹性网络回归比Lasso回归应用更广泛,性能更稳定。
全子集回归是一种提出预测组合的新回归方法。 该方法是由等人提出的。 2013年,全子集回归方法主要将所有具有预测潜力的参数因素放入一个集合中,并将集合中的所有因素按照不同数量的因素进行排列,形成回归方程组。 并在这些预测方程中,根据方差、调整方差等指标,选择最有效的参数因子组合方程。 全子集回归比传统的等权因子组合理论预测更加准确、科学。
这种方法的思想很简单钢材的期货和现货区别,就是尝试对所有因素组合进行建模,然后选择最优模型。 基本上如下:
滚动预测是指学习完新周期的数据后,预测下一周期的数据的预测方法。 具体方法步骤如下:
初始指标选择
1、价差指标的选取
价差指标中,我们主要选取三个代表城市之间的价差。 主要是北京、上海、广州分别代表华北、华东、华南。 同时,这三个地方也是重要的钢铁生产和消费中心。 三地的价格差异既有指标意义,又有实际意义。 因此我们选择:热轧卷:Q345:5.75mm上海,热轧卷:Q345:5.75mm广州,热轧卷:Q345:5.75mm北京,螺纹钢:20mm:上海,螺纹钢:20mm:广州,螺纹钢:20mm:北京。
2、基本面指标的选取
大宗商品价格的研究主要从供给和需求两个方面出发。 微观层面,商品价格主要由供需平衡决定。 我们发现,除了供需之外,一些宏观因素对大宗商品价格也有一定的影响,所以我们在研究中也考虑了宏观指标。 另外,运费的价格也在一定程度上影响着地区之间的价差。 基于此,本研究选取了约300个相关基本面指标作为量化模型的指标筛选库。 具体指标如下:

本研究中供应指标的筛选主要根据黑色金属冶炼过程所需的原材料进行。 钢铁冶炼的原料包括铁矿石、焦炭和焦煤以及铁合金和其他黑色产品。 一般来说,生产1吨焦炭约需要炼焦煤1.33吨,而炼制1吨生铁则需要铁矿石约1.6吨,焦炭约0.5吨。 此外,由于电炉炼钢生产线逐渐增多,废钢也是主要的钢铁生产材料。 库存作为供需的中间指标,暂时置于供给指标之中。 因此,在供给指标中,本研究将其分为:铁矿石、焦煤、生铁、废钢、粗钢、钢材、库存。


大宗商品价格往往由供需平衡决定,螺纹钢和热轧卷遵循同样的规则。 由于螺纹钢和热轧卷的下游应用场景不同,我们分别考虑螺纹钢和热轧卷两类的需求。 螺纹钢主要用于建筑材料,受房地产和基础设施需求影响较大。 热轧卷板主要应用于汽车、家电、造船等领域。 因此我们对螺纹钢和热轧卷选取了不同的需求指标。

在跨区域的价差中,运费价格往往对价差影响较大。 其中,出货价格对螺纹钢和热轧卷影响较大。 一般来说,大量的钢铁和铁矿石通过海上运输。 此外,我们还增加了汽油、柴油等间接能源指标,丰富运价体系。

单线性回归因素筛选
本研究中的区域间传播模型包括周模型和月模型。 因此,在一元线性回归筛选中,我们也将数据分为周数据和月数据进行因子筛选。
在进行线性回归之前,我们会进行数据清理,将日数据转换为周数据或月数据,剔除不合理和缺失的数据。 然后我们进行差分处理以获得平稳时间序列数据。 经过数据处理,我们得到了不同地方价格差异的显着因素。
1、各地区各品种价格差异因素显着性分析
1) 螺纹钢
我们对所有周因素进行线性回归,选出41个显着因素,如下图所示。 我们应用 T 值来确定因素是否显着。 当T值大于1时,我们将其设置为显着性。这比正常显着性因子稍微宽松,因为很难用单个线性因子来解释跨区域传播。 为了让后续的全子集回归有更多的可能性,我们稍微放宽了因子。 另外,为了避免伪回归的发生,我们通过ADF检验因子数据的平稳性。 当 ADF 检验 p 值小于 5% 时,拒绝非平稳性原假设。 因此,从表中数据可以看出,这41个因素一阶差分后的ADF检验p值均小于5%,因此拒绝了不稳定的原假设,表明这些因素一阶差分下的平稳数据。



2) 热轧卷
与热轧板卷和螺纹钢周线模型相比,显着因素较为相似,主要是各地库存和原材料价格。 其中,螺纹钢主要为螺纹钢库存,热轧卷主要为热卷库存。 此外,一些交通指标对价格差异也具有显着意义。 例如:铁矿石运价、好望角型运价指数等。


热轧板卷月度重要指标除了产量外,还重点关注需求端的一些指标,如冷轧板、热轧板卷下游产品:表观消费量:冷轧窄带钢:当前月值、产量:冷轧窄带钢:当月值,以及下游汽车需求和造船需求。 可以看出,价差指标对需求和产量指标相对敏感,更符合逻辑预期。 此外,工业增加值、交通运输指数等一些宏观经济指标也具有重要意义。


由于跨区域价格因地区而异,模型筛选出的因素也会有所不同。 因此,我们进行了横向比较。 附录31中红色标注的23个显着因素是京广螺纹钢价差和京沪螺纹钢价差,占所选因素的一半。 主要原因之一是两个价差因素均包含北京,因此将选择与北京螺纹钢价格相关的因素。 其次,很多原材料价格和宏观因素对各个地区的价格都会产生同样的影响。 虽然这些因素都是经过选择的,但我们也看到有些因素的意义是不同的。 例如,在京广价差中,广州的库存更为显着,而在京沪价差中,杭州的库存更为显着。 高,广州的库存意义很低。 通过比较不同地区的价格差异,单项回归筛选逻辑性强,符合预期。 其他特点与京沪价差相同。 具体京广螺纹钢、热卷价差,以及沪广螺纹钢、热卷价差的显着性因素,请参见附表。 文中就不一一列举了。
弹性网络线性回归因子筛选
由于弹性网络回归本质上是岭回归和Lasso回归的结合,因此保留了Lasso回归的特点。 当模型中存在相关变量时,Lasso回归将只保留其中一个变量,而将其他相关变量系数设置为零。 因此,在大规模数据中,例如有1000个特征,其中一些特征是相关的,即构成多重共线性。 Lasso回归通常用于筛选相关特征。
本研究还利用弹性网络回归的Lasso函数筛选大量因素,消除最终模型中的多重共线性。 基于单变量回归的显着性因素,我们进行多元弹性网络回归以选择非共线因素。


对12个目标价差及其特征变量进行弹性网络回归后,我们发现以下共线因素:

从共线因素来看,主要是宏观因素,因此对月度数据影响较大。 因为宏观因素对长期趋势的影响比较明显,但对短期趋势的影响有限。 因此,我们看到周显着因子中,共线因子较少,而月显着因子较多。
另外,同一类别的数据容易出现共线性,如CPI、PPI数据、库存数据、同一钢厂的不同产品产量数据等。 在筛选过程中发现这些数据高度共线性。
通过弹性网络回归的筛选,去除具有共线性的因素,并对筛选出的因素进行全子集回归。
全子集回归分布模型确定
及模拟交易净值
全子集回归的本质是遍历所有相关因素,寻找最优因素组合。 当与目标变量相关的因素较多时,从全子集中得到的最优因素组合会更好。 然而,由于全子集回归是一种寻找最优解的迭代方法,因此它也有一个很大的缺点,那就是当因素较多、数据量比较大时,运行时间会增加,结果可能不准确。被计算。 因此,我们通过线性线性回归和弹性网络回归将因素控制在50以内。 对这些选定的因子进行全子集回归,得到最优的因子组合模型集。 最后,我们通过滚动回归测试了模型的有效性。
在回滚测试过程中,我们在周模型中选择30周作为基本回归样本,然后每次形成新的一周数据时对模型进行调整。 加载新一周的数据并加载最早一周的数据将使样本稳定在 30 周。 在月度模型中,由于样本数据有限,我们采用20个月作为基本回归样本,同时也采用每月调整样本数据的模式。 这使得模型具有一定的学习功能。
以下是不同地区螺纹钢和热轧板卷周价差和月价差的精选模型:
1、北京、上海螺纹钢周价差模型
从京沪价差模型因素来看,主要因素是北京和上海附近的库存和原材料价格。 周线指标属于短期指标,对区域供需关系敏感,符合基本面逻辑。
京沪螺纹钢周价差模型影响因素:印尼:国债收益率:10年,价格:铁精粉:66%:含税干基:北京,库存:螺纹钢:石家庄,价格:钢坯::江苏,煤炭库存:曹妃甸港,市场价格:二级冶金焦:山东,车盘价格:二级冶金焦:内蒙古,出厂价(含税):硅铁:75A:内蒙古唐山钢厂:高炉开工率。
我们可以看到,北京和上海螺纹钢周线模型的预测值与实际值吻合程度较高,趋势也比较一致。

2、北京、上海螺纹钢月度价差模型
从月度因素来看,主要因素是宏观工业增加值和原材料产量。 可见,月度因素需要更多宏观因素来判断走势。
京沪螺纹钢月度价差模型因素:工业增加值:当月同比、北京:工业增加值:可比价格:当月同比、产量:天然气:当月价值、产量:铁矿石原矿量:当月价值、价格:球团矿:62%:干基、含税、现金兑换出厂价:繁昌、现场库存:煤炭:广州港、方大特钢:产量:生铁:当月的价值。

3、北京、上海热轧板卷周价差模型
与螺纹钢周价差因子大致相同,与原材料价格相关。
京沪热卷周价差模型因素:价格:炼钢生铁:L8-10:唐山,价格:钢坯::辽宁,市场价格:二级冶金焦:宁夏,市场价格:二级冶金焦:贵州,价格:铸铁:Z18:广东。

4、北京、上海热轧板卷月度价差模型
与螺纹钢月度价差模型大致相同,多了一个下游需求因素,即冷轧板的出口量。
京沪热卷月度价差模型因素: 库存:热卷(板):北京,出口数量:冷轧板:当月产值,工业增加值:集体企业:当月同比,产量:钢材 : 河北 : 当月值 , 价格 : 钢坯 : 河南 , 价格 : 钢坯 : 辽宁 马鞍山钢铁有限公司 : 产量 : 粗钢 : 当月值 。

5、广州、北京螺纹钢周价差模型
北京和上海螺纹钢周价差大致相当,各地区供需主导。
京广螺纹钢周利差模型因子:巴西:国债收益率:10年期、出厂价(含税):再生冶金焦(A13.5%、0.7%S):唐山、库存小计:锌:合计、板材价格:连云港:澳大利亚:PB粉矿:61.5%,库存:螺纹钢:广州,板材价格:再生冶金焦:内蒙古,出厂价(含税):硅铁:75A:内蒙古,唐山钢厂:高炉开工率、库存:钢铁:重点企业(十天)。

6、广州、北京螺纹钢月度价差模型
与京沪螺纹钢月度模型大致相同。
京广螺纹钢月度价差模型影响因素:工业增加值:股份制企业:当月同比、陕西:本外币:各项存款余额、产量:汽油:当月值、产量:原油钢材: 当月价值, 库存小计: 铝: 合计, 产量: 钢材: 辽宁: 当月价值, 价格: 球团: 63%: 干基含税, 承兑出厂价: 淄博, 价格: 球团: 62%:现金含税,出厂价:鄂州。

7、广州-北京热轧板卷周价差模型
与京沪螺纹钢价差模型大致相同,主要反映各地区库存及原材料价格。
京广热卷周价差模型因素:库存:热卷(板):天津,含税价格:废钢:北京,含税价格:废钢:广州,价格:球团矿:62%:不含税不含税出厂价:迁安,焦炭库存:日照港,出厂价(含税):二级冶金焦:抚顺,焦炭库存:天津港,市场价格:二级冶金焦:江苏,铁矿石价格指数:62%铁:CFR中国华北,出厂价(含税):硅铁:75A:内蒙古。

8、广州-北京热轧板卷月度价差模型
与之前的京沪热卷包月模式大致相同。
京广热卷月度价差模型影响因素:工业增加值:集体企业:当月同比、库存:热卷(板):北京、出口数量:冷轧板:当月值、产量: 钢材 : 河北 : 当月值 , 价格 : 钢坯 : 河南 , 价格 : 钢坯 : 辽宁 马鞍山钢铁有限公司 : 产量 : 粗钢 : 当月值 。

9、上海-广州螺纹钢周价差模型
与京沪螺纹钢周线模型大致相同。
上海-广州螺纹钢周价差模型因素:库存小计:铝:合计,均价:10级焦煤:太原,库存:螺纹钢:广州,库存:螺纹钢:西安,价格:方坯:Q235:唐山,价格:钢坯::唐山,价格:球团:63%:现金含税出厂价:徐州,价格:球团:62%:干基含税出厂价:繁昌,出厂价(含税):二级冶金焦:银川,国产铁矿石:62% 品位:干基铁精矿含税价格。

10、上海-广州螺纹钢月度价差模型
模型中存在较多国外流动性因素,说明上海、广州螺纹钢价格受国外流动性影响较大。 这可能是因为上海和广州的经济受外国影响相对较大。
上海-广州螺纹钢月利差模型因子:英国:国债收益率:10年期、澳大利亚:国债收益率:10年期、已完成固定资产投资:制造业:黑色金属冶炼及压延加工业:累计同比、PPIRM :燃料、动力:当月同比,价格:球团矿:62%:干基含税,出厂价:铜陵、武钢:产量:生铁:现价新兴铸管:产量:生铁:当月值,唐山钢铁:产量:钢材:当月值。

11、上海-广州热轧板卷周价差模型
沪广热卷价差模型因子与京沪螺纹钢价差模型因子大致相同。 两者都是该地区的供需指标。
上海-广州热卷周价差模型因素:库存:热卷(板):上海,含税价格:废钢:广州,车板价格:青岛港:印度:粉矿:63.5%,车板价格:天津港: 巴西: 粗粉: 63.5%, 价格: 球团矿: 63%: 干基 验收含税出厂价: 沂水, 出厂价(含税): 二级冶金焦: 上海, 价格: 铸造生铁:Z18:广东,库存:钢材:重点企业。

12、上海-广州热轧板卷月度价差模型
该模型的指标选取与之前的月度价差模型大致相同,但受需求面影响较大,因此选取了3个下游冷轧板指标。
上海-广州热卷月度价差模型影响因素:PPI:生产材料:原材料工业:当月同比,浙江:工业增加值:可比价格:当月同比,进口数量:冷轧板:当月值,出口数量:冷轧普通中厚宽钢带:当月值,产量:冷轧薄宽钢带:当月值,产量:钢材:陕西:当月值,煤炭库存:秦皇岛港,库存小计:阴极铜:合计。

预测值与实际值的拟合分析
除了模型净值外,我们还选择了两个模型对预测值和实际值进行拟合分析。 虽然我们在计算净值时采用了趋势预测,但从下面的周线和月线模型可以看出,趋势拟合效果较好,尤其是周线模型的预测值的趋势与实际值基本一致。 月模型的走势也与实际值比较吻合,但比周模型稍差。 主要原因是每周模型的样本量较大,并且是根据 30 周的数据进行预测。 每月样本量较小,仅为 20 个月。 这也说明,如果后期数据量增加,模型的准确率将会提高。


宏观数据与非宏观数据对比
传统的基本面研究中,一般认为宏观数据对两个地区相同产品的价格影响是相同的,不会体现在它们之间的价格差异上。 在我们的因素筛选和最终模型中,我们发现几个模型包含宏观数据。 因此,带着这个疑问,我们将剔除宏观因素后的模型与保留宏观因素的模型进行了比较。
我们剔除京沪螺纹钢周价差模型中的“印度尼西亚:国债收益率:10年”和“工业增加值:当月同比、产量:天然气:当月”等宏观因素在京沪螺纹钢月度价差模型中。 Value”保留其他供需因素并进行回测与原始模型进行比较(我们使用完全相同的回测方法),结果如下:

并且如下图所示:

我们可以明显看到,剔除宏观因素后,京沪螺纹钢周线模型净值跌幅较大(1.7-1.3),且在2016年出现较大回撤。剔除宏观数据的净值不仅远低于含宏观数据的净值,而且还达到了负值。
从周线模型和月线模型的不同反应来看,宏观因素对短期周线模型的影响小于长期月线模型。 这也与我们之前宏观因素对短期和长期影响不同的判断是一致的。 同时,这也符合我们传统的基本逻辑。 短期供需影响占主要,长期宏观影响更大。
同时我们认为,虽然宏观数据对不同地区的同一产品的影响在一定程度上是相互抵消的。 但不同地区对宏观数据和政策的反应可能不同,因此地区间仍存在差异。 具体宏观因素如何影响区域利差可能需要进一步研究。
型号适用范围及适用方法
本研究中的净值计算方法是预测准确性的直观展示,并非实际交易结果,特此说明。 由于本研究是为了支持现货交易,因此与期货交易相比非常复杂。 例如,运输成本对跨区域价差交易影响较大。 据了解,钢材市场的运输成本因企业而异。 例如,公路运输成本约为每吨公里4分钱,铁路运输为每吨公里1.6分钱,海运可能更便宜。 不同的运输方式价格不同,而且每个公司的资源不同,因此很难一概而论并给出一个运输交易成本。 正如我们之前提到的,我们的模型实际上提供了价差变化和趋势预测。 现场公司可以通过我们的趋势预测来做出决策并参与传播套利交易,并与他们自己的运输成本和资本占用成本相结合。 因此,我们建议我们的模型将根据每周或每月的数据来预测下周或一个月的差异和趋势。 现场公司可以根据自己的运输成本,资本占用成本和交易成本来决定是否进行跨区域价格差额套利。 也就是说,我们给出的价格差异预测是从公司自己的跨区套利交易成本中减去的。 如果超过成本,您可以参加; 如果低于成本,您将不参加。
审查历史跨区套利机会
跨区域价格差异通常需要扣除一定数量的运输成本,如果仍然有利润,这将创造机会。 因此钢材的期货和现货区别,在本章中,我们在2018年回顾了北京,上海和广州之间的跨区域套利机会。

根据基于公共铁路信息的计算,运输钢的成本大约在0.16元到0.19元之间。 上海和北京之间的运输里程约为1,000公里,因此我们将从北京到上海的每吨运输成本设置为约170元。 一般而言,海上运输的成本比铁路便宜得多。 但是,由于海上运输成本的计算很复杂,差异很大,而且宏观环境的变化很大,因此我们在这里给出的价格大约是价格。 不包括港口费用以及装载和卸货费,运输成本约为铁路的三分之一。 如果您考虑其他一些费用,我们认为费用约为铁路货物的三分之二。 因此,我们查看从北京到上海的套利机会图表。 在数据样本中的320天中,可以在74天内进行跨区域套利。 指的是铁路运输货物,主要集中在下半年。 有4至5个大套利机会。 如果您可以准确预测套利时间,将带来每吨约300的利润。 因此,北京和上海之间的跨区域套利是可行的。

我们可以从上海和广州的套利机会中看到,广州和上海的套利机会相对较大,达到700甚至最高,套利时间相对较长。 320天内有270天的套利机会。 但是据我们所知,上海和广州之间的交易方法不同。 广州主要利用称重的价格,而上海主要利用尺寸为英尺的价格。 每吨的价格最多约为10%。 但是,即使价格降低到10%,仍然有很大的分配套利机会的空间。
此外,北京和广州之间的套利机会也更大。 在320天内有231天的套利时间窗口,类似于广州和上海。 这样做的主要原因是北部和南方之间存在很大的差异。 广州的气候状况使其全年运作,因此冬季也有需求。 在冬季,在上海和北京的建设通常是不可能的,从而形成价格差异并为公司带来套利机会。

10
结论与展望
从区域间生产和消费量来看,年度跨区域贸易量达到了近2.7亿元人民币。 可以看出,对于现货交易者和制造商来说,钢的现货跨区域交易是重要的交易组成部分,区域之间的价格差异是跨区域交易的重要指标。 为了协助现场公司进行跨区域交易,我们从基本量化的角度提出了客观和特定的解决方案。
首先,我们通过线性回归筛选了可能的相关因素,并列出了影响不同地区价格差异的主要重要因素。 除了为建立最终模型的因素库提供一个因素库外,它还为现场公司提供了一些重要的指标,可以通过显着性分析影响价格差异。
其次,我们通过完整的子集回归和滚动进行回测,建立了一个预测模型,用于北京,上海和广州之间的价格差异。 所有回测数据都使用样本外数据来确保模型的实际意义。 回头测试间隔为每周模型3年,每月模型为4年。 在回测间隔内,该模型的利润范围在40%至300%之间。 其中,从广州到北京的钢筋价格差异的每月模型是最好的,利润近300%,获胜率约为62%。 可以看出,大多数模型具有一定的鲁棒性和盈利能力。
最后,我们发现了一些现有问题:
首先,有关基本原理的相关数据受到限制,供应端数据和需求侧数据较少,尤其是本地需求侧数据。 通过基本分析,我们知道一个地区内部供求的平衡对不同地区之间的价格产生了很大的影响。 因此,我们需要进一步挖掘高质量和可靠的需求数据。
其次,我们主要采用线性模型进行模型建立。 但是,在实际应用中,不仅可能存在线性关系,而且还存在因素之间的非线性关系。 它需要对基本面和对数据的理解的深入研究,以调整模型以实现更优化的模型。
第三,最初选择的指标是根据基本框架选择的,这可能太主观了,并且可能没有考虑到影响区域间价格差异的一些重要因素。
11
风险提示
不确定因素的干扰使模型无效。
参考
G.,A。和A.(2013)。 。 在177(2),357-373中。
Zou,H。,&,T。(2005)。 并通过网。 :B(),67(2),301-320。
日程











现在可以在Poker 应用程序上获得东方证券衍生工具研究所
扫描下方二维码
您可以加入东方证券衍生工具研究所的圈子
↓↓

支付一千人民币获得一百万元人民币
真正行业和金融领域的知名人士聚集的地方
- “扑克-研究所”
对行业投资策略,行业信息和投资研究逻辑的一对一准确答案
现在,数百家研究机构涵盖了宏观对冲,投资交易,
黑色工业,能源和化学品,金属,农产品...
扫描下图的QR码,等待您挑战↓↓↓



