基于主成分分析的多元回归预测set50指数外文翻译资料
2022-07-27 10:50:16
英语原文共 24 页,剩余内容已隐藏,支付完成后下载完整资料
基于主成分分析的多元回归预测set50指数
N. Sopipan1, W. Kanjanavajee 1 and P. Sattayatham
摘要
在本文中,我们使用多元回归预测SET50指数(泰国证券交易所上市公司的股票价格)。同时,我们考虑解释变量之间存在高相关性(多重共线性问题)。避免这个问题的方法之一是使用主成分分析(PCA)。在这项研究中,我们采用主成分分数(PC)在多元回归分析。可以看出,SET50的99.4%的变化可以由所有PCA解释。因此,我们使用三种模型预测2011年3月13日至2011年3月31日期间SET50指数收盘价。我们比较损失函数,所有PC解释的模型预测具有最小的所有损失函数。
关键词:预测,SET50指数,多元回归分析,主成分分析
1引言
所有股票市场共有的特征是不确定性,这与他们的短期和长期未来状态有关。这个特征对于投资者是不期望的,但是当选择股票市场作为投资工具时也是不可避免的。最好的办法是尽量减少这种不确定性。股票市场预测(或预测)是这一过程的工具之一。
有两种类型的预报,定性和定量方法。定性预测技术是主观的,基于消费者和专家的意见和判断,这在过去的数据不可用时是适当的。它通常应用于中长期决策(例如知情意见和判断,德尔菲法)。定量预测模型用于根据过去数据估计未来需求,这在过去数据可用时是适当的。它通常应用于短到中间范围的决定(例如时间序列方法,因果/经济计量预测方法)。时间序列发现股市跟随随机游走,这意味着你对未来价值的最好预测是今天的价值。另一种技术是因果模型,其建立独立变量和因变量之间的因果关系,即包括可以用于使用关于其他变量的信息来预测变量的未来值的大量方法的回归分析。这些方法包括参数(线性或非线性)和非参数技术。
在这项研究中,我们考虑多元回归分析,这用于表示响应变量对几个独立(预测变量)的依赖性中是最广泛使用的方法之一。 然而,尽管在许多应用中它的明显成功,但是当自变量彼此相关时,回归方法可能面临严重的困难(McAdams等人,(2000))。多重共线性或回归方程中的独立变量之间的高相关性可能使得难以正确地识别物理过程的最重要的贡献者。去除这种多重共线性和冗余独立变量的一种方法是使用多变量数据分析(MDA)技术。MDA已被用于分析大量环境数据(Buhr等人,(1992,1995); Chang等人,(1988); Sanchez等人,(1986); Statheropoulos等人,(1998))。
其中一种方法是主成分分析(PCA),已用于空气质量研究(maenhaut等人,(1989);Statheropoulos等人,(1998);Shi and Harrison(1997);tian等人,(1989);Vaidya等人,(2000))将相互关系分离成统计学上独立的基本成分。 它们在回归分析中同样有用,用于减轻多重共线性问题和探索独立变量之间的关系,特别是如果不清楚哪些变量应该是预测变量。 来自PCA的新变量变得理想地用作回归方程中的预测因子,因为它们优化空间模式并消除由多重共线性引起的可能的并发症。
在本文中,我们预测SET50指数(通过使用基于PCA的多元回归法,在泰国证券交易所上市的50家上市公司的股票价格);最后,我们比较一些模型的表现与其损失函数。在下一节我们给出多元回归模型和主成分分析,第3节给出了经验方法和模型估计,第4节给出了结论。
2模型
2.1回归模型
多元多元线性回归(MLR)试图通过对观察数据拟合线性方程来模拟两个或多个解释变量和响应变量之间的关系。 因变量(Y)由下式给出:
(1)
其中是解释性独立变量,是回归系数,并且是回归相关的误差,假定为期望值为零和方差恒定的正态分布,(JCM Pires等人,(2007))。
预测值的回归模型()的计算:
(2)
估计回归参数的最常用的方法是普通最小二乘估计法(OLS)。
多元线性回归是最常用的预测方法之一。 这种方法广泛用于拟合观测数据,并创建可用于在许多研究领域,如生物学,医学,心理学,经济学和环境中的预测的模型。 金融是一个研究领域,其中开发预测模型(例如对于泰国股市指数),其中选择输入数据的选择是重要的。 自然地,泰国股市具有独特的特征,因此影响在这个市场上交易的股票的价格的因素不同于影响其他股票市场的因素(Chaigusin等人,2008a)。
影响泰国股市的因素的例子有外国股票指数,泰国铢的价值,油价,黄金价格,多元线性回归和许多其他。一些研究人员使用这些因素来预测SET指数,包括Tantinakom(1996),他们使用交易价值,交易量,银行间隔夜利率,通货膨胀,投资的净交易价值,泰铢的价值,比率,道琼斯指数,恒生指数,日经指数,海峡时报工业指数和吉隆坡证券交易所综合指数。 Khumpoo(2000)使用道琼斯指数,黄金价格,恒生指数,日元和泰铢的汇率,多元线性回归,日经指数,油价,海峡时报工业指数和台湾加权指数。 Chotasiri(2004)使用泰国和美国的利率;美元,日元,港币和SKD的汇率;美国,日本,香港和新加坡的证券交易所指数;消费者价格指数和油价。 Chaereonkithuttakorn(2005)使用美国股票指数,包括纳斯达克指数,道琼斯指数和标准普尔500指数。 Rimcharoen et al。 (2005)使用道琼斯指数,日经指数,恒生指数,黄金价格和MLR。 Worasucheep(2007)使用了多元线性回归,泰国铢和美元的汇率,美国每日有效的联邦基金利率,道琼斯指数和石油价格。 Chaigusin et al。 (2008)使用道琼斯指数,日经指数,恒生指数,黄金价格,多元线性回归和泰铢和美元的汇率。 Phaisarn S.et al。 (2010)使用道琼斯指数,日经指数,恒生指数和多元线性回归。研究人员用来预测SET指数的常见因素总结在表1中。
表1:泰国证券交易所指数的影响因子
2.2主成分分析(PCA)
考虑一个随机变量与平均,表示转置, 和方差 。假设的秩为p和
(3)
是的p个特征值。
在主成分分析中,我们想找到,的不相关线性函数,使得方差考虑了中的大部分方差。此外,我们需要
。代数上,主分量是的特定线性组合。几何上,主分量表示通过旋转原始轴而获得的新坐标系 p新轴表示具有最大可变性的直线。
令为X的各个分量的权重的向量。
考虑此线性函数
(4)
我们的目标是找到,使是最大受制于条件。很明显,可以通过乘以一些常数增加。为了消除这种任意性,我们将我们的注意力限制在单位长度的系数向量。
此时,
因此,我们需要找到使
(5)
最大约束条件。
为了使最大化成为,标准方法是使用拉格朗日乘子的技术。 最大化,其中是拉格朗日乘数。
关于的区别给出
,或 (6)
其中是的单位矩阵。
因为,,只有当是奇异的,即如果
使得如果是的特征根,是其对应的归一化特征向量。
因此,是的一个特征值并且是其对应的特征向量。要决定的特征向量p使具有最大方差,注意量要达到最大值是
(由(6)),必须尽可能大。因此,对应于最大特征值的特征向量,并,最大特征值(由(3))。
一般来说,X的第k个主成分是和,其中,是的第k个最大特征值,是对应的特征向量。现在将证明k = 2; k=3的证明稍微更复杂,但非常相似。
第二个主成分,,最大化使与不相关,或等效地
其中表示随机变量x和y之间的协方差。
但是
因此,任何方程
可用于指定和之间的零相关性。 选择这些中的最后一个(任意选择),并且注意到归一化约束再次是必要的,要最大化的量是
其中,是拉格朗日乘子。关于的区别给出
并且在左边的这个方程乘以给出
其中,由于前两项为零,并且,减小到。
因此,,或等价地,所以再次是的特征值,并且是对应的特征向量。
再次,,所以应尽可能大。假设没有重复的特征值,不能等于。 如果是,那么,违反约束。 因此,是的第二大特征值,是对应的特征向量。
因此,第二主成分是方差为的
为了找到第k个主成分,,我们找到,使得是最大受条件和,。
可以得到方差为的,k=1,...m,其中是对应于的归一化特征向量。 显然,
通过频谱分解定理,我们可以写出,其中,。注意,一些可以是零。因此,中的总体方差为
由于
中的总体方差与中的总体方差相同。由第k个P.C.总方差的比例是。具有m个最大方差的第一个m P.C.为X的总方差比例。 因此,如果X中的总方差的大部分(80-90%)由前m个分量占据,则对于大的p,这些分量可以替换p个原始来解释变量和随后的分量之间的变化性。
2.3主成分多元回归
让和是定义为的p 1离散时间随机过程。让我们假设过程的并行演化是已知的,直到给定的时刻。 我们通过使用进程(输入进程)的附加信息来处理预测进程(输出进程)的问题。
如果它的过程有多重共线性,预测程序可以通过过程的PCA来执行。 因此,主成分模型的多元回归说明输出如何与输出过程的正交分解中的随机变量的输入值相关。
使用PCA模型的多元回归包括以类似于其通过主分量的正交分解的方式,将输出过程Y表示为输入过程的函数。由回归模型给出的预测值通过以下公式计算:
(7)
其中是X的PCA矩阵,是回归参数。
- 实证方法和模型估计结果
3.1数据
本研究中使用的数据集是因变量,它是SET50指数在时间t(50 SET t)的每日闭市价格,解释性独立变量是每日闭市价格因素之间的差额,包括:
SET50t-1:在时间t-1的泰国证券交易所指数。
FTSE:在时间t-1的伦敦证券交易所指数。
DAX:在时间t-1的法兰克福证券交易所指数。
DJIA:在时间t-1的道琼斯指数。
SP500:在时间t-1的S&P 500指数。
NIX:在时间t-1的日经指数。
HSKI:在时间t-1的恒生指数。
STI:在时间t - 1的海峡时报工业指数。
KLSE:在时间t-1时的吉隆坡证券交易所指数。
PSI:在时间t-1的菲律宾证券交易所指数。
JKSE:在时间t-1的雅加达综合指数。
KOPI:在时间t-1的韩国证券交易所(200)的指数。
USD:在时间t-1的泰铢的货币兑1美元。
JPY:在时间t-1的泰铢货币兑100日元。
HKD:在时间t - 1的泰铢兑香港货币的1美元。
SKD:在时间t-1的泰国铢的货币兑换新加坡的1美元。
GOLD:在时间t-1的黄金价格。
OIL:在时间t-1的油价。
所有数据在4/01/2007至30/03/2011期间(t=1,...,1038次观测值)。该数据集是从泰国证券交易所获得。数据集分为样本内(R = 1015个观测值)和样本外(n = 23个观测值)。
描述性统计和相关性在表2和表3中给出。从表3中可以看出,在因变量(SET50)和具有高显着性的解释变量(p lt;0.01)之间发现高相关系数。另外,在具有高显着性的解释变量(p lt;0.01)之间发现高相关系数,其显示存在多重共线性问题。
基于原始数据的多元回归分析还显示在表1中存在与方差膨胀因子(VIF)的多重共线性问题(VIFgt; = 5.0)。 一旦避免这个问题的方法是主成分分析。 因此,主成分分析已经基于十八个解释变量完成,主成分分析的总体结果分别显示在表3-5中。
表2:SET50指数和解释变量的描述性统计
表3:SET50指数和解释变量的相关矩阵
3.2主成分分析结果
首先,Bartlett的球形度测试的结果如表2所示。该测试针对所有相关性为零或用于测试零假设,其中相关矩阵是单位矩阵(M.Mendes,2009),其用于验证主成分分析。Bartlett球形测试SET70的值为50,246.096,这表明主成分分析适用于我们的数据集(P lt;0.0001)。总的来说,Kaiser对抽样充分性的度量也计算为0.882,这表明样本量足以应用主成分分析(KAISER,1960)。
表4:主成分因子的特征值
根
全文共10020字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[144393],资料为PDF文档或Word文档,PDF文档可免费转换为Word