新闻文本情绪对A股股票收益影响的实证研究毕业论文
2020-02-15 16:52:39
摘 要
本文借助文本情感分析技术,首先通过构建金融情感词典实现对新闻文本情绪的量化,其次通过事件分析法,针对不同市场走势下,研究带有情感色彩的新闻的发布与股票异常收益之间的关系,最后通过对股票异常收益进行回归,对新闻情绪和投资者情绪之间可能存在的交互作用进行探究。
本文研究发现,在市场不同走势的三个时期,新闻情绪与股票的异常收益显著相关,具体表现为积极的新闻文本会引起股票出现显著的超额收益,而消极的新闻文本则导致股票出现负向的异常收益。在不同时期内,由新闻本文情绪引起的股票异常收益的强度和持续时间表现出明显的差异,且新闻情绪和投资者情绪的交互作用对股票异常收益也表现出不同的影响。本文的发现可能对于提高股票市场的稳定性存在指导意义。
关键词:新闻情绪;文本情感分析;异常收益率;投资者情绪
Abstract
With the assist of text sentiment analysis technology, this paper firstly quantifies the sentiment of news texts by constructing a financial sentiment dictionary. Secondly, through the event analysis method, the paper studies the relationship between the release of news with emotional feeling and the abnormal returns of stock under different market trends. Finally, through the regression of stock abnormal returns, the paper explores possible interactions between news emotions and investor sentiment.
This paper finds that in the three periods of different market trend, news sentiment is significantly related to abnormal stock returns, a phenomenon reflected in the fact that positive news texts caused significant excess returns in stocks, while negative news texts led to negative stocks abnormal returns. In different periods, the intensity and duration of stock abnormal returns caused by the mood of the news article showed significant differences, and the interaction between news emotions and investor sentiment also had different effects on abnormal stock returns. The findings of this paper may have guide roles in improving the stability of the stock market.
Key Words:news sentiment;text sentiment analysis technology;abnormal returns;investor sentiment
目 录
第1章 绪论 1
1.1 研究背景与意义 1
1.2 国内外研究动态 1
1.2.1 国外研究现状 1
1.2.2 国内研究现状 2
1.2.3 研究现状小结 2
1.3 研究方法与框架 3
1.3.1 研究方法 3
1.3.2 研究思路 3
第2章 理论基础与技术 4
2.1 理论基础 4
2.1.1 投资者认知偏差 4
2.1.2 新闻媒体效应 4
2.2 文本情感分析技术 5
第3章 样本和数据 7
3.1 样本选取 7
3.1.1 时间段的选取 7
3.1.1 新闻文本数据 8
3.1.1 股票交易数据 8
3.2 对新闻样本的处理 9
3.2.1 新闻筛选 9
3.2.2 文本处理 10
第4章 实证分析 11
4.1 新闻文本情绪对股票收益的影响分析 11
4.1.1 事件分析法 11
4.1.2 实证结果与分析 11
4.2 新闻文本情绪影响股票收益的路径分析 14
4.2.1 模型构建 14
4.2.2 实证结果与分析 15
第5章 结论与展望 17
参考文献 18
致谢 19
第1章 绪论
1.1 研究背景与意义
信息在资产定价的过程中起着至关重要的作用。随着网络时代信息的自由流动和无障碍化传播,财经新闻作为投资者获取市场资讯、制定投资决策的重要信息来源,理应作为中性的传声筒,承担起公正、客观报道市场事件的责任。然而出于对市场流量的抢夺和自身利益的追逐,媒体在发布新闻时,会通过改变事实陈述方式和措辞、给新闻加上感情色彩来获取投资者的注意力,影响其思考方式和投资行为[1]。Shiller(2009)认为,新闻媒体本身也是市场事件中不可或缺的一部分,它将市场中某些群体的想法加以宣传,造成市场更强烈的反馈,最终可能导致市场价格的不稳定。
根据上交所2018年发布的统计年鉴,年内沪市交易总额的八成是由持股仅占市值二成的个人投资者完成的。此外,由于我国的个人投资者有明显的“炒小、炒新”倾向,而沪深两市相比,深市中小规模上市公司比例更高,因此可以以上交所的投资者交易行为为样本对A股整体的投资者行为进行分析。该统计数据说明当前我国A股市场个股波动的真正推手仍然为个人投资者。由于大多数个人投资者难以通过实地调研、公司访谈等专业的手法获得投资所需信息,新闻报道往往是其做出投资决策的唯一信息支持。游家兴(2008)通过实证探究我国股市中机构和个人两类投资者的对市场信息的反馈情况,发现短期内(1至12周)个人投资者有较强的反应过度,以至整个市场产生非理性过度反应的状态[2]。在这种背景下,将新闻报道及其反映的情绪信息纳入股票的收益分析框架有其研究意义。
1.2 国内外研究动态
1.2.1国外研究现状
已经有许多国外学者证明新闻报道对股票价格和收益模式有显著影响,具体又可分为新闻发布效应和新闻内容效应。仅从新闻发布这一行为进行研究,Chan(2003)对比有新闻发布和没有新闻发布的股票,发现二者表现出不同的收益模式,新闻发布后股票表现出持续的股价漂移[3];Kerl ,Schürg和Walter(2014)研究则发现,在新闻发布当天,目标股票会表现出显著的异常收益和交易量,证明了新闻发布会给股票市场带来影响[4]。在新闻内容方面,Tetlock(2007)较早开始挖掘新闻所包含的文本信息。Tetlock对《华尔街日报》中专栏内容的词汇进行情感分类,通过简单统计词频的方式构建了一个媒体因子,发现这个因子与悲观词汇高度相关。在建立模型进行回归后,发现该因子能够显著预测股票收益和交易量的变化。具体表现为,消极的新闻媒体情绪会给股价带来下行压力,悲观值表现异常(极高或极低)都会导致短期内股票交易量大幅增加[5]。Borovkova和Svetlana(2015)利用Thomson Reuters News Analytics(TRNA)数据库中每则新闻的情感得分建立新闻情感因子,研究市场层面新闻和针对特定股票的新闻对股票异常收益的影响,发现市场层面新闻的情感取向与股票的异常收益不显著相关,个股新闻与股票的异常收益呈显著正相关,而市场新闻与个股新闻的交互作用对股票的异常收益有显著的负面影响[6]。Heston和Sinha(2016)则以周为单位对新闻情绪进行整合,发现新闻对股票收益的可预测性可长达一个季度[7]。Kräussl,Roman和Mirgorodskaya(2017)以月为时间跨度,按新闻标题和首段中出现情感词汇情况将新闻分为悲观和乐观,构建了月度媒体情绪指标,发现新闻媒体效应会对宏观金融市场的表现和市场情绪产生长期影响,在消极的媒体情绪下,投资者对经济前景的预期较为悲观,从而使用消极的投资决策,增加了市场的不确定性,对市场产生下行压力[8]。
1.2.2国内研究现状
国内在新闻报道对股票收益影响这方面的研究起步较晚。研究初期,部分学者从媒体关注度角度入手,以新闻报道的数量、篇幅长度等衡量媒体关注度的程度,以此来探究新闻与股票收益、股票成交量的相关性[9]。借助传播学中的理论,游家兴和吴静(2012)最先从媒体情绪的角度探究新闻媒体在资产误定价中扮演的角色,发现新闻中的乐观和悲观情绪会推高资产误定价程度[1]。随着研究深入,有学者开始将新闻文本中包含的情感信息提取为数值信息,以此建立的回归模型被证明是研究媒体情绪与股票表现之间关系的有效方法。李正辉,粟亚亚等(2018)把媒体关注度、媒体情感以及二者的交互作用纳入回归模型,发现三者都对金融资产价格波动产生显著影响[10]。自然语言处理技术在金融学领域的应用为国内学者研究新闻文本对股票的影响提供了新的思路。赵丽丽,赵茜倩等(2012)将文本挖掘技术和支持向量回归技术运用到这个领域,将新闻本文量化为多元回归模型中的一个变量,探究新闻发布对深沪两市的影响深度和持续时间[11]。张昊(2016)采用主题模型生成不同主题的财经新闻的情感倾向指数,运用事件研究法探究对应不同主题的新闻的情感对股票板块指数的影响[12]。孟雪井,杨亚飞等(2016)通过文本挖掘得到财经新闻的主要关键词,发现利用其中与股指收益变动有关的主要词汇可以构建能带来超过指数收益的投资策略[13]。刘海飞和许金涛(2017)通过文本分类技术识别新闻文本的异质性对网络财经新闻进行分类,研究由此得到的各类新闻对股市的影响力度和持续期[14]。
1.2.3研究现状小结
已有文献多选取某一完整时间段,而较少考虑市场不同氛围下新闻影响的差异性;多研究新闻信息发布对股票价格、成交量波动的影响,而较少考虑新闻文本情绪对市场的影响路径。本文将根据股市整体走势的不同划分为不同的三个时期,研究新闻情绪对每个时期的股票收益的影响及差异性,并从投资者情绪与新闻情绪的相互作用角度出发,研究新闻文本情绪对股票收益的影响路径,以期为提高金融市场的稳定提供更有针对性的建议。
1.3 研究方法与框架
1.3.1研究方法
在技术层面上,本文将借助自然语言处理技术对收集的证券市场的新闻语料进行处理,实现对非结构化的新闻文本信息的量化。
在研究分析层面上,本文将使用事件研究法和回归分析法,定性定量相结合来研究新闻情绪对A股股票收益的影响。
1.3.2研究思路
本文将分五章展开对问题的研究。
第一章为绪论。本章主要对研究背景和国内外的研究现状进行梳理和归纳,最后概括了本文研究的方法和架构。
第二章为理论基础和技术介绍。首先,本章论述了行为金融学中会导致投资者行为非理性的关键理论作为本文的理论依据,并对其与所研究问题间的联系进行梳理;其次,本章对文本情感分析技术及其在金融领域的应用进行了介绍。
第三章为数据和模型。本章将对样本选择依据、数据来源、数据整理思路做一说明,并对模型变量做出详细说明。
第四章为实证。本章实证研究了新闻文本情绪对股票表现的影响,并从投资者情绪和新闻情绪相互反馈的角度,进一步探究这种影响的传导路径。
第五章为结论。本章对本文的研究发现、研究过程中存在的不足和困难做一总结,并对未来的进一步研究进行展望。
第2章 理论基础和技术
2.1理论基础
2.1.1投资者认知偏差
以有效市场假说为代表的传统金融理论假定,投资者都是理性的,他们严格地以基本面分析的结论、公司的经营前景作为评判股票价格的依据,谨慎地对风险和收益进行权衡后做出投资决策。因而在这一过程中,股票价格体现出理性的供需平衡,表现为无套利价格。然而不断深入的金融实证发现,真实市场存在着许多相悖于有效市场理论的“异象”,如日历效应、动量效应、股权风险溢价之谜等,传统金融学无法对此做出有力的推论。学者们转而放松了理性人假设,开始关注人的心理、认知和社会因素如何引导决策的形成,尝试借助心理学、社会学的研究成果对金融问题进行解答,行为金融学也由此而生。
相比以理性人假设为理论基础的传统金融学,行为金融学认为个体投资者的理性是有限的,每个投资者都存在不同程度的认知偏差,且由于社会化对个体的不同影响,投资者表现出不同的决策和选择偏好。这种观点更符合实际情况,在各国金融市场上的实证分析也证实了行为金融学理论解释金融问题的合理性。目前行为金融学中认为会导致投资者认知偏差的理论主要有启发式、框架效应、禀赋效应、过度自信、现状依赖、损失厌恶等,其中启发式又包括锚定和调整、可得性依赖和代表性偏差。
在本文的研究层面上,由于个人认知的局限,投资者对客观事实的解读和评价会受到新闻媒体的语气、措辞和叙述重点的影响,从而在新闻给定“框架”的引导下做出可能扭曲定价机制的决策行为,即对新闻信息的框架依赖效应会导致投资者的决策行为偏差。具体来说,新闻媒体乐观情绪的渲染,可能使得投资者对股票交易产生过高的热度,从而导致股票持续溢价;而新闻的消极情绪会挫伤投资者的投资信心,从而导致股市低迷和价格低估。已有学者对此进行了实证研究。游家兴和郑建鑫通过探究新闻媒体情绪在IPO抑价、IPO长期弱势等异象中扮演的角色,发现新闻情绪的乐观程度与新股抑价程度、IPO后续长期弱势表现的显著性均表现出正相关,从框架效应的角度证实了考虑新闻情绪对投资者决策的影响的合理性[15]。
2.1.2新闻媒体效应
根据以往学者的研究来看,金融市场中的新闻媒体对股票的收益存在这样一种效应——在不对新闻情感极性进行区分的情况下,受到广泛新闻报道的股票的收益明显低于没有新闻的股票[16]。目前学者们对这一新闻媒体效应主要有以下几类解释:
(1)流动性不足假说。这一假说认为,股票受到新闻报道的收益偏低源于未被新闻报道的股票的流动性不足,即后者的较高收益是对股票交易中由流动性不足导致的交易障碍的补偿。Fang和Peress(2009)研究发现,新闻效应在流动性较差的股票中表现更加显著,证明了这一交易障碍补偿的存在[17]。
(2)风险补偿假说。这一假说从投资者认知的视角出发,主要讨论了金融市场上存在的信息风险,认为由于投资者对无新闻覆盖的股票的关注度和认知度较低,这类股票便存在较高的异质性风险,因此需要提供一定的溢价作为对高风险的补偿。
(3)过度关注弱势假说。这一假说与投资者有限注意力理论相关,认为投资者会过度关注新闻曝光度高的股票,并在这种过度关注的驱动下产生较为强烈的购买意愿,推动股价上涨,但之后将表现出价格反转,即新闻报道的股票的较低收益其实是股价回归基础价值的过程。张雅慧和万迪昉等研究了能引起投资者关注的富豪榜上榜新闻对相应公司股票收益的影响,其结果支持了过度关注弱势假说[16]。
2.2文本情感分析技术
文本情感分析是自然语言处理(NLP)领域的一个分支,是对带有主观感情色彩的文本进行情感判断、观点提取的过程。web2.0时代的到来使诸如微博评论、网络论坛、在线影评等富有强烈情感色彩的主观性文本的规模呈现爆发式增长,这为文本情感分析技术应用创造了广阔的发挥空间;而伴随互联网上主观文本的增长又诞生了对此类文本数据的管理问题,以及社会信息部门借此掌握舆情走势、跟踪社会动态的需求,文本情感分析技术逐渐成为NLP领域的最热门的研究之一。随着研究的不断深入,文本情感分析技术已在舆情监控、商业决策、观点搜索、信息预测、情绪管理等众多领域的表现出极高的应用价值[18]。目前,文本情感分析的实现方法主要有两种,即基于规则的算法和基于机器学习的算法。本文研究采用的是基于规则的文本情感分析方法。
在基于规则的文本情感分析研究中,建立一个适当的情感词典是保证文本分析质量的重要基础。传统的情感词典通常包括正负极性词语、程度级别词语等几个部分,然后将利用构建好的词典对文本进行字符串匹配,可以实现对大多数文本的情感倾向、情绪强度的判断。
目前应用较为广泛的基于中文的情感词典有知网HowNet情感词典和台湾大学的中文情感极性词典NTUSD等,但此类词典作为通用词典往往不能准确捕捉专业领域术语及业界“黑话”所包含的情感信息,因此还需在此基础上针对各个领域做相应词汇的补充。在金融领域情感词典的相关应用上,汪昌云和武佳薇基于《现代汉语词典》、《汉英经济金融常用术语使用手册》和成熟的英文金融词典的中文翻译,构建了中文财经媒体正负面词汇,并将其应用到媒体语气对IPO抑价问题的研究上[19];于琴和张兵等在HowNet、NTUSD的基础上引入《高盛金融词典》、《路透金融词典》和《新华08汉英金融词典》中的金融领域词汇构建了金融情感词典,借此实现了新闻情绪的量化[20]。
第3章 样本和数据
3.1样本选取
3.1.1时间段的确定
本文的数据分为两类,一是股票市场新闻文本,二是股票市场交易数据。考虑到股票市场整体环境对个股表现的影响,本文将选取大盘走势不同的三个时期,即上行期、下行期和横盘期。
(1)上行期选取的时间范围是2019年1月2日至2019年4月17日。这一期间市场正迎来一年熊市后的复苏期,上证指数由2465.29点涨至3263.12点,涨幅32.4%。期间内,短中长期均线逐渐呈现出典型的多头排列。
图3.1上行期市场指数走势
(2)下行期选取的时间范围是2018年01月22日至2018年10月26日。这期间市场单边下跌,上证指数从3501.36点跌至2598.85点,跌幅25.8%。期间内,短中长期均线逐渐走成典型的空头排列。