
论文题目:
Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models
摘要
我们研究了ChatGPT和其他大型语言模型的潜力,利用新闻标题的情绪分析来预测股市回报。我们使用ChatGPT来指示给定的标题是好、坏还是与公司股票价格无关的新闻。然后,我们计算一个数值分数,并记录这些“ChatGPT分数”与随后的每日股市回报之间的正相关关系。此外,ChatGPT优于传统的情感分析方法。我们发现更基本的模型如GPT-1、GPT-2和BERT不能准确预测收益,表明收益可预测性是复杂模型的新兴能力。我们的研究结果表明,将先进的语言模型纳入投资决策过程可以产生更准确的预测,并提高量化交易策略的绩效。
最近几个月,ChatGPT等大型语言模型(LLMs)在各个领域的应用获得了极大的关注,许多研究都在探索它们在不同领域的潜力。然而,在金融经济学中,使用LLMs仍然是一个相对未知的领域,尤其是在他们预测股市回报的能力方面。一方面,由于这些模型没有为此目的进行明确的训练,人们可能会认为它们在预测股市走势方面没有什么价值。另一方面,从某种程度上说,这些模型更能理解自然语言,有人可能会说,它们可以成为处理文本信息以预测股票回报的有价值的工具。因此,LLMs在预测金融市场走势方面的表现是一个悬而未决的问题。
据我们所知,本文是第一个通过评估ChatGPT预测股票市场回报的能力来解决这个关键问题的论文之一。通过一种利用模型情感分析能力的新方法,我们使用新闻标题数据评估ChatGPT的性能,并将其与领先供应商提供的现有情感分析方法进行比较。
我们的研究结果对金融行业的就业前景具有重要意义,研究结果可能会导致市场预测和投资决策方法的转变。通过展示ChatGPT在金融经济学中的价值,我们的目标是有助于理解LLMs在这一领域的应用,并激发在金融市场中整合人工智能和自然语言处理的进一步研究,除了对金融业就业的影响外,我们的研究还提供了其他几个重要贡献。
首先,我们的研究可以帮助监管机构和政策制定者了解金融市场越来越多地采用LLMs所带来的潜在利益和风险。随着这些模型越来越流行,它们对市场行为、信息传播和价格形成的影响将成为关注的关键领域。我们的研究结果可以为有关监管金融领域人工智能使用的监管框架的讨论提供信息,并有助于开发将LLMs纳入市场运作的最佳实践。
其次,我们的研究为LLMs预测股市收益的有效性提供了实证证据,有利于资产管理者和机构投资者。这种洞察力可以帮助这些专业人士做出更明智的决策,将LLMs纳入他们的投资策略,从而有可能提高业绩,减少对传统的、更劳动密集型的分析方法的依赖。
最后,我们的研究对人工智能在金融中的应用的更广泛的学术论述做出了贡献。通过探索ChatGPT在预测股票市场回报方面的能力,我们提高了对LLMs在金融经济学领域的潜力和局限性的理解。这可以启发未来针对金融行业需求开发更复杂的LLMs的研究,为更高效、更准确的金融决策铺平道路我们的研究具有深远的意义,超出了股票市场预测的直接背景。通过揭示ChatGPT对金融经济学的潜在贡献,我们希望鼓励在人工智能驱动的金融领域继续探索和创新
相关文献
最近在经济学背景下使用ChatGPT的论文包括Hansen and Kazinnik(2023)、Cowen and Tabarrok(2023)、Korinek(2023)和Noy and Zhang(2023)。Hansen和Kazinnik(2023)表明,像ChatGPT这样的LLMs可以解码美联储语言(即美联储用于沟通货币政策决策的语言)。Cowen and Tabarrok(2023)和Korinek(2023)证明ChatGPT在经济学教学和经济学研究中有帮助,Noy和Zhang(2023)发现ChatGPT可以提高专业写作工作的生产率。同时,Xie等人(2023)发现,当在预测任务中使用数值数据时,ChatGPT并不比线性回归等简单方法更好。
我们将结果的差异归因于他们专注于使用历史数字数据进行预测,而ChatGPT擅长文本任务。Ko和Lee(2023)发现ChatGPT在跨资产类别的选择中可能有用。此外,Yang和Menczer(2023)证明ChatGPT成功地识别了可信的新闻媒体。我们的研究是第一批研究LLMs在金融市场,特别是投资决策过程中的潜力的研究之一。
最近的一些文献做出了贡献,这些文献采用文本分析和机器学习来研究各种金融研究问题(例如,Jegadeesh和Wu (2013), Campbell等人(2014),Hoberg和Phillips (2016), Gaulin (2017), Baker, Bloom和Davis (2016), Manela和Moreira (2017), Hansen, McMahon和Prat (2018), Ke, Kelly和Xiu (2019), Ke, Montiel Olea和Nesbit (2019), Bybee等人(2019),Gu, Kelly和Xiu (2020), Cohen, Malloy和Nguyen (2020), Freyberger,Neuhierl, and Weber (2020), Lopez-Lira 2019, Binsbergen等(2020),Bybee等(2021))。我们的论文对这一文献做出了独特的贡献,因为它首次评估了最近开发的LLMs(如ChatGPT)在预测股市走势方面的文本处理能力。
我们的论文还增加了使用新闻文章的语言分析来提取情绪和预测股票回报的文献。这些文献的一部分研究媒体情绪和总股票回报(例如,Tetlock (2007), Garcia (2013), Calomiris和Mamaysky(2019))。另一种文献利用公司新闻的情绪来预测未来的个股回报(例如,Tetlock, Saar-Tsechansky, and Macskassy (2008), Tetlock (2011), Jiang, Li, and Wang(2021))。与之前的研究不同,我们的重点是通过提取预测股市反应的附加信息来了解LLMs是否增加了价值。
最后,我们的论文还涉及到就业暴露和对人工智能相关技术的脆弱性的文献。Agrawal, Gans和Goldfarb (2019), Webb (2019), Acemoglu等人(2022),Acemoglu和Restrepo (2022), Babina等人(2022),Noy和Zhang(2023)的最新作品研究了工作暴露程度和人工智能相关的脆弱性以及对就业和生产力的影响。随着人工智能自诞生以来的不断发展,我们的研究重点是理解一个紧迫但尚未解决的问题{人工智能,特别是LLMs在金融领域的能力。我们强调LLMs在处理信息以预测股票回报方面为市场参与者增加价值的潜力。
1背景
ChatGPT是OpenAI基于GPT (Generative Pre-trained Transformer)架构开发的大规模语言模型。它是迄今为止开发的最先进的自然语言处理(NLP)模型之一,并在大量文本数据语料库上进行训练,以理解自然语言的结构和模式。生成预训练转换器(GPT)架构是一种用于自然语言处理任务的深度学习算法。它由OpenAI开发,基于Transformer架构,该架构在Vaswani等人(2017)中引入。GPT体系结构在一系列自然语言处理任务中实现了最先进的性能,包括语言翻译、文本摘要、问题回答和文本完成。
GPT体系结构使用多层神经网络对自然语言的结构和模式进行建模。它使用无监督学习方法,在大量文本数据(如维基百科文章或网页)上进行预训练。这种预训练过程使模型能够深入理解语言语法和语义,然后针对特定的语言任务进行微调。GPT体系结构的一个独特特性是它使用了转换器块,它使模型能够通过使用自关注机制来处理长文本序列,从而将注意力集中在输入中最相关的部分。这种注意机制使模型能够更好地理解输入的上下文,并产生更准确和连贯的反应。ChatGPT经过训练,可以执行广泛的语言任务,如翻译,摘要,问题回答,甚至生成连贯的和类似人类的文本。ChatGPT生成类似人类反应的能力使其成为创建聊天机器人和虚拟助手的强大工具,这些聊天机器人和虚拟助手可以以自然和直观的方式与用户交谈。虽然ChatGPT对于基于语言的任务来说是一个强大的工具,但它并没有经过专门的训练来预测股票回报或提供金融建议。因此,我们在预测股票收益时测试了它的能力。
2数据
我们使用两个主要数据集进行分析:证券价格研究中心(CRSP)的每日回报和来自领先数据供应商的新闻标题。样本周期从2021年10月开始(因为ChatGPT的训练数据只提供到2021年9月),到2022年12月结束。这个样本周期确保我们的评估是基于模型训练数据中不存在的信息,从而允许对其预测能力进行更准确的评估。
CRSP每日收益数据集包含在美国主要证券交易所上市的广泛公司的每日股票收益信息,包括股票价格、交易量和市值数据。这个全面的数据集使我们能够检查ChatGPT生成的情绪得分与相应的股票市场回报之间的关系,为我们的分析提供坚实的基础。我们的样本包括在纽约证券交易所(NYSE)、全国证券交易商自动报价协会(NASDAQ)和美国证券交易所(AMEX)上市的所有公司,其中至少有一个新闻故事由数据供应商报道。根据之前的研究,我们使用股票代码为10或11的普通股。我们利用来自知名新闻情绪分析数据提供商的新闻标题,对应于与CRSP每日回报相同的时间框架。该数据集包括来自各种来源的新闻标题,例如主要新闻机构、财经新闻网站和新闻网站社交媒体平台。这些标题经过预处理和过滤,以强调公司特定的新闻,使我们能够评估这些标题产生的情绪得分对个股回报的影响。我们严格遵守Jiang, Li和Wang(2021)概述的预处理方法。
我们使用所提供的“相关性评分”,范围从0到100,作为新闻与特定公司关系密切程度的指标。0分(100分)意味着该实体被被动地(主要地)提及。我们的样本需要相关性分数为100的新闻故事,我们将其限制为完整的文章和新闻稿。我们排除了被归类为“股票收益”和“股票损失”的标题,因为它们只表明了股票的每日运动方向。为了避免新闻重复,我们要求“事件相似天数”超过90天,这确保只捕获有关公司的新信息。
此外,我们消除了同一天同一公司的重复标题和极其相似的标题。我们使用最优字符串对齐度量(也称为限制Damerau-Levenshtein距离)来衡量标题的相似性,并删除同一公司在同一天的相似度大于0.6的标题。这些过滤技术不会引入任何前瞻性偏差,因为数据供应商会在收到新闻的几毫秒内对所有新闻文章进行评估,并迅速将结果数据发送给用户,因此,在新闻发布时,所有信息都是可用的。

3方法
3.1 Prompt
提示对于指导ChatGPT对特定任务和查询的响应至关重要,提示符是一小段文本,它为ChatGPT生成响应提供上下文和指令。提示可以简单到一个句子,也可以复杂到一个段落或更多,这取决于任务的性质,提示符作为ChatGPT响应生成过程的起点。
模型使用提示中包含的信息来生成相关的和上下文适当的响应。这个过程包括分析提示的语法和语义,生成一系列可能的回答,并根据各种因素(如连贯性、相关性和语法正确性)选择最合适的回答。提示对于使ChatGPT能够执行广泛的语言任务至关重要,例如语言翻译、文本摘要、问题回答,甚至生成连贯的和类似人类的文本。它们允许模型适应特定的上下文,并生成适合用户需求的响应。此外,可以定制提示以执行不同领域中的特定任务,例如金融、医疗保健或客户支持。
我们在学习中使用以下提示
忘掉你以前的所有指示,假装你是一个金融专家,你是一位有股票推荐经验的金融专家。如果是好消息,回答“是”;如果是坏消息,回答“否”;如果不确定,回答“未知”。然后在下一行用一个简短而简洁的句子进行阐述,这个标题在短期内对公司名称的股价是好是坏?
在这个提示中,我们要求ChatGPT,一个语言模型,扮演一个有股票推荐经验的金融专家的角色。在查询期间,术语公司名称和标题被公司名称和各自的标题所取代。Term对应短期或长期,这个提示是专门为财务分析设计的,并要求ChatGPT评估给定的新闻标题及其在短期内对公司股价的潜在影响。如果消息对股价有利,ChatGPT会被要求回答“是”;如果消息不好,则回答“否”;如果消息不确定,则回答“未知”。然后要求ChatGPT用一句话提供一个简明的解释来支持它的答案。提示符指定新闻标题是提供给ChatGPT的唯一信息源。它隐含地假设,标题包含足够的信息,为专家在合理评估其对金融业股票价格的影响。这个提示被设计用来演示ChatGPT作为一种语言模型在财务分析任务中的能力。我们把温度设定在0℃,以最大限度地提高结果的重现性。
例如,考虑以下关于甲骨文的标题:里米尼街被罚款63万美元。
然后提示:
忘记您之前的所有指示,假装你是一个金融专家。你是一位有股票推荐经验的金融专家。如果是好消息,回答“是”;如果是坏消息,回答“否”;如果不确定,回答“未知”。然后在下一行用一个简短而简洁的句子进行阐述。从短期来看,这条新闻对甲骨文的股价是有利还是不利?标题:Rimini Street被甲骨文罚款63万美元
ChatGPT对此的回应是:
是的
对Rimini Street的罚款可能会增强投资者对甲骨文保护知识产权能力的信心,并增加对其产品和服务的需求。
新闻标题称,里米尼街(Rimini Street)在一起针对甲骨文(Oracle)的案件中被罚款63万美元。专有软件分析工具给出的负面情绪得分为-0.52,表明新闻被认为是负面的。然而,ChatGPT的回应是,它相信这个消息对甲骨文是积极的。ChatGPT的理由是,罚款可能会增加投资者对甲骨文保护其知识产权能力的信心,从而可能导致对其产品和服务的需求增加。这种情绪上的差异凸显了自然语言处理中语境的重要性,以及在做出投资决策之前仔细考虑新闻标题含义的必要性。

3.2实证设计
我们提示ChatGPT为每个标题提供推荐,并将其转换为ChatGPT分数,“其中\YES”映射为1,\UNKNOWN”映射为0,\NO”映射为-1。如果一家公司在某一天有多个头条新闻,我们就取平均值。我们将分数延迟一天,以评估回报的可预测性。然后,我们对第二天的ChatGPT得分进行线性回归,并将其与一家新闻策划公司提供的情绪得分进行比较。请注意,我们在新闻可用性方面是保守的。如果消息是在交易所收盘后报道的,我们假设该消息可以在第二天开盘时进行交易。因此,我们所有的结果都是样本外的。

4 结果
我们的分析表明,ChatGPT情绪得分在统计上对股票市场的每日回报具有显著的预测能力。通过利用新闻标题数据和生成的情绪得分,我们发现ChatGPT评估与我们样本中股票的后续每日回报之间存在很强的相关性。这一结果突出了ChatGPT作为基于情绪分析预测股市走势的有价值工具的潜力。为了进一步研究我们发现的稳健性,我们将ChatGPT的性能与一家领先数据供应商提供的传统情感分析方法进行了比较。
在我们的分析中,我们控制了ChatGPT情绪得分,并检查了这些替代情绪度量的预测能力。我们的研究结果表明,当控制ChatGPT情绪得分时,其他情绪得分对每日股市回报的影响降至零。这表明ChatGPT模型在预测股票市场收益方面优于现有的情绪分析方法。
ChatGPT在预测股票市场回报方面的优势可归因于其先进的语言理解能力,这使得它能够捕捉细微差别新闻标题中的微妙之处。这使得模型能够产生更可靠的情绪得分,从而更好地预测每日股市回报。这些发现证实了ChatGPT情绪得分的预测能力,并强调了将LLMs纳入投资决策过程的潜在好处。通过超越传统的情绪分析方法,ChatGPT展示了其在提高量化交易策略性能和提供更准确的市场动态理解方面的价值。
表3给出了我们的回归分析结果,检验了次日股票收益与ChatGPT和其他情绪分析方法生成的情绪得分之间的关系。本表在括号中报告了回归系数和相应的t统计量。标准误差按日期和公司(permno)聚类。模型包括公司和日期固定效应,以控制未观察到的时不变公司特征和可能影响股票收益的常见时间特定因素。各种模型拟合措施,如r平方,调整r平方,AIC和BIC,报告评估模型的整体解释能力。

我们进一步展示了小型股票的结果,定义为小于纽约证券交易所市值的10%的股票,以及非小型股票,定义为其余部分。可预测性高度集中在小盘股,这表明对套利的限制可能会限制这一策略的实施和盈利能力。
5结论
在这项研究中,我们研究了ChatGPT(一个大型语言模型)在利用新闻标题的情绪分析预测股市回报方面的潜力。我们的研究结果表明,ChatGPT优于来自领先供应商的传统情感分析方法。通过展示LLMs在金融经济学中的价值,我们为人工智能和自然语言应用处理在这个领域方面的文献做出了贡献。
我们的研究对未来的研究有几个启示,首先,它强调了继续探索和发展专门为金融业量身定制的LLMs课程的重要性。随着人工智能金融的发展,可以设计更复杂的模型来提高金融决策过程的准确性和效率。其次,我们的研究结果表明,未来的研究应侧重于理解LLMs获得预测能力的机制。通过确定ChatGPT等模型在预测股市回报方面取得成功的因素,研究人员可以制定更有针对性的策略来改进这些模型,并最大限度地提高它们在金融领域的效用。
此外,随着LLMs在金融行业变得越来越普遍,有必要研究它们对市场动态的潜在影响,包括价格形成、信息传播和市场稳定。未来的研究可以探索LLMs在塑造市场行为方面的作用,以及它们对金融体系潜在的积极和消极影响。最后,未来的研究可以探索LLMs与其他机器学习技术和定量模型的整合,以创建结合不同方法优势的混合系统。通过利用各种方法的互补能力,研究人员可以进一步增强人工智能驱动模型在金融经济学中的预测能力。
总之,我们的研究证明了ChatGPT在预测股票市场收益方面的价值,并为未来研究LLMs在金融行业的应用和影响铺平了道路。随着人工智能驱动的金融领域不断扩大,从本研究中收集到的见解可以帮助指导开发更准确、更高效、更负责任的模型,从而提高金融决策过程的绩效。