用于生成计算材料科学文献中使用的方法和参数的数据库的自动化工具外文翻译资料

2022-08-03 11:28:35

英语原文共 12 页，剩余内容已隐藏，支付完成后下载完整资料

Computational Materials Science 192 (2021) 110325

Contents lists available at ScienceDirect

Computational Materials Science

journal homepage: www.elsevier.com/locate/commatsci

MatScIE: 用于生成计算材料科学文献中使用的方法和参数的数据库的自动化工具

Souradip Guha^a,1, Ankan Mullick^a,1, Jatin Agrawal^a, Swetarekha Ram^b, Samir Ghui^a, Seung-Cheol Lee^b,*, Satadeep Bhattacharjee^b,*, Pawan Goyal^a,*

^a印度理工学院, 哈拉格布尔, 印度^b印韩科技, 印度

文章信息摘要

关键词:

序列标记

信息提取

材料科学文章

材料科学领域的已发表文章数量每年都在迅速增长。这个比较而言相对非结构化的包含大量信息的数据源在其复用性存在必须手动提取进行进一步计算所需信息的缺点。从在线（离线）数据中获取有效的和上下文相关的信息非常重要，因为这些信息不仅可以生成用于进一步计算的输入，还可以将它们合并到查询框架。优先考虑这种情况，我们开发了自动化工具MatScIE（材料科学信息提取器）可以从材料科学文献中提取相关信息并构建更易于用于材料仿真的结构化数据库。具体来说，我们提取各种研究文章中的材料细节，方法，代码，参数和结构。最后，我们创建了一个Web应用程序，用户可以在其中上传已发布的文章并查看/下载从中获得的信息并可以创建自己的数据库供个人使用。

1. 介绍

当前，大多数材料科学发现和信息在许多发表的文章中都以非结构化格式存储。典型的文章包含有关所研究材料的信息，使用的方法，研究中使用的计算软件，模拟参数，最后是研究结果。要是我们考虑我们要查询方法和参数的情况在已发表的材料科学论文中讨论过的参数，没有简单自动地有效过滤和完善此信息的强大方法。手动浏览论文并找出使用的方法是一项低效而繁琐的任务。潜在的解决方案可以建立一个可以自动提取来自任何已发表的文章的提及方法的系统。

为了解决这些问题，我们介绍了材料科学信息提取程序（MatScIE），能够从发布文章提取有关的材料，代码，参数，方法和结构，以及提供主要研究发现的摘要。在信息提取领域使用机器学习和深度学习技术已经有了重要发展。一个非常具体且广泛使用的工作是命名实体识别（NER），可根据预定的类别或类别对文本中的命名实体进行分类（提取）。它接受标记序列作为输入，并标识输入序列中属于预定类别之一的跨度。在我们的用例中，我们尝试提取属于这五个类别其中一项的材料科学研究文章中的文本跨度：材料，代码，参数，方法，结构。这让我们能够使NER框架适应我们的任务。

用于NER任务的流行NLP方法基于深度学习的最新进展 [1] 。训练深度学习模型的重要要求是适当（且大）注释的可用性数据。我们通过标记文本跨度分为五个类别使用214种材料科学文章创建了一个适度的带注释的数据集。

在第一部分中，我们训练了监督数据的标准顺序模型以预测标签。我们利用了在材料科学领域中经过预训练的词嵌入。在第二部分中，我们将噪声注入训练数据集中以提高模型的稳定性。由于在文本数据集中注入噪声至关重要，因此我们使用了重标记和模仿模型开发了一种新颖的过程。Relabeling模型具有较高的召回率，我们使用该模型在数据集中注入噪声，我们改变了注入的噪声量，并获得了与注入的噪声量不同有关的结果。为了从已发表的文章中获得简短的摘要级别信息，我们在90条带注释的数据集上训练了一个句子分类模型。此外，我们开发了一个Web应用程序，该应用程序生成摘要级别信息和对应于每个类别的标记范围。

本文的其余结构如下。在第2节中，我们描述过去有关科学文章信息提取的研究。我们将在第3节中描述带注释的数据集。然后，我们将在第4节和第5节中分别描述我们建议的方法和评估指标。我们在第6节和第7节中分别显示了实验结果和示例输出。在第8节中将对输出进行更多分析。在第9节中，将提供在线界面。第10节对本文进行总结，并为将来的工作提供指导。

* Corresponding authors.

E-mail addresses: ankanm@kgpian.iitkgp.ac.in (A. Mullick), Jatin86400@iitkgp.ac.in (J. Agrawal), swetarekha.ram@ikst.res.in (S. Ram), samirghui@iitkgp.ac.in(S. Ghui), seungcheol.lee@ikst.res.in (S.-C. Lee), s.bhattacharjee@ikst.res.in (S. Bhattacharjee), pawang@cse.iitkgp.ac.in (P. Goyal).¹Authors contributed equally to this work.

https://doi.org/10.1016/j.commatsci.2021.110325

Received 28 September 2020; Received in revised form 16 January 2021; Accepted 18 January 2021

Available online 22 February 2021

S. Guha et al. Computational Materials Science 192 (2021) 110325

2. 相关工作

从科学文章中提取信息已得到广泛探索。借助信息提取方法，我们打算从大量科学文章中提取潜在信息。提取的信息可以概述科学文章中的关键见解。在这方面，一些主要的计算方法包括基于规则的方法，机器学习方法（如朴素贝叶斯分类器[2]，支持向量机[3]和深度学习方法）。有关深度学习的大多数研究都是在可公开获取的数据集（如bc5cdr [4]和SCIERC [5]）上进行的。一个有趣的工作是该领域是由Luan等人完成的 [5]，提取科学文章中的实体，实体之间的关系以及共同引用集群使用了多任务设置。他们将模型应用于SCIERC数据集，该数据集包含来自不同领域的500篇科学论文的摘要。此外，他们使用预测来生成科学知识图，可进一步用于显示对科学文献的分析。另一项知名工作是由Beltagy等完成 [6]。这项工作使用BERT在由科学文章组成的语料库上进行预训练的模型，以提高下游科学NLP任务的性能。用于模型预训练的语料库主要由生物医学文献组成。由于我们的工作主要基于材料科学领域的文章，因此我们生成了一个仅由材料科学文章组成的带注释的数据集，然后在该数据集上训练了深度学习模型。

提取化学实体已有相当多的工作。与化学实体有关的某些信息已在一些静态数据库中提供。这些数据库将化学信息映射到相关文档，其中包含与所输入文本有关的详细信息，例如专利，文献等。以下是受欢迎的化学数据库的列表：

bull; PubChem [7]：这是一个开放的化学数据库，研究人员可以在其中进行可以添加其他人可以使用的科学数据。它由NCBI维护[8]。它包含分子名称，物质描述和链接与所查询化合物有关的已发布文件。

bull; ChemSpider [9]-这是一个包含化学结构的免费数据库具有按化学名称和化学结构进行搜索的功能。它有助于查找重要数据，例如文献参考，物理性质，化学品供应商等。

bull; SciFinder [10]-用于访问选定的信息化学文摘社（CAS）数据库。它提供了作者姓名，相关主题等的搜索。

但是所有这些数据库都是静态的，需要研究人员不断更新。

该领域的一项有趣的工作是OSCAR4识别器[11]。它建立一个n元语法模型，然后在贝叶斯分类器中使用它对标记是否属于“化学”还是“非化学”进行分类。 n-gram模型是借助一系列化学标记建立的，这些化学标记是从固定的词典和手动注释的文档中获得的。然后，它通过用一组特征表示每个标记来构建最大熵马尔可夫模型[12]，其中一个特征是使用先前构建的n元语法模型预测它属于化学域的概率。由于该模型是从固定字典中准备的，因此以复杂符号表示时，往往无法捕获材料。此外，此模型仅从文本中提取化学成分，而我们对从文本中进行更详细的提取感兴趣。

ChemSpot [13]是另一个使用条件随机场（CRF）[14]来识别IUPAC和类IUPAC的科学文本中化学提取工具。由于类似的原因，该模型也无法实现我们的目的。

最近有材料科学方面的研究正在进行使用深度学习模型将标记分类为材料科学类别的科学领域文章。韦斯顿等人的著作就是其中之一[15]。它使用BiLSTM和CRF对文本的每个标记进行分类。本文使用的数据集包含800个文章摘要，这些摘要在以下标签中进行了注释-材料，对称/相位标签，样品描述符，性质，应用，合成方法和特征化方法。但是，由于我们要处理的是报告密度泛函理论/基于第一原理的计算的论文，因此该论文中使用的实体标签与我们感兴趣的标签不同。

一些研究人员专注于传统机器学习模型用于探索文本特征，以执行一些任务，例如理解材料科学语言，提取信息或开发知识图。Tshitoyan等人[16]完成了一项这样的工作。他开发了一种无监督词嵌入模型来处理文本，以识别复杂的材料科学知识，例如元素周期表的基础结构和材料中的结构-属性关系。 Buttler等人[17]完成了另一项工作。他们探索了研究流程的发展过程，以及如何使用不同的机器学习算法（例如遗传算法，基于朴素规则的方法等）来设计，综合化学和材料科学研究领域。 Hakimi等人[18]专注关于检索相关文件的生物材料文本挖掘。科斯托夫等人[19]描述了数据检索技术，并讨论了期望包含搜索词。工作的另一个方向是开发一种自动方法。 Kim等人[20]使用多种机器学习和自然语言处理技术自动检索文章，然后提取在文本中找到材料合成条件。 Juan-Pablo等人[21]提出了机器学习和自然语言处理如何帮助解决长期和成功率低的材料科学研究问题和可以加快新型材料的开发速度。一些研究人员还专注于探索材料科学领域相关功能。 Goldsmith[22]等人完成了一项这样的工作。他们展示了机器学习如何有助于辅助异构催化剂的理解，设计和发现。 Dragone等人[23]提出了一种可以针对新的反应评估并检测化学反应性，而不是预先设定的目标。

关于材料科学合成程序的工作也很少。Huo等人[24]的半监督机器学习分类模型使用Dirichlet分配模型将关键字聚类为主题对应于特定的实验材料合成步骤，例如“研磨”和“加热”，“溶解”和“离心分离”等。通过适度的注释，随机森林分类器可以将这些步骤与不同类别的材料合成相关联，例如固态或水热法。有人探讨了语义文字功能- Mysore等人 [25]。Young等人 [26]在脉冲激光沉积复合氧化物上实验数据挖掘技术。Mysore等人 [27]基于自动提取模型构建图形。 Kononova等人 [28]自

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[266206]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 20元 才能查看全部内容！立即支付

注册

找回密码