生物医学文本挖掘研究热点

［摘要］为了解生物医学文本挖掘的研究现状和评估未来的发展方向，以美国国立图书馆PubMed中收录的2000年1月－2015年3月发表的生物医学文本挖掘研究文献记录为样本来源，提取文献记录的主要主题词进行频次统计后截取高频主题词，形成高频主题词－论文矩阵，根据高频主题词在同一篇论文中的共现情况对其进行聚类分析，根据高频主题词聚类分析结果和对应的类标签文献，分析当前生物医学文本挖掘研究的热点。结果显示，当前文本挖掘在生物医学领域应用的主要研究热点为文本挖掘的基本技术研究、文本挖掘在生物信息学领域里的应用、文本挖掘在药物相关事实抽取中的应用3个方面。

［关键词］文本挖掘;生物医学研究;研究热点

随着生物医学科学的飞速发展，生物医学领域的实验数据和文献数量急剧增加。常用的检索方式通常会消耗大量时间，并且需要对检索词进行仔细筛选及恰当组合。文本挖掘是通过计算机发现以前未知的新信息，即在现有文献资源中自动提取相关信息，并揭示另外隐含的意义［1］。利用文本挖掘能够有效地从生物医学数据库中提取相关知识进行研究进而提出新的实验假设，得到新的科学结论，因此文本挖掘在生物科学领域具有很大的应用价值。以检索词“textmining”在PubMed检索(2015年6月9日)相关文献，结果显示文献累积数量随着年代的分布呈现典型的指数分布，说明文本挖掘在生物医学领域中正处在飞速发展中，是当前的研究热点。基于以上原因，我们运用共词分析的方法，对2000年1月至2015年3月MEDLINE数据库收录的有关文本挖掘在生物医学领域应用的论文中的高频主题词进行了共现聚类分析，总结出当前国际上文本挖掘在生物医学领域应用的研究热点，并对其进行分析。

1资料与方法

数据样本为MEDLINE数据库收录的生物医学领域文本挖掘研究文献。MEDLINE是国际上生物医学领域的权威数据库，迄今收录文献达2400万篇，通过该数据库可以检测到含有确切关键词的文献［2］。采用检索策略为:“textmining”［tiab］AND((“2000/01/01”［PDAT］:“2015/03/31”［PDAT］)ANDmedline［sb］)，共得到879篇相关文献记录。以xml格式将全部相关文献记录套录下来，运用文献计量学统计分析软件BICOMB［3］抽取和统计以上文献中的主要主题词及副主题词及每个词在以上全部文献中的出现频次，按照它们的出现频次由高到低进行排序，选取其中出现频次高于13次的40个主题词/副主题词作为高频主题词(表1)。由于这些文献的篇名或摘要中含有“文本挖掘”被检出，且被收录于MEDLINE，其主要内容都与生物医学文本挖掘有关，因此得到的主题词和副主题词可反映文本挖掘在生物医学领域中的应用情况。对所有高频主题词做进一步处理，统计每一个高频词在文献中的出现情况，形成高频词－文献矩阵，输入到gCLUTO软件，采用系统聚类法对所得相似矩阵进行聚类分析，聚类分析的结果可以反映出这些高频词之间的亲疏关系，分析这些高频主题词能够获得生物医学领域文本挖掘研究的热点。聚类结果如图1所示，其中横轴代表PubMed数据库中文献，纵轴代表进行聚类的主题词/副主题词。如果两词聚集到一起的距离短，说明它们的关系越密切［4］。首先，根据每一类高频主题词的含义以及这些主题词之间的语义关系，总结出每一类主题词所代表的研究热点，即当前医学领域文本挖掘研究的热点。例如，主题词NaturalLanguageProcessing(自然语言处理)和PeriodicalsasTopic(期刊作为主题)距离较近，关系密切，首先聚成一类;ArtificialIntelli-gence(人工智能)再与前面两个词合成一类，这一类再与MEDLINE组成的一类再聚成一大类，以此类推。通过分析这些主题词的语义关系就能得出它们所代表的类团含义标签，综合各个类别的类标签可以得出当前医学领域文本挖掘研究的热点。其次，利用gCLUTO软件计算各类成员对聚类贡献率的指标(描述度Descriptive和区分度Descriminating)，选取对每一类形成贡献最大的来源文献作为表示该类内容的类标签文献，通过文献内容进一步阐释该研究方向的具体内容。

2结果与分析

通过对近2000－2015年MEDLINE收录的生物医学领域文本挖掘研究文献的高频主题词和副主题词进行共现聚类分析(图1)，我们将该领域的研究热点分为以下3大方面，14个主题。

2．1文本挖掘的基本技术

2．1．1关于基因名称识别的研究

该类所含的主题词有Genes;TerminologyasTopics;Vocabulary，Controlled。研究内容如根据词表对基因符号消歧，评价生物医学命名体识别的各种标准［5－8］，整合多种资源以规范基因名称等。

2．1．2文本分类中高维特征的处理问题

该类包含ArtificialIntelligence，Algorithms，PatternＲecognition，Automated/methods等主题词。研究内容如利用Turku系统增强生物医学事件抽取的新的特征选择策略，Swanson的ABC研究中定量计算B词的模型，如何把文本和手工构建通路联系起来［9－12］。

2．1．3文本挖掘中标引注释问题

该类包括的主题词有NaturalLanguageProcessing;InformationStorageandＲetrieval/methods;PeriodicalsasTopic;Databases，Bibliographic;AbstractingandIndexingasTopic/methods。如用于生物文本挖掘语义注释的语料库GENIA，对文章中图例进行标引和分类的系统，从全文中抽取生物学信息的工具。以上都涉及到文本挖掘语料的库建设，需要事先注释好的语料库［13－16］。

2．1．4文本挖掘初级阶段的辅助工具

该类包括DatabaseManagementSystems，MED-LINE，User－ComputerInterface等主题词。研究内容如通过Web服务进行文本处理的Whatizit系统，对MEDLINE/PubMed文献记录自动挖掘的辅助性工具MedKit，文本中自动标记基因、蛋白质和其他实体名字的开源工具ABNEＲ，支持生物本体开发与分析的API:ONTO－PEＲL。其中，基于Web文本分析工具Whatizit是一种基于服务器的，用于分析文献(如任何科学出版物或MEDLINE摘要)中所含信息的模块，它可以辨认术语并将其与生物医学数据库(如UniProtKb/Swiss－Prot)中相应的条目和基因本体概念链接起来［17－19］。

2．2文本挖掘在生物信息学研究中的应用

2．2．1系统生物学的知识管理

涉及的主题词有SystemsBiology/methods;GeneExpressionProfiling/methods，KnowledgeBases。研究内容如以高通量siＲNA监测作为生物系统扰动和与复合物监测并存靶向通路的辨认的方法应用于转化医学的通用和可视化驱动的框架，药物基因组学领域中的关系抽取，用于分析、整合和可视化人类转录组学［20－23］、蛋白质组学和代谢组学的Web系统生物学工具。

2．2．2生物学网络:蛋白质相互作用网络的构建和分析

涉及的主题词有ProteinInteractionMapping/methods、Models，Biological和SignalTransduction/physiology。研究内容如利用文本挖掘的结果来构建PPI网络，生物网络推理和分析信息融合平台Bio-CAD;还有学者开发出基于网络－上下文的文献检索系统(NcDocＲeSy)作为Cytoscape的插件，可以通过间接相关的文献帮助用户手工构建网络，该系统结合了用生物学网络检索文献和根据网络拓扑来排序检索到的文献［24－27］。

2．2．3通过文本挖掘获得蛋白质相互作用网络图，并对该图中节点间的关系进行语义上的注释

涉及Proteins/metabolism，ProteinInteractionMapping，Semantics等主题词。研究内容如利用上下文模型和句子格式对基因提名加以规范并提取相互作用，把文献挖掘和从各种来源的相互作用证据结合起来构建鼠蛋白相互作用网络，语言特征在从PubMed中抽取相互作用时的有用程度，以及从文献中抽取人类蛋白质因果关系的挖掘工具PPInterFinder［28－31］。

2．2．4利用文本挖掘进行的蛋白质功能研究

涉及的主题词有Databases，Protein;Proteins/chemistry。研究内容如基于Web的蛋白质序列功能注释工具ProFat，利用图双字相关自动抽取蛋白质点突变，PPI与文本挖掘集成用于蛋白质功能预测;用整合后的全局相关评分改善PPI对排序［32－35］等。

2．2．5文本挖掘方法在生物信息学中应用的概述

它涉及到DataMining/methods;ComputationalBiology/methods;Databases，Genetic等主题词。文本挖掘是生物信息学的重要研究方法之一，有助于构建基因数据库和知识库。研究内容如从自文本中抽取事实的研究，文本挖掘是否能用成倍提高手工构建基因产品的效率。在OMIM中检索临床纲要的CSI－OMIM系统，利用PharmGKB训练文本挖掘方法以在药物基因组研究中确认潜在基因靶标的研究［36－39］。

2．2．6围绕PubMed的挖掘系统和工具

涉及到的主题词有Software，Internet，PubMed。本类所研究系统和工具与文献挖掘的辅助工具相似，都是基于文献数据库开发的工具，但是辅助工具关注的是MEDLINE数据库，而本类则关注其网络版，因此更具有网络应用的性质。众多工具不再是辅助性的文本处理工具，而是针对PubMed的检索和挖掘工具，尤其是基于Web的PubMed检索工具，如GeneView，PPInterFinder等。与挖掘有关的工具则有书目分析工具，如PipelinePilot就是一种基于Web的PubMed书目分析工具等，可以进行交互式的文本挖掘［31，40－42］。以上6个主题也可以归为一个大类，即在生物信息学研究中的应用，侧重系统生物学的挖掘分析，即通过蛋白质相互作用网络的分析来预测蛋白质的功能。这是文本挖掘当前在生物医学应用的主流，也是文本挖掘在生物医学应用中的重中之重。

2．3文本挖掘在事实抽取中的应用

2．3．1如何从文本中抽取事实(关系)，即从文献中发现医学知识的方法学研究

涉及Databases，Factual;Publications;BiomedicalＲesearch等主题词。研究内容如利用文本挖掘给文献打分和排序，以改善毒理基因组学比较数据库中药物－基因－疾病关系的建立;利用用户定制的支持互操作格式的Web服务来处理生物学文献;无监督文本挖掘方法抽取生物医学文献中的关系等［43－46］。

2．3．2利用文本挖掘帮助文献检索和整理，满足用户信息需求的研究

涉及主题词有ComputationalBiology，InformationStorageandＲetrieval。文本挖掘应用于生物信息学的信息检索，如利用生物医学本体改善生物医学文献聚类效果，利用计算机跟踪知识与内容，利用文本挖掘开展人类重要疾病的整合基因组分析，药物开发中的信息需求与文本挖掘的作用等［47－50］。2．3．3利用文本挖掘方法(尤其是文献计量学方法)构建药物－基因－疾病等调节网络该类主题词有DataMining和GeneＲegulatoryNetworks。研究内容如利用文本挖掘方法帮助构建E．coliK－12菌株中OxyＲ蛋白的调节作用和生长条件的数据库，文献计量学网络重建应用程序和服务器Biblio－MetＲeS，比较性毒理基因组学数［51－54］据库中药物－基因－疾病网络的文本挖掘和手工构建等。2．3．4临床记录中各种信息(特别是时间信息)的抽取涉及到MedicalInformatics/methods，ElectronicHealthＲecords等主题词。该研究内容如从临床记录中抽取时间关系而生成患者时间轴，结合使用规则和机器学习方法从患者出院小结中抽取时间关系的TEMPTING系统，从临床文本中自动抽取巴士指数的研究，对瑞士语临床文本的线索断言分类，为pyConTextSwe系统开发词汇表等［55－58］。以上4类的共同特征是偏重从文本中抽取事实，尤其是与药物和毒理(药物副作用)有关的事实抽取方法的研究，同时也涉及到基因等信息。

3结论

通过对14个主题的高频主题词进行梳理，可以看到文本挖掘在生物医学领域应用主要在3个方面。一是文本挖掘的基本技术研究。研究内容从语料库建设中的标引注释问题到文本分类中的特征提取，一直到这些技术在基因名称的命名体识别中的应用，最后涉及到可以在命名体识别等基本技术上帮助文本挖掘的工具。文本挖掘基本技术研究未来的发展应更加注重采用规范化和标准化的工具。二是文本挖掘在生物信息学领域里的应用。该研究方向侧重于将挖掘方法应用到系统生物学分析中，如在转化医学、药物基因组学、人类转录组学、蛋白质组学和代谢组学等领域中的应用，利用免费而权威的PubMed文献数据库开发挖掘系统和工具。其中通过蛋白质相互作用网络分析来预测蛋白质的功能是当前文本挖掘在生物医学领域应用中的重中之重。另外，对生物学网络(尤其是蛋白质相互作用PPI网络)的属性分析已经成为一种新的生长点。其中通过对文本挖掘获得文献网络，由此获得蛋白质功能的信息，并将其与生物整合起来的研究也是值得注意的新动向。三是文本挖掘在相关事实抽取中的应用。文本挖掘也常用于从文本中抽取事实，尤其是与药物、毒理(药物副作用)、疾病有关的事实抽取方法的研究，同时也涉及到基因信息研究。包括对从文献中发现医学知识的具体技术的探讨，如构建各种生物医学相关的数据库和知识库，Web服务器处理文献;利用文本挖掘技术帮助用户文献检索和整理文献也是当前引起广泛关注的服务。此外，在文本挖掘算法上比较突出的方向是利用文本挖掘方法以及文献计量学方法构建药物－基因－疾病等调节网络，以及有关临床记录中各种信息(特别是时间信息)的抽取问题。综上所述，生物医学文本挖掘研究热点主要集中在文本挖掘基本方法和技术研究、生物信息学中的应用和在药物相关研究中的应用，未来发展方向应当是以词表标准、复杂网络分析等方法为主。

【参考文献】

［1］王浩畅，赵铁军．生物医学文本挖掘技术的研究与进展［J］．中文信息学报，2008，22(3):89－98．

［2］崔雷，刘伟，闫雷，等．文献数据库中数目信息共现挖掘系统的开发［J］．现代图书情报技术，2008(8):70－75．

［3］张丹晔，崔雷．PBL教学模式的研究热点分析［J］．医学教育探索，2010，9(8):1053－1057．

作者：史航高雯珺崔雷