如何对非结构化文本进行处理:引介渐进监控-学习法

（这是社论团队·社会学小组的第44次推送）

摘要

在“大数据”中有很大部分是非结构化的文本数据，相对于结构化的数据，这类数据给致力于前沿研究社会科学家带来了挑战和机遇。Peter F. Nardulli,（伊利诺伊大学香槟分校）Scott L. Althaus（伊利诺伊大学香槟分校）和Matthew Hayesc（印第安纳大学伯明顿分校）等三位学者于2015年Sociological Methodology发表《以渐进监控－学习法生产丰富的内乱数据》（A Progressive Supervised-learning Approach to Generating Rich Civil Strife Data）一文，开发了一种叫“渐进监控-学习法”（Progressive Supervised-learning Approach）的方法，这种方法同时结合了以机器为基础与以人工为中心两种方法，新方法有助于缓解媒体数据存在的样本选择性问题——样本选择性有可能扭曲事件的真实分布。作者以“内乱”数据为例说明如何进行非结构化文本数据的处理分析。

1“文本”类型及其处理文本可以分为“显性”和“隐性”两种。前者有简单的概念、关键词等，机器法在显性文本中做得比人工好；后者通常体现为主题，需要通过一定的分析来获取，显然人工法更适用于隐性文本。机器法最近在计算能力、机器学习和自然语言处理方法有了较大进展，提升了机器法在隐性文本的解析获取方法上与人工法的竞争力，但即使是自然语言处理在判断方面仍很难胜过人工法。监控-学习法则结合了上述两种方法的优点。该方法在机器法中设置了两个人工编码：一是“训练设置”用于教机器系统如何最优匹配人工编码；二是“检查设置”用于检查机器输出的准确性。在文本信息的处理过程中，监控-学习法将会产生大量的人工编码训练与检查，一旦机器学习系统可以理性地产生人类判断，它就可以独立地运转而不需要与人进行进一步互动。传统的监控-学习法的缺点是对于不同的信息源需要新的人工编码训练和检查设置，且需要大量的连续不断的编码。新方法可以克服这一点，作者通过一个称为“SPEED”的项目来说明新的“渐进监控-学习法”的具体工作流程。

2SPEED项目SPEED是由一个跨学科团队耗时数年建立的、包含上千万条自二战以来的历史新闻数据库，新闻来源于《纽约时报》，外国广播信息服务、BBC世界广播简讯，以及当前全球800多个新闻网站。新的“渐进监控-学习法”整合了机器和人工操作，其工作流程如下：

（1）建立新闻文件储存库；

（2）分类和处理这些文件；

（3）借助“技术－强化型人工”以获取结构性数据。

下图展示了简化后的SPEED工作流程，其中圆形属于数据库，三角形属于人工处理；方形属于机器自动处理。SPEED工作流程之所以是一个“监控-学习”系统，就在于虽然无人监控软件和人工在各个步骤中起关键作用，但其初始计算机算法来源于人工生成训练数据。它之所以是“渐进”的在于工作流程的设计生成了可以升级系统算法的人工反馈，这提供了强化机器自动能力的方法，随着训练数据和精确的机器学习技术的增多，系统会变得越来越流畅。

3工作流程SPEED的具体工作流程如下：

（1）建立文件数据库：在机器处理之前，首先要人工获得新闻文件；

（2）文件分类：SPEED使用一种叫朴素贝叶斯分类器（Nai?ve Bayes classifier）的软件进行文件自动分类，该分类器已经经过33000篇人工分类过的文章训练，现在重新检测分类算法，直到最终的模型可以正确的丢弃纽约时报中4/5的和BBC世界广播简讯中约一半的无关文件，以免去人工审查。

（3）文本分析与提取：文件分类后，丢弃无关文件，相关文件进入文本分析环节。文本分析采用自然语言处理（Natural Language Processing ，NLP）技术，以提取文中提及的人物、地点和组织等。SPEED使用Apache OpenNLP进行标记、句子分割、对所需命名的事实提取进行词性标注（part-of-speech tagging required for named entity extraction）。所有的地名提取可以通过一个地理定位引擎（geolocation engine）的软件直接完成，该软件使用地名地理数据库（GeoNames geographical database）进行经纬度坐标自动分配。

（4）中间数据存储：把分类和预处理后的文件放置到SOLR 索引中，存储的内容包括相关文章的关联元数据（即文章的基本信息，如来自哪个数据库、哪个报纸、日期等）、提取的事实以及地理位置信息。在SOLR 索引中，如果需要可以把新闻文章导入“分析队列”（Analysis Queues），它是数据文件库的子库。为了从这些子库中产生事件数据，分析队列需要与一个协议（注：SPEED协议称为社会稳定协议（Societal Stability Protocol ，SSP），包含三类事件（政治表达、政治性动机攻击和颠覆性国家行动）和六项内容（who、what、how、where、when和why）的规定）相配合，该协议是个电子文件，包含了界定所要提取信息的结构化问题组。人工编码程序员通过一个网络界面把一个协议与一列文件整合起来获得这些协议。程序员只呈现那些经过机器分类的相关文件，同时只对那些机器模型没有完成分类的文件进行决策分类。

（5）人工编码决策：人工编码决策（正确提取某篇特定事件文章中的名字、地点和日期等）多借助自然语言处理工具进行事件编码。呈现给程序员的文件会通过NLP算法对每一句话做进一步分类。句子层面的分类器比较有名的是事件标注工具（Event Annotation Tool ，EAT），它可以对包含相关信息的句子进行标注。

（6）信息筛选：在预处理阶段以自然语言处理提取的信息只是提供给程序员做进一步的判断，人工在后面对机器产生的信息做最后的准确判断。编码后的事件存到一个数据文档中，待以后做统计分析，而已分类的无关文件则进入垃圾箱。

（7）算法训练：新的监控学习法，其“渐进性”体现在通过产生反馈以训练计算机更好的复制之前人工所做的决策。在检查已分类的文件过程中，程序员的首要任务是确定分类器的判断——这个过程大约需要两分钟时间完成。初始分类器可以很准确的探测无关的新闻故事，但在确定相关故事上的准确性却很低，即机器丢弃的文章中97%到99%都是无关文件，但发送给人工判断的文件中只有33%包含相关信息，另外2/3为“假阳性”。为提高分类算法的准确性，大约有60000份人工处理过的文件用来作为第二波的检测／训练数据。改进后的分类器对“真阳性”的判断率从33%提高到了87%，同时“真阴性”的检出率维持在了96%。

（8）质量控制：由于SPEED要配合一个复杂的协议进行人工判断，质量控制的关键就在于要确保这些程序员受严格的训练，进行专业的操作。程序员开始工作前要进行广泛的训练，并要完成近70个小时的工作完成度考察，包括有能力执行符合一系列规范和理解的协议，判断事件，准确编码。只有通过这些考察才允许开始生产数据产品。

4效果评估上述流程中，文件分类、文本标注以及同一事件不同来源的文件聚类是三个关键步骤。通过这个新方法，作者的团队处理了5900,000篇《纽约时报》文章。这个文章数量，如果单纯以人工来做的话，需要一个人每天24小时工作380多天才能完成，而一个成熟的SPEED分类模型只要短短数小时就可以实现。

此外，在具体的内乱事件数据处理过程中，作者还介绍了渐进监控－学习法在处理稀有事件数据和偶发事件数据中的额外价值；同时说明了内乱事件研究的前沿，有兴趣的读者可以进一步阅读原文，做更详细的了解。

点评本推文所介绍的渐进式监控－学习法大大降低了内乱事件数据的提取的成本，根本上改变了数据提取的速率和准确性，建立了二战以来全球内乱事件的庞大数据库，为内乱研究开辟了新的前沿。这为我们展示了这样一个新的前景：信息技术革命——大数据和数据转换工具——为社会科学家提供了无限的机会，正如分子研究革命改变生物学一样，计算机能力和数据科学技术的不断提升也可以改变社会科学，创造新的前沿研究。

参考文献：

Nardulli, P. F., Althaus, S. L., & Hayes, M. (2015). A Progressive Supervised-learning Approach to Generating Rich Civil Strife Data. Sociological Methodology, [**************]8.

文献整理：范长煜