如何对非结构化文本进行处理:引介渐进监控-学习法

(这是社论团队·社会学小组的第44次推送)

摘要

在“大数据”中有很大部分是非结构化的文本数据,相对于结构化的数据,这类数据给致力于前沿研究社会科学家带来了挑战和机遇。Peter F. Nardulli,(伊利诺伊大学香槟分校)Scott L. Althaus(伊利诺伊大学香槟分校)和Matthew Hayesc(印第安纳大学伯明顿分校)等三位学者于2015年Sociological Methodology发表《以渐进监控-学习法生产丰富的内乱数据》(A Progressive Supervised-learning Approach to Generating Rich Civil Strife Data)一文,开发了一种叫“渐进监控-学习法”(Progressive Supervised-learning Approach)的方法,这种方法同时结合了以机器为基础与以人工为中心两种方法,新方法有助于缓解媒体数据存在的样本选择性问题——样本选择性有可能扭曲事件的真实分布。作者以“内乱”数据为例说明如何进行非结构化文本数据的处理分析。

1“文本”类型及其处理文本可以分为“显性”和“隐性”两种。前者有简单的概念、关键词等,机器法在显性文本中做得比人工好;后者通常体现为主题,需要通过一定的分析来获取,显然人工法更适用于隐性文本。机器法最近在计算能力、机器学习和自然语言处理方法有了较大进展,提升了机器法在隐性文本的解析获取方法上与人工法的竞争力,但即使是自然语言处理在判断方面仍很难胜过人工法。 监控-学习法则结合了上述两种方法的优点。 该方法在机器法中设置了两个人工编码:一是“训练设置”用于教机器系统如何最优匹配人工编码;二是“检查设置”用于检查机器输出的准确性。在文本信息的处理过程中,监控-学习法将会产生大量的人工编码训练与检查,一旦机器学习系统可以理性地产生人类判断,它就可以独立地运转而不需要与人进行进一步互动。传统的监控-学习法的缺点是对于不同的信息源需要新的人工编码训练和检查设置,且需要大量的连续不断的编码。新方法可以克服这一点,作者通过一个称为“SPEED”的项目来说明新的“渐进监控-学习法”的具体工作流程。

2SPEED项目SPEED是由一个跨学科团队耗时数年建立的、包含上千万条自二战以来的历史新闻数据库,新闻来源于《纽约时报》,外国广播信息服务、BBC世界广播简讯,以及当前全球800多个新闻网站。新的“渐进监控-学习法”整合了机器和人工操作,其工作流程如下:

(1)建立新闻文件储存库;

(2)分类和处理这些文件;

(3)借助“技术-强化型人工”以获取结构性数据。

下图展示了简化后的SPEED工作流程,其中圆形属于数据库,三角形属于人工处理;方形属于机器自动处理。SPEED工作流程之所以是一个“监控-学习”系统,就在于虽然无人监控软件和人工在各个步骤中起关键作用,但其初始计算机算法来源于人工生成训练数据。它之所以是“渐进”的在于工作流程的设计生成了可以升级系统算法的人工反馈,这提供了强化机器自动能力的方法,随着训练数据和精确的机器学习技术的增多,系统会变得越来越流畅。

3工作流程SPEED的具体工作流程如下:

(1)建立文件数据库:在机器处理之前,首先要人工获得新闻文件;

(2)文件分类:SPEED使用一种叫朴素贝叶斯分类器(Nai?ve Bayes classifier)的软件进行文件自动分类,该分类器已经经过33000篇人工分类过的文章训练,现在重新检测分类算法,直到最终的模型可以正确的丢弃纽约时报中4/5的和BBC世界广播简讯中约一半的无关文件,以免去人工审查。

(3)文本分析与提取:文件分类后,丢弃无关文件,相关文件进入文本分析环节。文本分析采用自然语言处理(Natural Language Processing ,NLP)技术,以提取文中提及的人物、地点和组织等。SPEED使用Apache OpenNLP进行标记、句子分割、对所需命名的事实提取进行词性标注(part-of-speech tagging required for named entity extraction)。所有的地名提取可以通过一个地理定位引擎(geolocation engine)的软件直接完成,该软件使用地名地理数据库(GeoNames geographical database)进行经纬度坐标自动分配。

(4)中间数据存储:把分类和预处理后的文件放置到SOLR 索引中,存储的内容包括相关文章的关联元数据(即文章的基本信息,如来自哪个数据库、哪个报纸、日期等)、提取的事实以及地理位置信息。在SOLR 索引中,如果需要可以把新闻文章导入“分析队列”(Analysis Queues),它是数据文件库的子库。为了从这些子库中 产生事件数据,分析队列需要与一个协议(注:SPEED协议称为社会稳定协议(Societal Stability Protocol ,SSP),包含三类事件(政治表达、政治性动机攻击和颠覆性国家行动)和六项内容(who、what、how、where、when和why)的规定)相配合,该协议是个电子文件,包含了界定所要提取信息的结构化问题组。人工编码程序员通过一个网络界面把一个协议与一列文件整合起来获得这些协议。程序员只呈现那些经过机器分类的相关文件,同时只对那些机器模型没有完成分类的文件进行决策分类。

(5)人工编码决策:人工编码决策(正确提取某篇特定事件文章中的名字、地点和日期等)多借助自然语言处理工具进行事件编码。呈现给程序员的文件会通过NLP算法对每一句话做进一步分类。句子层面的分类器比较有名的是事件标注工具(Event Annotation Tool ,EAT),它可以对包含相关信息的句子进行标注。

(6)信息筛选:在预处理阶段以自然语言处理提取的信息只是提供给程序员做进一步的判断,人工在后面对机器产生的信息做最后的准确判断。编码后的事件存到一个数据文档中,待以后做统计分析,而已分类的无关文件则进入垃圾箱。

(7)算法训练:新的监控学习法,其“渐进性”体现在通过产生反馈以训练计算机更好的复制之前人工所做的决策。在检查已分类的文件过程中,程序员的首要任务是确定分类器的判断——这个过程大约需要两分钟时间完成。初始分类器可以很准确的探测无关的新闻故事,但在确定相关故事上的准确性却很低,即机器丢弃的文章中97%到99%都是无关文件,但发送给人工判断的文件中只有33%包含相关信息,另外2/3为“假阳性”。为提高分类算法的准确性,大约有60000份人工处理过的文件用来作为第二波的检测/训练数据。改进后的分类器对“真阳性”的判断率从33%提高到了87%,同时“真阴性”的检出率维持在了96%。

(8)质量控制:由于SPEED要配合一个复杂的协议进行人工判断,质量控制的关键就在于要确保这些程序员受严格的训练,进行专业的操作。程序员开始工作前要进行广泛的训练,并要完成近70个小时的工作完成度考察,包括有能力执行符合一系列规范和理解的协议,判断事件,准确编码。只有通过这些考察才允许开始生产数据产品。

4效果评估上述流程中,文件分类、文本标注以及同一事件不同来源的文件聚类是三个关键步骤。通过这个新方法,作者的团队处理了5900,000篇《纽约时报》文章。这个文章数量,如果单纯以人工来做的话,需要一个人每天24小时工作380多天才能完成,而一个成熟的SPEED分类模型只要短短数小时就可以实现。

此外,在具体的内乱事件数据处理过程中,作者还介绍了渐进监控-学习法在处理稀有事件数据和偶发事件数据中的额外价值;同时说明了内乱事件研究的前沿,有兴趣的读者可以进一步阅读原文,做更详细的了解。

点评 本推文所介绍的渐进式监控-学习法大大降低了内乱事件数据的提取的成本,根本上改变了数据提取的速率和准确性,建立了二战以来全球内乱事件的庞大数据库,为内乱研究开辟了新的前沿。这为我们展示了这样一个新的前景:信息技术革命——大数据和数据转换工具——为社会科学家提供了无限的机会,正如分子研究革命改变生物学一样,计算机能力和数据科学技术的不断提升也可以改变社会科学,创造新的前沿研究。

参考文献:

Nardulli, P. F., Althaus, S. L., & Hayes, M. (2015). A Progressive Supervised-learning Approach to Generating Rich Civil Strife Data. Sociological Methodology, [**************]8.

文献整理:范长煜

(这是社论团队·社会学小组的第44次推送)

摘要

在“大数据”中有很大部分是非结构化的文本数据,相对于结构化的数据,这类数据给致力于前沿研究社会科学家带来了挑战和机遇。Peter F. Nardulli,(伊利诺伊大学香槟分校)Scott L. Althaus(伊利诺伊大学香槟分校)和Matthew Hayesc(印第安纳大学伯明顿分校)等三位学者于2015年Sociological Methodology发表《以渐进监控-学习法生产丰富的内乱数据》(A Progressive Supervised-learning Approach to Generating Rich Civil Strife Data)一文,开发了一种叫“渐进监控-学习法”(Progressive Supervised-learning Approach)的方法,这种方法同时结合了以机器为基础与以人工为中心两种方法,新方法有助于缓解媒体数据存在的样本选择性问题——样本选择性有可能扭曲事件的真实分布。作者以“内乱”数据为例说明如何进行非结构化文本数据的处理分析。

1“文本”类型及其处理文本可以分为“显性”和“隐性”两种。前者有简单的概念、关键词等,机器法在显性文本中做得比人工好;后者通常体现为主题,需要通过一定的分析来获取,显然人工法更适用于隐性文本。机器法最近在计算能力、机器学习和自然语言处理方法有了较大进展,提升了机器法在隐性文本的解析获取方法上与人工法的竞争力,但即使是自然语言处理在判断方面仍很难胜过人工法。 监控-学习法则结合了上述两种方法的优点。 该方法在机器法中设置了两个人工编码:一是“训练设置”用于教机器系统如何最优匹配人工编码;二是“检查设置”用于检查机器输出的准确性。在文本信息的处理过程中,监控-学习法将会产生大量的人工编码训练与检查,一旦机器学习系统可以理性地产生人类判断,它就可以独立地运转而不需要与人进行进一步互动。传统的监控-学习法的缺点是对于不同的信息源需要新的人工编码训练和检查设置,且需要大量的连续不断的编码。新方法可以克服这一点,作者通过一个称为“SPEED”的项目来说明新的“渐进监控-学习法”的具体工作流程。

2SPEED项目SPEED是由一个跨学科团队耗时数年建立的、包含上千万条自二战以来的历史新闻数据库,新闻来源于《纽约时报》,外国广播信息服务、BBC世界广播简讯,以及当前全球800多个新闻网站。新的“渐进监控-学习法”整合了机器和人工操作,其工作流程如下:

(1)建立新闻文件储存库;

(2)分类和处理这些文件;

(3)借助“技术-强化型人工”以获取结构性数据。

下图展示了简化后的SPEED工作流程,其中圆形属于数据库,三角形属于人工处理;方形属于机器自动处理。SPEED工作流程之所以是一个“监控-学习”系统,就在于虽然无人监控软件和人工在各个步骤中起关键作用,但其初始计算机算法来源于人工生成训练数据。它之所以是“渐进”的在于工作流程的设计生成了可以升级系统算法的人工反馈,这提供了强化机器自动能力的方法,随着训练数据和精确的机器学习技术的增多,系统会变得越来越流畅。

3工作流程SPEED的具体工作流程如下:

(1)建立文件数据库:在机器处理之前,首先要人工获得新闻文件;

(2)文件分类:SPEED使用一种叫朴素贝叶斯分类器(Nai?ve Bayes classifier)的软件进行文件自动分类,该分类器已经经过33000篇人工分类过的文章训练,现在重新检测分类算法,直到最终的模型可以正确的丢弃纽约时报中4/5的和BBC世界广播简讯中约一半的无关文件,以免去人工审查。

(3)文本分析与提取:文件分类后,丢弃无关文件,相关文件进入文本分析环节。文本分析采用自然语言处理(Natural Language Processing ,NLP)技术,以提取文中提及的人物、地点和组织等。SPEED使用Apache OpenNLP进行标记、句子分割、对所需命名的事实提取进行词性标注(part-of-speech tagging required for named entity extraction)。所有的地名提取可以通过一个地理定位引擎(geolocation engine)的软件直接完成,该软件使用地名地理数据库(GeoNames geographical database)进行经纬度坐标自动分配。

(4)中间数据存储:把分类和预处理后的文件放置到SOLR 索引中,存储的内容包括相关文章的关联元数据(即文章的基本信息,如来自哪个数据库、哪个报纸、日期等)、提取的事实以及地理位置信息。在SOLR 索引中,如果需要可以把新闻文章导入“分析队列”(Analysis Queues),它是数据文件库的子库。为了从这些子库中 产生事件数据,分析队列需要与一个协议(注:SPEED协议称为社会稳定协议(Societal Stability Protocol ,SSP),包含三类事件(政治表达、政治性动机攻击和颠覆性国家行动)和六项内容(who、what、how、where、when和why)的规定)相配合,该协议是个电子文件,包含了界定所要提取信息的结构化问题组。人工编码程序员通过一个网络界面把一个协议与一列文件整合起来获得这些协议。程序员只呈现那些经过机器分类的相关文件,同时只对那些机器模型没有完成分类的文件进行决策分类。

(5)人工编码决策:人工编码决策(正确提取某篇特定事件文章中的名字、地点和日期等)多借助自然语言处理工具进行事件编码。呈现给程序员的文件会通过NLP算法对每一句话做进一步分类。句子层面的分类器比较有名的是事件标注工具(Event Annotation Tool ,EAT),它可以对包含相关信息的句子进行标注。

(6)信息筛选:在预处理阶段以自然语言处理提取的信息只是提供给程序员做进一步的判断,人工在后面对机器产生的信息做最后的准确判断。编码后的事件存到一个数据文档中,待以后做统计分析,而已分类的无关文件则进入垃圾箱。

(7)算法训练:新的监控学习法,其“渐进性”体现在通过产生反馈以训练计算机更好的复制之前人工所做的决策。在检查已分类的文件过程中,程序员的首要任务是确定分类器的判断——这个过程大约需要两分钟时间完成。初始分类器可以很准确的探测无关的新闻故事,但在确定相关故事上的准确性却很低,即机器丢弃的文章中97%到99%都是无关文件,但发送给人工判断的文件中只有33%包含相关信息,另外2/3为“假阳性”。为提高分类算法的准确性,大约有60000份人工处理过的文件用来作为第二波的检测/训练数据。改进后的分类器对“真阳性”的判断率从33%提高到了87%,同时“真阴性”的检出率维持在了96%。

(8)质量控制:由于SPEED要配合一个复杂的协议进行人工判断,质量控制的关键就在于要确保这些程序员受严格的训练,进行专业的操作。程序员开始工作前要进行广泛的训练,并要完成近70个小时的工作完成度考察,包括有能力执行符合一系列规范和理解的协议,判断事件,准确编码。只有通过这些考察才允许开始生产数据产品。

4效果评估上述流程中,文件分类、文本标注以及同一事件不同来源的文件聚类是三个关键步骤。通过这个新方法,作者的团队处理了5900,000篇《纽约时报》文章。这个文章数量,如果单纯以人工来做的话,需要一个人每天24小时工作380多天才能完成,而一个成熟的SPEED分类模型只要短短数小时就可以实现。

此外,在具体的内乱事件数据处理过程中,作者还介绍了渐进监控-学习法在处理稀有事件数据和偶发事件数据中的额外价值;同时说明了内乱事件研究的前沿,有兴趣的读者可以进一步阅读原文,做更详细的了解。

点评 本推文所介绍的渐进式监控-学习法大大降低了内乱事件数据的提取的成本,根本上改变了数据提取的速率和准确性,建立了二战以来全球内乱事件的庞大数据库,为内乱研究开辟了新的前沿。这为我们展示了这样一个新的前景:信息技术革命——大数据和数据转换工具——为社会科学家提供了无限的机会,正如分子研究革命改变生物学一样,计算机能力和数据科学技术的不断提升也可以改变社会科学,创造新的前沿研究。

参考文献:

Nardulli, P. F., Althaus, S. L., & Hayes, M. (2015). A Progressive Supervised-learning Approach to Generating Rich Civil Strife Data. Sociological Methodology, [**************]8.

文献整理:范长煜


相关内容

  • 发展专长教学论
  • 发展专长教学论 [摘 要] 组织和开展教学的途径主要可以分为接受式.直导式.指导发现式和探究式四种结构.它们反映了吸收.行为和认知三种不同的学习模式.每种教学结构都有其适用的范围,尤其必须考虑学习者的原有经验以及学习任务的迁移类型.应依据学习活动中主要的认知过程特点来提出相应的教学原则--认知减负. ...

  • 施特劳斯与中国
  • 从严复1898年刊印<天演论>译本并于同年着手翻译<群学肄言>算起,我国学界已 经三次引人注目地引介西方学术思想,规模一次比一次大." 五四"运动之后到1966 年 ,算第二次引介时期,最高成就是我国翻译西方"政法诸书"的第一个汉译全集 ...

  • 故宫博物院说课稿文档
  • <故宫博物院>教学设计(优质课课案) 尊敬的各位评委.各位老师: 大家好! 我今天的说课内容是八年级上册第三单元的课文<故宫博物院>.本单元是说明文单元,学习重点是掌握说明文的基础知识,包括怎样抓住特征来介绍事物,理清说明顺序,了解常用的说明方法,体会说明文准确周密的语言.& ...

  • 英语课堂观察的基本类型
  • 作者:戴军熔 中小学英语教学与研究 2014年02期 课堂是学校教育真正发生的地方,是研究教与学最适当的场所,它蕴含着大量有价值的研究要素.课堂研究正是通过对这些要素的研究和分析,来揭示课堂的真实情境,从而发现事实,改进行为.而课堂观察则是课堂研究最基本的方法之一,也是课堂研究中收集各种资料,探寻各 ...

  • 文广局工作情况汇报
  • 文广局工作情况汇报 一.2011年工作 (一)抓工程,建设施,构筑完整的公共文化服务体系 不断加大资金投入,完善配套设施建设,圆满完成创建国家一级文化馆任务:投资45万元对丁氏故宅进行维修并完成王天池纪念馆建设,督导完善13个综合文化站.160个农村文化大院(文体活动室)和160个农家书屋建设. ( ...

  • 文化翻译学界说_杨仕章
  • 外语教学理论与实践(FLLTP )2016年第1期 ·79· 文化翻译学界说 解放军外国语学院 提 * 杨仕章 要:"文化翻译学"作为一个术语,是文化翻译学元理论中的基础性概念.本文通过分析文化在翻译研究中的 "文化翻译""文化翻译"凸显过 ...

  • 校园安全管理信息系统
  • 摘 要 管理信息系统是一个以人为主导,利用计算机硬件.软件.网络通信设备.及其他办公设备,进行信息的收集.传输.加工.存储.更新和维护.以企业战略竞优,提高效益和效率为目的.支持企业高层决策,中层控制,基层运作的集成化人机系统. 校园安全是学生在校期间需要关注的问题,更是学生在校期间人身财产的重要保 ...

  • IT运维人员工作手册通用版
  • 企业运维(IT)人员工作手册通用版 2012/05 企业运维(IT)人员工作手册 作者:职道 1. 目地: 为了明确运维技术人员工作职责.规范运维人员工作行为.保证运维服务质量和做好运维服务管理工作. 2. 范围: 适用范围:企业总部各中心各部门.分公司.子公司的运维部门 发布范围:企业总部各中心各 ...

  • 2010年电大古代汉语专题复习资料D
  • 汉语专题(2)语法部分练习题及解答 指出下列句中的名词状语并说明其在句中的作用: 1本纪>.旦日飨士卒,为击破沛公军.) (<史记•项羽23.项伯乃夜驰之沛公军.(4.吾日三省吾身.(<论语•学而><史记•项羽本纪>) ) 子•养生主>.良庖岁更刀,) 割 ...