文本分析方法:综合综述
你收到的反馈是否比你读过的都多,更不用说总结了?也许你使用过文本分析方法来分析自由形式的文本反馈?
这些方法从简单的技术,如Excel中的单词匹配,到在数百万个数据点上训练的神经网络。
以下是我的总结,将这些方法分解为目前常用的5种关键方法。
什么是文本分析?
文本分析是从文本中提取意义的过程。例如,这可以分析客户调查中客户编写的文本,重点是找到共同的主题和趋势。其理念是能够检查客户反馈,告知企业采取战略行动,以改善客户体验。
什么是文本分析软件?
为了使文本分析最有效,组织可以使用文本分析软件,利用机器学习和自然语言处理算法在大量文本中找到意义。
企业如何使用文本分析?
采取主题例如,我们分析客户反馈表单中提交的自由文本反馈,这在以前是很难分析的,因为公司花费时间和资源努力手动完成这项工作。
随后,我们使用文本分析来帮助公司发现隐藏的客户洞察,并能够轻松回答有关现有客户数据的问题。此外,在Thematic等文本分析软件的帮助下,公司可以发现经常性的和新兴的主题,跟踪趋势和问题,并为经理创建可视化报告,以跟踪他们是否正在与最终客户闭合循环。
一些文本分析背景…
很长一段时间以来,我一直计划在2018年写一篇文章来阐明当今文本分析的可能性。
在我的职业生涯中,我曾与许多人交谈过,他们经历了分析文本并试图找到解决方案的痛苦。
一些人试图通过从头开始编写自己的算法来重新发明轮子,另一些人认为谷歌和IBM api是救世主,另一些人再次被90年代末的技术所困,这些技术被供应商称为“高级文本分析”。
在过去的15年里,我一直致力于自然语言处理,特别是在使用算法理解文本的领域:研究、创建、应用和销售其背后的技术。
我的学术研究产生了被数百个组织使用的算法(我是KEA和毛伊岛)。我的文本分析职业生涯的亮点是在谷歌,在那里我写了一个算法,可以分析我不懂的语言的文本。
在过去的三年里,我作为首席执行官主题我了解了很多市场上可以买到的东西。
所以,公平地说,我有资格在这个话题上发言。
我会尽量客观评价的,但是当然,我有偏见因为我的职位。很高兴与任何有兴趣提供反馈的人讨论这个问题。
5文本分析方法和示例
以下是我的总结,将这些方法分解为目前常用的5种关键方法。
文本分析方法1:单词识别
让我们从词识别。首先,这根本不存在!
学术自然语言处理社区没有注册这样的方法,这是正确的。事实上,在学术界,词识别指的是笔迹识别(识别一个人,也许是一个医生,写了哪个词)。
也有关键字识别该公司专注于语音处理。
但据我所知,单词定位不用于任何类型的文本分析。
但我经常在会议上听到这个问题,所以在本文中也提到了。它深受DIY分析师和Excel巫师的喜爱,也是许多客户洞察专业人士的流行方法。
文本单词识别背后的主要思想是:如果一个单词出现在文本中,我们可以假设这段文本是“关于”这个特定单词的。例如,如果在评审中提到“价格”或“成本”这样的词,这意味着这次评审是关于“价格”的。
单词识别方法的美妙之处在于它的简单。
您可以在不到10分钟的时间内在Excel电子表格中实现单词定位。
或者,你也可以用Python或r编写一个脚本。
如何在10分钟内构建一个文本分析解决方案
你可以在Excel中输入一个公式,就像这样,将评论分为“计费”、“定价”和“易用性”:
瞧!
在这里,它被应用于净推广者评分调查,其中B列包含对问题“您为什么给我们这个分数”的开放式答案:
我可能只花了不到10分钟的时间来创建这个,结果是如此令人鼓舞!但是等待…
每个人都喜欢简单。但在这种情况下,简单就糟透了
使用这种方法很容易出现各种问题。
在这里,我为您做了注释。
在7条评论中,只有3条被正确分类。“计费”实际上是关于“价格”的,另外三个评论遗漏了其他主题。你会把你的客户洞察力押在最多50个正确率上吗?
单词定位是可以的
可以想象,上面的公式还可以进一步调整。事实上,我曾与那些手工制作大量定制电子表格的公司交谈过,他们对结果非常满意。
如果您有一个包含几百个响应的数据集,您只需要分析一两次,则可以使用这种方法。如果数据集很小,您可以快速检查结果并确保高准确性。
当单词定位失败时
至于不利方面呢?请不要使用词缀:
- 如果你有大量的数据,超过几百个回复
- 如果你没有时间复习和纠正每篇文章的准确性
- 如果你需要可视化结果(Excel会听到你的咒骂)
- 如果你需要和你的同事分享结果
- 如果您需要长期一致地维护数据
DIY单词识别还有许多其他缺点,我们将在下一篇文章中讨论。我还将讨论什么是有效的,什么是好的方法。
如果您希望构建自己的文本分析解决方案,请查看我们的深入指南:如何建立自己的反馈分析解决方案。
文本分析方法手册规定
手动规则方法与单词定位密切相关。这两种方法都基于创建匹配模式的相同原则,但这些模式也可能变得相当复杂。
例如,手动规则可能涉及正则表达式的使用——这在Excel中是不容易实现的。下面是一个分配类别“Staff Knowledge”的规则,该类别来自一个流行的企业解决方案Medallia:
大多数文本分析提供商以及许多其他较小的参与者,他们将文本分析作为其主要产品的附加产品出售,提供了一个界面,使创建和管理此类规则变得容易。他们有时还提供专业服务来帮助制定这些规则。
关于手动规则最好的一点是它们可以被一个人理解。它们是可解释的,因此可以在需要时进行调整。
但最重要的是,创建这些规则需要付出很多努力。您还需要确保它们是准确的,并随着时间的推移进行维护。
首先,一些公司提供了预先打包的规则,这些规则已经组织成一个分类。例如,他们会有一个类别“价格”,已经预设了数百个单词和短语,在下面他们可能有子类别,如“便宜”和“昂贵”。
他们还可能针对特定行业设置特定类别,例如银行。如果您是一家银行,您只需要将产品名称添加到这个分类中,就可以开始了。
这种方法的好处是,一旦设置好,您可以运行数百万个反馈,并对文本中提到的核心类别有一个很好的概述。
但是,这种方法有很多缺点,事实上任何手动规则和单词定位技术:
1.多个单词的含义使得制定规则变得困难
规则失败最常见的原因源于一词多义,当同一个单词可以有不同的意思时:
2.提到的单词!=核心主题
仅仅因为文本中提到了一个单词或短语,并不总是意味着文本是关于这个主题的。例如,当客户解释导致问题的情况时:“我的信用卡被拒了,收银员非常乐于助人,耐心地等着我在包里找现金这个评论不是关于信用卡或现金,而是关于员工的行为。。
3.规则无法捕捉情感
仅仅知道大致的类别是不够的。人们是如何看待《Price》的,他们开心还是不开心?用手动设定的规则捕捉情绪是不可能的。人们常常没有意识到我们的语言是多么的多样化。
因此,像“昂贵”这样的子类别实际上是极其难以建模的。一个人可以这样说我觉得这个产品不贵”。要将这条评论归类为“价格合理”这样的类别,你需要一个复杂的算法来检测否定及其范围。简单的正则表达式无法解决这个问题。
4.软件产品和许多其他业务不存在分类法
对于非标准产品或服务,不存在预先设置的带有规则的分类。这对于软件行业来说尤其成问题,因为每个产品都是独一无二的,客户反馈讨论的都是非常具体的问题
5.不是每个人都能遵守规则
在任何行业中,即使您有一个有效的基于规则的分类法,具有良好语言知识的人也需要不断地维护规则,以确保所有反馈都被准确地分类。这个人需要不断地扫描人们在飞行中很容易创造的新表达,以及任何以前没有考虑过的新主题。这是一个永无止境的过程,而且成本很高。
然而,尽管有这些缺点,这种方法是文本分析最广泛使用的商业应用,它起源于90年代,并且没有明确的方法来解决这些问题。
那么,手动规则足够好吗?
我的答案是没有。大多数使用手动规则的人都不满意建立解决方案所需的时间,维护它的成本,以及见解的可操作性。
文本分析方法文本分类
让我们把这个混乱的主题弄清楚高级文本分析这是各种供应商和数据科学家推销它的方式。
这里,我们会看到文本分类这是三种方法中的第一种,实际上是自动化的,使用算法。
什么是文本分类?
这种方法是由机器学习驱动的。基本思想是机器学习算法(有很多)分析之前手动分类的示例(训练数据),并找出分类新示例的规则。这是一种有监督的方法。
文本分类的美妙之处在于,您只需要提供示例,不需要手动创建模式或规则,这与前面两种方法不同。
文本分类的另一个优点是,从理论上讲,它应该能够捕捉单词在文本中出现的相对重要性。让我们回顾一下前面文章中的例子。客户可能正在解释导致问题的情况:“我的信用卡被拒了,收银员非常乐于助人,耐心地等着我在包里找现金。”这个评论不是关于信用卡或现金,而是关于员工的行为。评论中提到的“信用卡”主题并不重要,但“帮助”和“耐心”很重要。文本分类方法可以通过正确的训练捕获它。
这一切都归结于在训练数据中看到类似的例子。
接近完美的准确率,但前提是训练数据正确
有学术研究论文表明,文本分类可以达到近乎完美的准确性。深度学习算法甚至比旧的naïve算法更强大(一个旧的算法实际上被称为Naïve贝叶斯)。
然而,所有的研究人员都同意这一点算法没有训练数据重要。
训练数据的质量和数量是决定这种方法处理反馈是否成功的因素。那么,多少才算够呢?嗯,这取决于类别的数量和用于创建分类模型的算法。
你拥有的类别越多,它们之间的关系越密切,就需要更多的训练数据来帮助算法区分它们。
一些依赖文本分类的较新的文本分析初创公司提供了一些工具,使人们可以轻松地训练算法,因此随着时间的推移,它们会变得更好。但是你有时间等待算法变得更好吗,或者你今天就需要根据客户的反馈采取行动吗?
文本分类的四个问题
除了需要训练算法之外,使用文本分类来分析人们的反馈还有其他四个问题:
- 你不会注意到新出现的主题
你只会对你训练过的类别有所了解,而会错过未知的未知。这与手动规则和单词识别所具有的缺点相同:需要持续监控新兴主题和错误分类项目的传入反馈。
- 缺乏透明度
虽然随着时间的推移,算法会变得越来越好,但我们不可能理解它为什么会以这种方式工作,从而轻松地调整结果。定性研究人员告诉我,缺乏透明度是文本分类在他们的世界里没有发展起来的主要原因。例如,如果在区分“安装光纤的等待时间”和“手机上设置光纤的等待时间”两个主题时,突然出现了很差的准确性,那么需要添加多少训练数据,直到算法不再犯这些错误?
- 准备和管理培训数据很困难
缺乏培训数据是一个现实问题。从头开始很难,大多数公司都没有足够或足够准确的数据来训练算法。事实上,公司总是高估他们拥有的培训数据量,这使得执行工作低于预期。最后,如果需要细化一个特定类别,则需要从头重新标记所有数据。
- 为每个新数据集重新训练
可移植性真的是个问题!假设您为您的一个部门(例如支持部门)提供了一个工作文本分类解决方案,现在希望分析来自客户调查(如NPS或CSAT)的反馈。同样,您需要重新训练算法。
我刚和一位调查分析领域的专家通完电话,她告诉我这样一个故事:一个数据科学家团队花了好几个月的时间,创造了一个解决方案,但由于缺乏准确性,她最终不得不放弃。该公司没有时间等待算法随着时间的推移而变得更好。
方法4:主题建模
主题造型也是一种机器学习方法,但是非监督的,这意味着这种方法从原始文本中学习。听起来很刺激,对吧?
偶尔,我听到洞察专业人士将任何机器学习方法称为“主题建模”,但数据科学家在说主题建模时通常指的是特定的算法。
它被称为LDA,是饶舌的潜在狄利克雷分配的首字母缩写。它是一种优雅的语言数学模型,可以捕捉主题(相似单词的列表)以及它们如何在不同的文本中跨越。
主题建模的实例
这里有一个例子将主题建模应用于啤酒评论:
- 输入是各种啤酒的评论
- 主题是类似词汇的集合黑咖啡,巧克力咖啡,黑咖啡,浓缩咖啡
- 每篇评论都有一个主题列表。在这个例子中,The Kernel Export stout London分配了4个主题。
主题也可以加权。例如,一个客户评论说:“你的客户支持很糟糕,请给我一个电话号码,可以有如下的权重和主题:
- 40%的支持、服务和员工
- 30%是坏的,可怜的,糟糕的
- 28%的数字,电话,电子邮件,电话
主题建模有什么了不起的
主题建模最好的一点是,除了原始的客户反馈,它不需要任何输入。如前所述,与文本分类不同,它是无监督的。简而言之,学习过程是通过观察哪些单词出现在哪些评论中,然后使用概率统计来获取这些信息。如果你喜欢数学,你会爱上这个概念,在相应的解释中详细说明维基百科的文章,如果这些公式有点太多,我建议Joyce Xu的解释。
有一些Text Analytics初创公司使用主题建模来提供反馈和其他文本数据集的分析。其他公司,比如例如StitchFix,使用主题建模来推动产品推荐。他们用一种称为词嵌入的深度学习技术扩展了传统的主题建模。它允许以更准确的方式捕获语义(在第5部分中有更多关于这方面的内容)。
为什么主题建模对反馈分析来说是一种不充分的技术
当用于反馈分析时,主题建模有一个主要缺点:
这些题目的意思真的很难解释
每个主题都捕捉到了语言的某些方面,但是以一种不透明的算法方式,这与人们理解语言的方式不同。例如,你如何理解上面例子中关于烈性啤酒的第二个和第四个话题:
第一个和第二个话题可以用“甜味”和“水果味”来“命名”,而其他两个话题只是单词的集合。
任何数据科学家都可以使用公共库来组合解决方案,这些公共库可以快速吐出一些有意义的输出。然而,将这些输出转换为可以支持业务决策的图表是困难的。监控特定主题如何随着时间的推移而变化,以确定所采取的行动是否有效,这就更难了。
总之,因为主题建模产生的结果很难解释,因为它缺乏透明度,就像文本分类算法一样,我不推荐这种方法来分析反馈。然而,我支持算法,因为它可以很好地捕捉语言属性,并且在其他需要自然语言理解的任务中工作得非常好。
方法5。主题分析(加上我们如何让它更好地工作的秘密武器)
前面提到的所有方法都有缺点。在最好的情况下,你只需要花几个月的时间来设置就会得到不错的结果。你可能会错过那些未知的未知。
行动迟缓或错失关键洞见的代价是巨大的!这可能会导致客户流失和增长停滞。这就是为什么,根据YCombinator(美国的创业加速器催生了比其他任何公司都多的十亿美元规模的公司),“无论什么时候你不在做产品,你都应该和你的用户交流。”
后主题在他们的节目中,我们通过调查三次,一次通过私人邮件,还有一次是当面向我们征求意见。YCombinator还使用Thematic来理解他们收集到的所有反馈。
说到客户反馈,有三件事很重要:
- 准确、具体和可操作的分析
- 能够快速看到出现的主题,而不需要设置东西
- 透明度的结果如何创建,带来领域的专业知识和常识的知识
在我的研究中,我了解到能够实现所有三个需求的唯一方法是主题分析,并结合一个易于编辑结果的界面。
主题分析:如何运作
专题分析方法从文本中提取主题,而不是对文本进行分类。换句话说,这是一个自下而上的分析。如果给出一条反馈,比如“当我要求设置婴儿床时,空乘人员很有帮助”,他们会提取出诸如“空乘人员”、“空乘人员很有帮助”、“要求设置婴儿床”和“婴儿床”等主题。
这些都是有意义的短语,在分析整个数据集时可能会有深刻的见解。
然而,主题分析方法中最关键的一步是将相似的短语合并到主题中,并以便于人们查看和编辑的方式组织它们。我们通过使用定制来实现这一点字嵌入实现,但是有不同的方法来实现。
例如,以下是三个人如何谈论同一件事,以及我们如何在主题中将结果划分为主题和子主题:
专题分析的优缺点
的优势专题分析这种方法是无监督的,这意味着你不需要提前设置这些类别,不需要训练算法,因此可以很容易地捕获未知的未知。
这种方法的缺点是很难正确地实现。一个完美的方法必须能够以一种有意义的方式合并和组织主题,产生一组不太通用也不太庞大的主题。理想情况下,主题必须捕获至少80%的逐字记录(人们的评论)。主题提取必须处理复杂的否定从句,例如“我不认为这是一杯好咖啡”。
谁做主题分析?
一些已经建立的更大的参与者已经实施了主题分析来增强他们的手动规则方法,但往往会产生一个难以审查的术语清单。
由NLP专家设计的传统文本分析api也使用这种方法。然而,它们很少在设计时考虑到客户的反馈,并试图以通用的方式解决这个问题。例如,当我们测试谷歌和微软的api时,我们发现它们没有开箱即用地对主题进行分组。
因此,只有20%到40%的反馈与十大主题相关:只有当人们谈论特定事物的方式有很强的相似性时才会出现这种情况。绝大多数反馈都是未分类的,这意味着你无法对数据进行切片以获得更深入的见解。
在Thematic,我们开发了一种主题分析方法,可以很容易地分析来自披萨外卖服务、音乐应用程序创建者、房地产经纪人等客户的反馈。我们通过专注于特定类型的文本实现了这一点:客户反馈,不像NLP api设计用于任何类型的文本。我们实现了复杂的否定算法,将积极的主题与消极的主题分开,以提供更好的洞察力。
我们的秘密武器,有人类参与
每个数据集,有时甚至每个调查问题,都有自己的一组主题,通过使用我们的主题编辑器,洞察专业人员可以改进主题以适合他们的业务。例如,theme可能会找到诸如“快速交付”、“快速和简单”、“一小时等待”、“慢速服务”、“延迟交付”等主题,并将它们归类为“服务速度”。一个有洞察力的专业人士可能会把这些重新归类为“服务速度”下的“慢”和“快”,另一个归类为“快服务”>“快捷”和“慢服务”>“一小时等待”,“交货延迟”。这是一项主观任务。
我相信越来越多的公司会发现主题分析,因为与所有其他方法不同,它是一种透明而深入的分析,不需要训练数据或时间来制定手动规则。
你有什么想法?
哪种方法适合你?
我们已经创建了一个小抄表,其中列出了文本分析方法,请看下面
想免费试用主题吗?让我们开始吧。