1、命名实体识别(NER)
这种技术是语义分析中最流行和最有利的技术之一,语义是文本传达的东西。在这种技术下,该算法将一个短语或段落作为输入,并识别该输入中存在的所有名词或名称。
2、标记化
首先要了解标记化的含义,基本上就是将整个文本拆分成一个个词表,词表可以是单词、句子、字符、数字、标点符号等任何东西。标记化有两个主要优点,一个是大幅度减少搜索,二是有效利用存储空间。
将句子从字符映射到字符串和从字符串映射到单词的过程最初是NLP问题的基本步骤,因为要理解文本或文档,我们需要通过解释文本中存在的单词/句子来理解文本的含义。
标记化是任何信息检索(IR)系统的一个组成部分,它不仅涉及文本的预处理,而且还分别生成用于索引/排名过程的标记。有多种标记化技术可用,其中波特算法是最突出的技术之一。
3、词干和词形还原
与过去几年相比,网络上数据和信息的规模不断扩大,创下历史新高。这些庞大的数据和信息需要必要的工具和技术来轻松提取推理。
“词干提取是将屈折(或有时派生)的词简化为词干、基础或词根形式的过程——通常是单词的书面形式
词形还原通常是指正确使用词汇和词形分析来做事,通常旨在仅删除屈折词尾并返回单词的基本形式或字典形式,这被称为引理。
4、词袋
词袋技术用于预处理文本并从文本文档中提取所有特征以用于机器学习建模。它也是任何详细说明/解释语料库(文档)中单词出现的文本的表示
5、自然语言生成
自然语言生成(NLG)是一种使用原始结构化数据将其转换为简单英语或其他语言的技术。这种技术在使用大量数据的应用中非常有用,它将结构化数据转换为自然语言,以便更好地理解。
与自然语言理解(NLU)相反。NLG通过制作主要由数据驱动的报告,如股市和财务报告、会议备忘录、产品需求报告等,使所有人都能理解数据。
NLG都有这几个阶段
内容确定:确定要在文本中表示的主要内容或文本中提供的信息是什么。
文档聚类:决定要传达的信息的整体结构。
聚合:合并句子以提高句子的理解和可读性。
词汇选择:使用适当的词来更清楚地传达句子的意思。
引用表达式生成:创建引用以正确识别文本的主要对象和区域。
实现:创建和优化应遵循所有语法规范的文本。
6、情感分析
它是最常见的自然语言处理技术之一。通过情感分析,我们可以理解书面文字中的情感。情感分析也称为情绪AI或意见挖掘。
情感分析的基本任务是找出任何文档、句子、文本、社交媒体、电影评论中表达的观点是正面的、负面的还是中性的,也称为寻找文本的极性。
情感分析通常适用于主观文本数据而不是客观测试数据。客观的文本数据是不代表任何情感的陈述或事实。而主观文本通常是由人类写下的情感和感受。
7、分句
该技术最基本的任务是将所有文本分成有意义的句子或短语。该任务涉及识别文本文档中单词之间的句子边界。我们都知道几乎所有的语言都有标点符号出现在句子边界,所以句子分割也称为句子边界检测、句子边界消歧或句子边界识别。