文本处理直接应用于自然语言处理,也称为NLP。 NLP旨在处理人类在彼此交流时所说或写的语言。 这不同于计算机和人之间的通信,其中通信是由人写的计算机程序或人的某些姿势,例如在某个位置点击鼠标。 NLP试图理解人类所说的自然语言并对其进行分类,并在必要时对其进行分析。 Python拥有丰富的库,可满足NLP的需求。自然语言工具包(NLTK)是一套这样的库,它提供了NLP所需的功能。
下面是一些使用NLP和python间接使用NLTK的应用程序。
概要
很多时候,我们需要获得新闻文章,电影情节或重大故事的摘要。 它们都是用人类语言编写的,而不使用NLP,我们需要依赖另一个人对总结和解释。 但是在NLP的帮助下,我们可以编写程序来使用NLTK,并用各种参数汇总长文本,比如在最终输出中想要的文本百分比,选择正面和负面的词汇进行汇总等。在线新闻提要依赖 在这种摘要技术上提出新闻见解。
基于语音的工具
像苹果Siri或亚马逊Alexa这样的基于语音的工具依靠NLP来理解与人类交互非常成功。 他们有大量的单词,句子和语法训练数据集来解释来自人类的问题或命令并对其进行处理。 虽然它是关于语音的,但间接地翻译成文本,并且由语音产生的文本通过NLP系统来产生结果。
信息提取
Web抓取是使用python代码从网页中提取数据的常见示例。 这里它可能不是严格基于NLP,但它确实涉及文本处理。 例如,如果只需要提取html页面中存在的标题,那么在页面结构中查找h1
标记,并找到一种方法来仅在这些标记之间提取文本。 这需要来自python的文本处理程序。
垃圾邮件过滤
通过分析主题行中的文本以及消息的内容,可以识别和消除电子邮件中的垃圾邮件。 由于垃圾邮件通常是批量发送给许多收件人,即使他们的主题和内容变化很小,也可以进行匹配和标记以将其标记为垃圾邮件。它也需要使用NLTK库。
语言翻译
计算机化的语言翻译在很大程度上依赖于NLP。 随着在线平台中使用越来越多的语言,将语言从一种语言自动转换为另一种语言变得必不可少。 这将涉及编程以处理翻译中涉及的语言的词汇,语法和上下文标记。 同样,也可以使用NLTK处理这些要求。
情绪分析
要找出对电影表现的整体反应,我们可能需要阅读来自观众的数千条反馈帖子。但也可以通过词语和句子分析使用积极的负反馈分类自动化。 然后测量正面和负面评论的频率,以找出观众的整体情绪。 这显然需要分析观众所写的人类语言,NLTK也可以用于处理这样的文本。