自然语言处理,看这个就够了

自然语言处理(NLP)是语言学、计算机科学和人工智能的一个子领域,涉及计算机和人类语言之间的互动,特别是如何为计算机编程以处理和分析大量的自然语言数据。其目标是使计算机能够 “理解” 文件的内容,包括文件中语言的上下文细微差别。然后,该技术可以准确地提取文件中的信息和见解,并对文件本身进行分类和组织。自然语言处理的挑战经常涉及语音识别、自然语言理解和自然语言生成。

加载中

Transformers TF-PT 用于 TF 2.0 和 PyTorch 的自然语言处理框架

Transformers 提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨让最先进的 NLP 技术人人易用。Transformers 提供了便于快速下载和使用的API,让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。 同时,每个定义的 Python 模块均完全独立,方便修改和快速研究实验。Transformers 支持三个最热门的深度学习库: Jax、PyTorch 和 TensorFlow — 并与之无缝整合。你可以直接使用一个框架训练你的模型然后用另一个加载和推理。
更新于 2023/04/23 18:55

HanLP 自然语言处理

面向生产环境的多语种自然语言处理工具包,基于 PyTorch 和 TensorFlow 2.x 双引擎,目标是普及落地最前沿的 NLP 技术。HanLP 具备功能完善、精度准确、性能高效、语料时新、架构清晰、可自定义的特点。 借助世界上最大的多语种语料库,HanLP 2.1 支持包括简繁中英日俄法德在内的 104 种语言上的 10 种联合任务以及多种单任务。HanLP 预训练了十几种任务上的数十个模型并且正在持续迭代语料库与模型。 HanLP 提供 RESTful 和 native 两种 API,分别面向轻量级和海量级两种场景。无论何种 API 何种语言,HanLP 接口在语义上保持一致,在代码上坚持开源。
更新于 2023/04/14 16:37

Chinese BERT 中文预训练语言模型

在自然语言处理领域中,预训练语言模型(Pre-trained Language Models)已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展,我们发布了基于全词遮罩(Whole Word Masking)技术的中文预训练模型 BERT-wwm,以及与此技术密切相关的模型:BERT-wwm-ext、RoBERTa-wwm-ext、RoBERTa-wwm-ext-large、RBT3、RBTL3。
更新于 2023/04/07 16:30

GPT-2 基于 transformer 的大型语言模型

Generative Pre-trained Transformer 2(GPT-2)是 OpenAI 在 2019 年 2 月创建的开源人工智能模型。GPT-2 翻译文本、回答问题、总结段落,并生成文本输出,其水平虽然有时与人类无异,但在生成长段落时可能变得重复或无意义。 它是一个通用的学习模型,没有被专门训练来完成这些任务。GPT-2 是作为 OpenAI 2018 年 GPT 模型的 "直接扩展" 而创建的,其参数数和训练数据集的大小都增加了 10 倍。 GPT 架构实现了一个深度神经网络,特别是一个转化器模型,这个模型大大增加了并行化,并且超过了以前基于 RNN/CNN/LSTM 模型的基准。 OpenAI 在 2019 年 11 月发布了 GPT-2 语言模型的完整版本(有 15 亿个参数)。GPT-2 之后是 1750 亿个参数的 GPT-3,其源代码从未被公开。
更新于 2023/10/12 15:45

Rasa 语音和文字聊天的机器学习框架

Rasa 是一个开源的机器学习框架,用于自动处理基于文本和语音的对话。通过 Rasa,你可以在以下基础上创建聊天机器人和语音助手。Rasa 可以让用户对话完全保密,并保护用户的 IP。 Rasa 允许开发者在自己的基础架构上运行助手的操作,而无需将客户消息发送到托管的第三方服务进行处理。
更新于 2023/03/27 08:47

PyText 基于 PyTorch 的 NLP 建模框架

PyText 是一个基于深度学习的 NLP 建模框架,建立在 PyTorch 之上。PyText 解决了快速实验和大规模服务模型这两个经常冲突的要求。 它通过为模型组件提供简单和可扩展的接口和抽象,以及利用 PyTorch 通过优化的 Caffe2 执行引擎输出模型进行推理的能力来实现这一目的。PyText 需要 Python 3.6.1 或更高版本。
更新于 2023/04/10 16:56

NLP Architect 英特尔自然语言处理库

NLP Architect 是一个开源的 Python 库,用于探索最先进的深度学习拓扑结构和技术,以优化自然语言处理和自然语言理解神经网络。该库包括英特尔过去和正在进行的 NLP 研究和开发工作,是英特尔 AI 实验室的一部分。 NLP Architect 基于 TensorFlow、PyTorch 和 Dynet 深度学习框架。包含 NLP/NLU 相关模型、不同的神经网络拓扑结构、简化库中工作流程的程序、预定义的数据处理器和数据集加载器以及一些实用工具。
更新于 2023/03/10 17:59

AllenNLP 基于 PyTorch 的 NLP 研究库

AllenNLP 是一个用于构建自然语言处理深度学习模型的开源库,它建立在 PyTorch 之上,旨在支持研究人员、工程师、学生等希望轻松建立高质量深度 NLP 模型的群体。 它为现代 NLP 中的常见组件和模型提供了高级抽象和 API。它还提供了一个可扩展的框架,使其易于运行和管理 NLP 实验。 AllenNLP 需要 Python 3.6.1 或更高版本以及 PyTorch,支持 Mac 和 Linux 环境,目前不支持 Windows。
更新于 2023/03/05 23:15
AllenNLP 基于 PyTorch 的 NLP 研究库

Stanford CoreNLP Java 编写的自然语言分析工具

Stanford CoreNLP 提供了一套用 Java 编写的自然语言分析工具。它可以接受原始的人类语言文本输入,并给出单词的基本形式、词性、它们是否是公司名称、人名等,能够以短语或单词的依赖性来标记句子的结构,并指出哪些名词短语是指同一实体。 它最初是为英语开发的,但现在也为阿拉伯语、中文、法语、德语和西班牙语提供不同程度的支持。Stanford CoreNLP 是一套稳定的、经过良好测试的自然语言处理工具,被学术界、工业界和政府的各种团体广泛使用。
更新于 2023/02/27 00:16

Stanza 斯坦福自然语言处理 Python 库

斯坦福大学 NLP 小组的官方 Python NLP 库。它包含对在 60 多种语言上运行各种精确自然语言处理工具的支持,以及对从 Python 访问 Java Stanford CoreNLP 软件的支持。 现在 Stanza 有一个新的生物医学和临床英语模型包集合,为生物医学文献文本和临床笔记的句法分析和命名实体识别(NER)提供无缝体验。 Stanza 需要 Python 3.6 或更高版本。
更新于 2023/02/19 19:59
Stanza 斯坦福自然语言处理 Python 库

spaCy NLP 自然语言文本处理库

spaCy 是一个在 Python 和 Cython 中进行高级自然语言处理的库。它建立在最新的研究之上,并且从设计之初就是为了在实际产品中使用。 spaCy 带有预训练的管线,目前支持 60 多种语言。它具有高速的特性,并且有用于标记,解析、命名实体识别、文本分类等功能的神经网络模型。spaCy 还具有生产就绪的训练系统和简单的模型打包、部署和工作流程管理。
更新于 2023/02/10 17:18

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部