BOOK 七月 09, 2023

《自然语言处理实战》书摘

文章字数 28k 阅读约需 25 mins.

自然语言通常所指的不仅是文本数据,还包括语音和声音数据。

1.1.1 热门应用

自然语言生成的一个流行的商业应用是“数据到文本”的软件系统,它生成数据库和数据集的文本摘要。

自然语言处理的一个...

查看全文

BOOK 七月 09, 2023

《自然语言处理实战》书摘

文章字数 28k 阅读约需 25 mins.

自然语言通常所指的不仅是文本数据,还包括语音和声音数据。

1.1.1 热门应用

自然语言生成的一个流行的商业应用是“数据到文本”的软件系统,它生成数据库和数据集的文本摘要。

自然语言处理的一个主要挑战是从非结构化或半结构化的文档集合中创建结构化的数据。例如,命名实体识别软件能够从主流新闻等长篇文本中提取任务、组织、地点、日期和货币。信息提取还包括关系提取,如果实体之间存在关系,则提取相应的关系。

1.2.1 定义自然语言处理任务

分词、词性标注、依存句法分析、组块、词形还原和词干提取是...

查看全文

AI 六月 18, 2023

GitHub Copilot 开源替代品 —— FauxPilot

文章字数 7k 阅读约需 6 mins.

用 PaddleNLP 结合 CodeGen 实现离线 GitHub Copilot 介绍了使用 PaddleNLP + CodeGen 实现类似 GitHub Copilot 服务端的方式,客户端在 VSCode 中使用了 FauxPilot 插件。

FauxPilot 插件原本是对接 FauxPilot Server 的,通过 FauxPilot Server 也可以实现 GitHub Copilot 服务的功能,并支持多显卡加载 CodeGen 模型,可解决单卡显存不足又想加载大模型的问题...

查看全文

AI 六月 11, 2023

用 PaddleNLP 结合 CodeGen 实现离线 GitHub Copilot

文章字数 14k 阅读约需 13 mins.

代码生成:写代码的AI助理 中给出了用 PaddleNLP 结合 CodeGen 实现代码 AI 助理的例子。

文档内容比较简略,实操下来可能会遇到不少问题。本文以离线环境部署为前提,给出一个实际案例。

先上最终效果:

为避免各种组件版本的兼容性问题,本文使用 Docker 方式部署,并需装好显卡驱动等。可按下述方式检查所需组件状态。

$ nvidia-smi
+------------------------------------------------------------------...
查看全文

AI 五月 14, 2023

PaddleNLP 离线使用已下载好的社区模型

文章字数 10k 阅读约需 9 mins.

使用 PaddleNLP 加载社区模型时,因为社区模型需联网下载,可先从在线环境进行模型下载,再将下载好的模型传输到离线环境中。此时在离线环境下可能会遇到 https://github.com/PaddlePaddle/PaddleNLP/pull/5817 中描述的问题,可参照该 PR files 中内容修改,以支持离线环境的正常使用。

PaddleNLP是一款简单易用且功能强大的自然语言处理开发库。聚合业界优质预训练模型并提供开箱即用的开发体验,覆盖NLP多场景的模型库搭配产业实践范例可满...

查看全文
0%