OTHERS 七月 16, 2023

处理大数据集的灵活格式 —— JSON Lines

文章字数 5.6k 阅读约需 5 mins.

JSON Lines,顾名思义,就是每行都是一个 JSON,是一种文本格式。

在处理和分析大型数据集时,JSON Lines 格式成为了一种受欢迎的选择。JSON Lines 通过将每个 JSON 对...

查看全文

OTHERS 七月 16, 2023

处理大数据集的灵活格式 —— JSON Lines

文章字数 5.6k 阅读约需 5 mins.

JSON Lines,顾名思义,就是每行都是一个 JSON,是一种文本格式。

在处理和分析大型数据集时,JSON Lines 格式成为了一种受欢迎的选择。JSON Lines 通过将每个 JSON 对象放在独立的一行中,使得逐行读取和处理数据变得简单,易于处理大型数据集、容易与现有工具集成,具有灵活性和可扩展性、易于阅读和维护等特点。

与传统的 JSON 格式相比,JSON Lines 不需要一次性加载整个文件,而是可以逐行读取和处理数据。这种特性使得 JSON Lines 非常适用于处理大型数...

查看全文

BOOK 七月 09, 2023

《自然语言处理实战》书摘

文章字数 28k 阅读约需 25 mins.

自然语言通常所指的不仅是文本数据,还包括语音和声音数据。

1.1.1 热门应用

自然语言生成的一个流行的商业应用是“数据到文本”的软件系统,它生成数据库和数据集的文本摘要。

自然语言处理的一个主要挑战是从非结构化或半结构化的文档集合中创建结构化的数据。例如,命名实体识别软件能够从主流新闻等长篇文本中提取任务、组织、地点、日期和货币。信息提取还包括关系提取,如果实体之间存在关系,则提取相应的关系。

1.2.1 定义自然语言处理任务

分词、词性标注、依存句法分析、组块、词形还原和词干提取是...

查看全文

LINUX 七月 02, 2023

scp 用法

文章字数 4.5k 阅读约需 4 mins.

scp 是 Linux 上两个网络主机之间传输文件的命令行工具。

scp [options] source ... target
  • options 有很多,可通过 man scp 查看
  • source 为传输的源文件或路径,可以多个
  • target 为传输目标路径

sourcetarget 为本地路径时,直接使用文件系统绝对路径即可;当为远程路径时,可使用如下两种格式:

  1. user@host:/path/to/file
  2. scp://user@host:port//path/to/file
... 查看全文

JAVA 六月 24, 2023

【转】CPU飙升排查

文章字数 2.1k 阅读约需 2 mins.

原文地址:https://softleadergy.github.io/CPU%E9%A3%99%E5%8D%87%E6%8E%92%E6%9F%A5/

线上资源cpu飙升是我们工作中常见的问题,一篇文章搞定排查方法

现在我有两个接口,代码如下

@RestController
public class CPUCheck {
  @RequestMapping("/hello")
  public String helloWorld(){
      return "hello World...
查看全文

AI 六月 18, 2023

GitHub Copilot 开源替代品 —— FauxPilot

文章字数 7k 阅读约需 6 mins.

用 PaddleNLP 结合 CodeGen 实现离线 GitHub Copilot 介绍了使用 PaddleNLP + CodeGen 实现类似 GitHub Copilot 服务端的方式,客户端在 VSCode 中使用了 FauxPilot 插件。

FauxPilot 插件原本是对接 FauxPilot Server 的,通过 FauxPilot Server 也可以实现 GitHub Copilot 服务的功能,并支持多显卡加载 CodeGen 模型,可解决单卡显存不足又想加载大模型的问题...

查看全文

AI 六月 11, 2023

用 PaddleNLP 结合 CodeGen 实现离线 GitHub Copilot

文章字数 14k 阅读约需 13 mins.

代码生成:写代码的AI助理 中给出了用 PaddleNLP 结合 CodeGen 实现代码 AI 助理的例子。

文档内容比较简略,实操下来可能会遇到不少问题。本文以离线环境部署为前提,给出一个实际案例。

先上最终效果:

为避免各种组件版本的兼容性问题,本文使用 Docker 方式部署,并需装好显卡驱动等。可按下述方式检查所需组件状态。

$ nvidia-smi
+------------------------------------------------------------------...
查看全文

BOOK 六月 04, 2023

《领导力》书摘

文章字数 26k 阅读约需 23 mins.

领导者应该干什么?怎样干才能事业成功?才能在组织中成就卓越? … 任何一个普普通通的人,只要养成以身作则、共启愿景、挑战现状、使众人行和激励人心这五种习惯行为,成为卓越领导者将是大概率时间,形成的卓越领导力将是真实可信的。

毛泽东认为领导工作千头万绪,但只有两件大事,一是出主意,二是用干部。换言之,决策行为和用人行为就是卓越领导不可或缺的两大行为。决策行为就是要共启愿景、挑战现状;用人行为则要以身作则、使众人行和激励人心。

具备诚实的、有前瞻性、有胜任力的和能激发人的这四种品质的人容易...

查看全文

JAVA 五月 28, 2023

用 IDEA 写更整洁的 Java 代码

文章字数 5.1k 阅读约需 5 mins.

新版本 IDEA 支持设置保存时的动作,在 Preferences 下的 Tools | Actions on Save 中:

支持如下动作:

  • Reformat code: 根据当前代码风格设置执行格式化代码动作,可设置生效的文件类型及范围(整个文件、变更部分)
  • Optimize imports: 根据当前代码风格设置执行移除无用 import 及重新组织 import,可设置生效的文件类型
  • Rearrange code: 根据当前代码风格设置执行代码重排序动作
  • Run code cleanup...
查看全文

BOOK 五月 21, 2023

《A Survey of Large Language Models》论文 v4 中文版摘抄

文章字数 17k 阅读约需 16 mins.

有趣的是,当参数规模超过一定水平时,这些规模扩大的语言模型的性能不仅得到了显著提升,而且还表现出一些小规模语言模型(如 BERT)所不具备的特殊能力(如上下文学习)。

语言建模是提高机器语言智能的主要方法之一

可以分为四个主要发展阶段

  1. 统计语言模型(SLM)
  2. 神经语言模型(NLM)
  3. 预训练语言模型(PLM)
  4. 大语言模型(LLM)

本综述从四个主要方面对 LLM 的最近进展进行文献综述,包括预训练(如何预训练出一个有能力的 LLM)、适应微调(如何从有效性和安全性两个角度有效地微...

查看全文

AI 五月 14, 2023

PaddleNLP 离线使用已下载好的社区模型

文章字数 10k 阅读约需 9 mins.

使用 PaddleNLP 加载社区模型时,因为社区模型需联网下载,可先从在线环境进行模型下载,再将下载好的模型传输到离线环境中。此时在离线环境下可能会遇到 https://github.com/PaddlePaddle/PaddleNLP/pull/5817 中描述的问题,可参照该 PR files 中内容修改,以支持离线环境的正常使用。

PaddleNLP是一款简单易用且功能强大的自然语言处理开发库。聚合业界优质预训练模型并提供开箱即用的开发体验,覆盖NLP多场景的模型库搭配产业实践范例可满...

查看全文
加载更多
0%