AI 一月 28, 2024

HumanEval-X

文章字数 25k 阅读约需 23 mins.

HumanEval-X 是 清华大学 KEG 实验室 THUDMCodeGeeX 系列多语言代码生成模型中提供的一套评价标准。

使用了与 HumanEval 相似的评价方式,不同的是,除 Python...

查看全文

AI 十二月 31, 2023

HumanEval

文章字数 7.1k 阅读约需 6 mins.

HumanEval 是 OpenAI 用来评估大语言模型生成代码能力的工具,包括手写的 164 个 python 编程问题及解答的 jsonl 格式数据,以及执行评估的脚本。

先来看下数据集,下面是 HumanEval.jsonl.gz 中的一条数据:

{
    "task_id": "HumanEval/0",
    "prompt": "from typing import List\n\n\ndef has_close_elements...
查看全文

BOOK 十一月 12, 2023

《机器学习实战》书摘

文章字数 31k 阅读约需 28 mins.

1.2 为什么使用机器学习

使用机器学习方法挖掘大量数据来帮助发现不太明显的规律。这称作数据挖掘。

1.4 机器学习系统的类型

根据训练期间接受的监督数量和监督类型,可以将机器学习系统分为以下四个主要类别:有监督学习、无监督学习、半监督学习和强化学习。

在机器学习里,属性是一种数据类型(例如“里程”),而特征取决于上下文,可能有多个含义,但是通常状况下,特征意味着一个属性加上其值(例如,“里程=15 000”)。尽管如此,许多人还是在使用属性和特征这两个名词时不做区分。

降维的目的是在...

查看全文

AI 十月 14, 2023

一种从 🤗HuggingFace 下载模型的方法

文章字数 8.2k 阅读约需 7 mins.

无法直接从 HuggingFace 下载模型时,可借助此仓库,使用 GitHub Actions 构建一个 Docker 镜像,在镜像中用 huggingface_hub 下载好所需模型,再将镜像推送至 Docker Hub,最后以下载镜像方式曲线下载模型。

当前可用模型可见仓库 tags,仓库 tag 对应镜像 tag,如:

下载 codet5-small tag 对应的镜像命令为:

docker pull alphahinex/hf-models:codet5-small

镜像中包含的模型...

查看全文

AI 九月 17, 2023

【译】可视化神经机器翻译模型(Seq2seq 模型的注意力机制)

文章字数 10k 阅读约需 9 mins.

注意: 下面的动画是视频。轻触或(使用鼠标)悬停在它们上,可获得播放控件,以便在需要时暂停。

序列到序列(Sequence-to-sequence)模型是一种深度学习模型,在诸如机器翻译、文本摘要和图像标题生成等任务中取得了许多成功。...

查看全文

BOOK 八月 20, 2023

《Python 神经网络编程》书摘

文章字数 12k 阅读约需 11 mins.

更多又去的问题是没有一个简单的数学公式将输出和输入关联起来的。这就是我们需要诸如神经网络这样相对成熟而复杂的方法的原因。

关键点

  • 当我哦们不能精确知道一些事情如何运作时,我们可以尝试使用模型来估计其运作方式,在模型中,包括了我们可以调整的参数。
  • 改进这些模型的一种好方法是,基于模型和已知真实示例之间的比较,得到模型偏移的误差值,调整参数。

关键点

  • 使用朴素的调整方法会出现一个问题,即改进后的模型只与最后一次训练样本最匹配,“有效地”忽略了所有以前的训练样本。解决这个问题的一种好方法是...
查看全文

AI 七月 23, 2023

让 AI 辅助编写内部代码

文章字数 25k 阅读约需 23 mins.

用 PaddleNLP 结合 CodeGen 实现离线 GitHub CopilotGitHub Copilot 开源替代品 —— FauxPilot 中,我们分别使用 PaddleNLP 和 FauxPilot 将 CodeGen 模型代理为可通过 HTTP 请求访问的接口,并通过 VS Code 插件在 IDE 中获得与 GitHub Copilot 类似的 AI 辅助编码能力。

但不论是这种方式也好,或者是 GitHub Copilot,能够辅助编写的都是通用代码,无法辅助编写内...

查看全文

OTHERS 七月 16, 2023

处理大数据集的灵活格式 —— JSON Lines

文章字数 5.6k 阅读约需 5 mins.

JSON Lines,顾名思义,就是每行都是一个 JSON,是一种文本格式。

在处理和分析大型数据集时,JSON Lines 格式成为了一种受欢迎的选择。JSON Lines 通过将每个 JSON 对象放在独立的一行中,使得逐行读取和处理数据变得简单,易于处理大型数据集、容易与现有工具集成,具有灵活性和可扩展性、易于阅读和维护等特点。

与传统的 JSON 格式相比,JSON Lines 不需要一次性加载整个文件,而是可以逐行读取和处理数据。这种特性使得 JSON Lines 非常适用于处理大型数...

查看全文

BOOK 七月 09, 2023

《自然语言处理实战》书摘

文章字数 28k 阅读约需 25 mins.

自然语言通常所指的不仅是文本数据,还包括语音和声音数据。

1.1.1 热门应用

自然语言生成的一个流行的商业应用是“数据到文本”的软件系统,它生成数据库和数据集的文本摘要。

自然语言处理的一个主要挑战是从非结构化或半结构化的文档集合中创建结构化的数据。例如,命名实体识别软件能够从主流新闻等长篇文本中提取任务、组织、地点、日期和货币。信息提取还包括关系提取,如果实体之间存在关系,则提取相应的关系。

1.2.1 定义自然语言处理任务

分词、词性标注、依存句法分析、组块、词形还原和词干提取是...

查看全文

AI 六月 18, 2023

GitHub Copilot 开源替代品 —— FauxPilot

文章字数 7k 阅读约需 6 mins.

用 PaddleNLP 结合 CodeGen 实现离线 GitHub Copilot 介绍了使用 PaddleNLP + CodeGen 实现类似 GitHub Copilot 服务端的方式,客户端在 VSCode 中使用了 FauxPilot 插件。

FauxPilot 插件原本是对接 FauxPilot Server 的,通过 FauxPilot Server 也可以实现 GitHub Copilot 服务的功能,并支持多显卡加载 CodeGen 模型,可解决单卡显存不足又想加载大模型的问题...

查看全文
加载更多
0%