Category: AI - Alpha Hinex's Blog

「 AI 」九月 15, 2024

使用 Arthur Bench 评估本地领域模型

文章字数 11k 阅读约需 10 mins.

AI

Arthur Bench 是一个评估大模型的开源工具。

使用 Arthur Bench 评估 LLM，需编写少量代码，即测试套件（TestSuite），在套件中选择内置评分方法（也可自定义评分方法），对 LLM 的相应内容进行评估打分。

内置的评分方法分为四类：

基于提示词评分，如问答正确性（qa_correctness）、摘要质量（summary_quality）、是否存在幻觉（hallucination）；
基于 Embedding 评分，如（bertscore）、（hedging_language...

查看全文

「 AI 」八月 18, 2024

典型智能体框架介绍及实战

文章字数 7.5k 阅读约需 7 mins.

智能体，英文名称为 Agent，原意为代理人，当前语境下特指基于大语言模型的人工智能代理（LLM-powered agents、LLM based agents）。

关于智能体，目前还没有一个被广泛接受的定义。

“An autonomous agent is a system situated within and a part of an environment that senses that environment and acts on it, over time, in pursuit...

查看全文

「 AI 」六月 16, 2024

【译】向量搜索的相似度度量

文章字数 7.4k 阅读约需 7 mins.

英文原文：Similarity Metrics for Vector Search
原文作者：Yujian Tang

你不能比较苹果和橙子。或者你可以吗？像 Milvus 这样的向量数据库允许你比较任何你可以向量化的数据。你甚至可以在你的 Jupyter Notebook 中做到这一点。但是向量相似性搜索是如何工作的呢？

向量搜索有两个关键的概念组成部分：索引和距离度量。一些流行的向量索引包括 HNSW、IVF 和 ScaNN。主要的三种距离度量是：L2 或欧几里得距离、余弦相似度和...

查看全文

「 AI 」六月 02, 2024

Vanna 离线环境部署

文章字数 7k 阅读约需 6 mins.

Vanna 是一个 MIT 许可的开源 Python RAG（Retrieval-Augmented Generation）框架，可以用来以对话形式与 SQL 数据库交互。

Vanna 提供两种使用方式：

代码调用，如 vn.ask("What are the top 10 customers by sales?")
基于 Flash 的 Web 应用

工作原理

Vanna 的工作原理与通常的 RAG 原理类似，即：

先将数据库表的元数据信息、DDL 语句、SQL 查...

查看全文

「 AI 」四月 14, 2024

无外网环境部署 AgentFabric 及使用 AgentFabric 构建的 Agent

文章字数 8.8k 阅读约需 8 mins.

目标：在纯内网环境完成基于 ModelScope-Agent 的可定制化的 Agent 的构建和发布
前提：需在有外网环境提前下载好所需内容

在可以访问外网的环境中，准备一个工作目录（如：/data/work），在这个目录下进行后续操作。

1. 拉取镜像

拉取 ModelScope-Agent 镜像，镜像中已经安装好所需依赖。

docker pull registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope-agent:v0.3....

查看全文

「 AI 」一月 28, 2024

HumanEval-X

文章字数 25k 阅读约需 23 mins.

HumanEval-X 是清华大学 KEG 实验室 THUDM 在 CodeGeeX 系列多语言代码生成模型中提供的一套评价标准。

使用了与 HumanEval 相似的评价方式，不同的是，除 Python 外还包含了 C++、Java、JavaScript、Go 及 Rust 语言的手写样本，可对上述语言的代码生成能力进行评价：

接下来，我们以评估 StarCoderBase-7B 模型的 Java 代码生成能力为例，简单介绍一下 HumanEval-X 的用法。

先来看下数据集，引用如何...

查看全文

「 AI 」十二月 31, 2023

HumanEval

文章字数 7.1k 阅读约需 6 mins.

HumanEval 是 OpenAI 用来评估大语言模型生成代码能力的工具，包括手写的 164 个 python 编程问题及解答的 jsonl 格式数据，以及执行评估的脚本。

先来看下数据集，下面是 HumanEval.jsonl.gz 中的一条数据：

{
    "task_id": "HumanEval/0",
    "prompt": "from typing import List\n\n\ndef has_close_elements...

查看全文

「 AI 」十一月 05, 2023

DB-GPT v0.4.0 使用通义千问 API Chat Excel

文章字数 7.3k 阅读约需 7 mins.

DB-GPT

DB-GPT 是一个使用本地大模型（或在线 API）与数据交互的开源项目，Demo 中使用 ChatGPT 3.5 的接口，效果很吸引人。

让我们以通义千问为例，试试使用国产大模型在 DB-GPT 中能否达到类似的效果。

要通过 API 使用通义千问模型，需要在阿里云灵积模型服务中开通DashScope并创建API-KEY，获得 sk-xxxxx 格式的 API-KEY。

开通后会获得通义千问 qwen-turbo 和 qwen-plus 两个模型的调用权限和有效期为 180 天的 200w...

查看全文

「 AI 」十月 14, 2023

一种从 🤗HuggingFace 下载模型的方法

文章字数 8.2k 阅读约需 7 mins.

无法直接从 HuggingFace 下载模型时，可借助此仓库，使用 GitHub Actions 构建一个 Docker 镜像，在镜像中用 huggingface_hub 下载好所需模型，再将镜像推送至 Docker Hub，最后以下载镜像方式曲线下载模型。

当前可用模型可见仓库 tags，仓库 tag 对应镜像 tag，如：

下载 codet5-small tag 对应的镜像命令为：

docker pull alphahinex/hf-models:codet5-small

镜像中包含的模型...

查看全文

「 AI 」九月 17, 2023

【译】可视化神经机器翻译模型（Seq2seq 模型的注意力机制）

文章字数 10k 阅读约需 9 mins.

AI

原文地址：https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/
作者：Jay Alammar

注意： 下面的动画是视频。轻触或（使用鼠标）悬停在它们上，可获得播放控件，以便在需要时暂停。

序列到序列（Sequence-to-sequence）模型是一种深度学习模型，在诸如机器翻译、文本摘要和图像标题生成等任务中取得了许多成功。...

查看全文