AI 五月 25, 2025

基于对话补全接口的问答能力评估

文章字数 9k 阅读约需 8 mins.

LLM Evaluator 是一个跨平台的命令行工具,旨在帮助用户评估基于兼容 OpenAI API 对话补全接口的大语言模型(或智能体、RAG 流程)对于有标准答案的问题的回答能力。

基本工作流程...

查看全文

AI 五月 11, 2025

一些短期免费调用 DeepSeek-V3-0324 等模型 API 的方法

文章字数 17k 阅读约需 15 mins.

有哪些可以短期免费调用 DeepSeek-V3-0324 等模型 API 的方法?

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324?inference_api=true&inference_provider=sambanova&language=sh

https://huggingface.co/settings/tokens

curl https://router.huggingface.co/sambanova/v1/chat...
查看全文

AI 五月 04, 2025

昇腾推理引擎性能测试套件 MindIE Benchmark

文章字数 17k 阅读约需 16 mins.

MindIE Benchmark 是 昇腾推理引擎(MindIE,Mind Inference Engine)中推理服务组件 MindIE Service 组件包含的性能测试套件,提供测试大语言模型在不同配置参数下推理性能和精度的能力。

详细信息可参见官方文档 MindIE Benchmark 1.0.0 功能介绍

MindIE Benchmark 支持 Client 和 Engine 两种不同的推理模式:

  1. Client 模式调用 MindIE Client 的 .generate() 和 ...
查看全文

AI 三月 23, 2025

用不同姿势给 DeepSeek 提示词的效果对比实验

文章字数 47k 阅读约需 42 mins.

在 DeepSeek-R1 的官方 GitHub 仓库 中,有如下一段推荐用法:

其中黑体字高亮的第二点提到:

避免添加系统提示词;所有指令应该被包含进用户提示词中。

这与其他 LLM 的通常用法有所不同。

那么在 DeepSeek-R1 系列模型中,用不同方式给提示词的效果有何不同呢?

本文除使用一些官方提示词对比实验外,还构建了一个复杂一些的场景:将 DeepSeek 作为一个知识问答助手,在一定限制条件下回答用户的问题。

先说实验结论:

  1. 在简单场景(如官方示例的提示库)下,使用系统提示...
查看全文

AI 二月 16, 2025

可本地部署使用的大模型显存资源估算工具

文章字数 3.5k 阅读约需 3 mins.

🤗 Model Memory Calculator🤗 Accelerate 库提供的一个模型显存计算工具,可估算模型训练或推理时所需的显存大小。

但目前该在线工具无法正常使用,即使使用默认的模型名称,也会报在 Hub 中无法找到该模型:

在该 space 的 discussions 中也有不少人遇到了此问题。

本文提供一种本地化部署运行此工具的方法,还可通过指定 HF_ENDPOINT 避免无法访问 Hugging Face 的问题。

直接部署 https://huggingface.co...

查看全文

AI 十二月 22, 2024

用 vLLM 在多节点多卡上部署 Qwen2.5 以及进行推理

文章字数 14k 阅读约需 13 mins.

本文记录了在两台机器,每台机器一块 Tesla T4 显卡的环境下,使用 vLLM 部署 Qwen2.5-32B-Instruct-GPTQ-Int4 模型的过程及遇到的问题,供类似环境使用 vLLM 进行多节点多卡推理参考。

  1. Qwen2.5-32B-Instruct-GPTQ-Int4vLLM
  2. docker v27.4.0nvidia-container-toolkit v1.17.3
  3. Tesla T4 显卡驱动 v550.127.08 CUDA12.4
# qwen
$ git clone...
查看全文

AI 十二月 01, 2024

用 Spring AI 调用 OpenAI 对话接口

文章字数 7.3k 阅读约需 7 mins.

使用 Spring AI 需要 JDK 17 及以上版本。

$ java -version
openjdk version "17.0.2" 2022-01-18
OpenJDK Runtime Environment (build 17.0.2+8-86)
OpenJDK 64-Bit Server VM (build 17.0.2+8-86, mixed mode, sharing)

https://start.spring.io/ 下载一个包含 Spring Web...

查看全文

AI 十一月 24, 2024

ARM 环境中部署 Dify

文章字数 26k 阅读约需 24 mins.

将下面内容保存为 arm-images.yaml,执行 docker compose -f arm-images.yaml pull 拉取所需镜像:

services:
  # The nginx reverse proxy.
  # used for reverse proxying the API service and Web service.
  nginx:
    image: nginx:1.27.2
    platform: arm64

  # API service
  api:
    image: langgenius...
查看全文

AI 九月 15, 2024

使用 Arthur Bench 评估本地领域模型

文章字数 11k 阅读约需 10 mins.

Arthur Bench 是一个评估大模型的开源工具。

使用 Arthur Bench 评估 LLM,需编写少量代码,即测试套件(TestSuite),在套件中选择内置评分方法(也可自定义评分方法),对 LLM 的相应内容进行评估打分。

内置的评分方法 分为四类:

  1. 基于提示词评分,如问答正确性(qa_correctness)、摘要质量(summary_quality)、是否存在幻觉(hallucination);
  2. 基于 Embedding 评分,如(bertscore)、(hedging_language...
查看全文

AI 八月 18, 2024

典型智能体框架介绍及实战

文章字数 7.5k 阅读约需 7 mins.

智能体,英文名称为 Agent,原意为代理人,当前语境下特指基于大语言模型的人工智能代理(LLM-powered agents、LLM based agents)。

关于智能体,目前还没有一个被广泛接受的定义。

“An autonomous agent is a system situated within and a part of an environment that senses that environment and acts on it, over time, in pursuit...

查看全文
加载更多
0%