Category: AI - Alpha Hinex's Blog

「 AI 」六月 29, 2025

用 TEI 部署向量嵌入和重排模型，并在 Dify 中使用

文章字数 21k 阅读约需 19 mins.

AI
RAG

TEI（Text Embeddings Inference）是 Hugging Face 提供的一个服务框架，用于部署和运行文本嵌入模型，以及序列分类模型（重排模型）。它支持多种模型格式，性能优异，并提供了 RESTful API 接口，方便与其他应用集成。

Benchmark for BAAI/bge-base-en-v1.5 on an Nvidia A10 with a sequence length of 512 tokens:

CPU 环境部署

最新 1.7 版本 CPU 镜像可能存...

查看全文

「 AI 」六月 22, 2025

Ilya Rice: How I Won the Enterprise RAG Challenge

文章字数 53k 阅读约需 48 mins.

AI
RAG

https://abdullin.com/ilya/how-to-build-best-rag/

In this guest blog post Ilya Rice describes the approach that helped him build the best RAG and win in the Enterprise RAG Challenge. He took first place in both prize categories and on SotA leaderboard...

查看全文

「 AI 」五月 25, 2025

基于对话补全接口的问答能力评估

文章字数 9k 阅读约需 8 mins.

LLM Evaluator 是一个跨平台的命令行工具，旨在帮助用户评估基于兼容 OpenAI API 对话补全接口的大语言模型（或智能体、RAG 流程）对于有标准答案的问题的回答能力。

基本工作流程为：

llm-evaluator 通过配置文件读取待评估的问题及标准答案，评估标准可选，默认为本质含义一致，可设置为 = 表示必须与标准答案完全一致；
调用候选模型对话补全接口，获得候选模型对待评估问题的回答；
使用评估提示词组装问题、标准答案和候选模型回答的内容，交由评估模型对回答进行评估；
评...

查看全文

「 AI 」五月 11, 2025

一些短期免费调用 DeepSeek-V3-0324 等模型 API 的方法

文章字数 17k 阅读约需 15 mins.

AI
LLM

有哪些可以短期免费调用 DeepSeek-V3-0324 等模型 API 的方法？

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324?inference_api=true&inference_provider=sambanova&language=sh

https://huggingface.co/settings/tokens

curl https://router.huggingface.co/sambanova/v1/chat...

查看全文

「 AI 」五月 04, 2025

昇腾推理引擎性能测试套件 MindIE Benchmark

文章字数 17k 阅读约需 16 mins.

MindIE Benchmark 是昇腾推理引擎（MindIE，Mind Inference Engine）中推理服务组件 MindIE Service 组件包含的性能测试套件，提供测试大语言模型在不同配置参数下推理性能和精度的能力。

详细信息可参见官方文档 MindIE Benchmark 1.0.0 功能介绍。

MindIE Benchmark 支持 Client 和 Engine 两种不同的推理模式：

Client 模式调用 MindIE Client 的 .generate() 和 ...

查看全文

「 AI 」三月 23, 2025

用不同姿势给 DeepSeek 提示词的效果对比实验

文章字数 47k 阅读约需 42 mins.

在 DeepSeek-R1 的官方 GitHub 仓库中，有如下一段推荐用法：

其中黑体字高亮的第二点提到：

避免添加系统提示词；所有指令应该被包含进用户提示词中。

这与其他 LLM 的通常用法有所不同。

那么在 DeepSeek-R1 系列模型中，用不同方式给提示词的效果有何不同呢？

本文除使用一些官方提示词对比实验外，还构建了一个复杂一些的场景：将 DeepSeek 作为一个知识问答助手，在一定限制条件下回答用户的问题。

先说实验结论：

在简单场景（如官方示例的提示库）下，使用系统提示...

查看全文

「 AI 」二月 16, 2025

可本地部署使用的大模型显存资源估算工具

文章字数 3.5k 阅读约需 3 mins.

🤗 Model Memory Calculator 是 🤗 Accelerate 库提供的一个模型显存计算工具，可估算模型训练或推理时所需的显存大小。

但目前该在线工具无法正常使用，即使使用默认的模型名称，也会报在 Hub 中无法找到该模型：

在该 space 的 discussions 中也有不少人遇到了此问题。

本文提供一种本地化部署运行此工具的方法，还可通过指定 HF_ENDPOINT 避免无法访问 Hugging Face 的问题。

直接部署 https://huggingface.co...

查看全文

「 AI 」十二月 22, 2024

用 vLLM 在多节点多卡上部署 Qwen2.5 以及进行推理

文章字数 14k 阅读约需 13 mins.

本文记录了在两台机器，每台机器一块 Tesla T4 显卡的环境下，使用 vLLM 部署 Qwen2.5-32B-Instruct-GPTQ-Int4 模型的过程及遇到的问题，供类似环境使用 vLLM 进行多节点多卡推理参考。

Qwen2.5-32B-Instruct-GPTQ-Int4、vLLM
docker v27.4.0、nvidia-container-toolkit v1.17.3
Tesla T4 显卡驱动 v550.127.08 CUDA12.4

# qwen
$ git clone...

查看全文

「 AI 」十二月 01, 2024

用 Spring AI 调用 OpenAI 对话接口

文章字数 7.3k 阅读约需 7 mins.

使用 Spring AI 需要 JDK 17 及以上版本。

$ java -version
openjdk version "17.0.2" 2022-01-18
OpenJDK Runtime Environment (build 17.0.2+8-86)
OpenJDK 64-Bit Server VM (build 17.0.2+8-86, mixed mode, sharing)

从 https://start.spring.io/ 下载一个包含 Spring Web...

查看全文

「 AI 」十一月 24, 2024

ARM 环境中部署 Dify

文章字数 26k 阅读约需 24 mins.

将下面内容保存为 arm-images.yaml，执行 docker compose -f arm-images.yaml pull 拉取所需镜像：

services:
  # The nginx reverse proxy.
  # used for reverse proxying the API service and Web service.
  nginx:
    image: nginx:1.27.2
    platform: arm64

  # API service
  api:
    image: langgenius...

查看全文