AI 五月 25, 2025

基于对话补全接口的问答能力评估

文章字数 9k 阅读约需 8 mins.

LLM Evaluator 是一个跨平台的命令行工具,旨在帮助用户评估基于兼容 OpenAI API 对话补全接口的大语言模型(或智能体、RAG 流程)对于有标准答案的问题的回答能力。

基本工作流程...

查看全文

AI 五月 11, 2025

一些短期免费调用 DeepSeek-V3-0324 等模型 API 的方法

文章字数 17k 阅读约需 15 mins.

有哪些可以短期免费调用 DeepSeek-V3-0324 等模型 API 的方法?

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324?inference_api=true&inference_provider=sambanova&language=sh

https://huggingface.co/settings/tokens

curl https://router.huggingface.co/sambanova/v1/chat...
查看全文

GO 三月 09, 2025

Chat with LLMs

文章字数 11k 阅读约需 10 mins.

  • Releases 页面下载对应平台的二进制文件。
  • 生成配置文件模板
      ./chat-llms -t 
  • 去掉模板文件 _template 后缀,配置多模型信息、对话内容,如有需要还可配置系统提示词。
    models_config.yaml
      模型1_ID:
      endpoint: https://api.openai.com
      api-key: sk-xxxxxxxx
      model: text-davinci-003
      temperatures:
          - 0.5
          - 0.7
          - 0.9
      enabled: true...
查看全文

AI 二月 16, 2025

可本地部署使用的大模型显存资源估算工具

文章字数 3.5k 阅读约需 3 mins.

🤗 Model Memory Calculator🤗 Accelerate 库提供的一个模型显存计算工具,可估算模型训练或推理时所需的显存大小。

但目前该在线工具无法正常使用,即使使用默认的模型名称,也会报在 Hub 中无法找到该模型:

在该 space 的 discussions 中也有不少人遇到了此问题。

本文提供一种本地化部署运行此工具的方法,还可通过指定 HF_ENDPOINT 避免无法访问 Hugging Face 的问题。

直接部署 https://huggingface.co...

查看全文

AI 十二月 22, 2024

用 vLLM 在多节点多卡上部署 Qwen2.5 以及进行推理

文章字数 14k 阅读约需 13 mins.

本文记录了在两台机器,每台机器一块 Tesla T4 显卡的环境下,使用 vLLM 部署 Qwen2.5-32B-Instruct-GPTQ-Int4 模型的过程及遇到的问题,供类似环境使用 vLLM 进行多节点多卡推理参考。

  1. Qwen2.5-32B-Instruct-GPTQ-Int4vLLM
  2. docker v27.4.0nvidia-container-toolkit v1.17.3
  3. Tesla T4 显卡驱动 v550.127.08 CUDA12.4
# qwen
$ git clone...
查看全文

AI 十二月 01, 2024

用 Spring AI 调用 OpenAI 对话接口

文章字数 7.3k 阅读约需 7 mins.

使用 Spring AI 需要 JDK 17 及以上版本。

$ java -version
openjdk version "17.0.2" 2022-01-18
OpenJDK Runtime Environment (build 17.0.2+8-86)
OpenJDK 64-Bit Server VM (build 17.0.2+8-86, mixed mode, sharing)

https://start.spring.io/ 下载一个包含 Spring Web...

查看全文

AI 十一月 24, 2024

ARM 环境中部署 Dify

文章字数 26k 阅读约需 24 mins.

将下面内容保存为 arm-images.yaml,执行 docker compose -f arm-images.yaml pull 拉取所需镜像:

services:
  # The nginx reverse proxy.
  # used for reverse proxying the API service and Web service.
  nginx:
    image: nginx:1.27.2
    platform: arm64

  # API service
  api:
    image: langgenius...
查看全文

AI 九月 15, 2024

使用 Arthur Bench 评估本地领域模型

文章字数 11k 阅读约需 10 mins.

Arthur Bench 是一个评估大模型的开源工具。

使用 Arthur Bench 评估 LLM,需编写少量代码,即测试套件(TestSuite),在套件中选择内置评分方法(也可自定义评分方法),对 LLM 的相应内容进行评估打分。

内置的评分方法 分为四类:

  1. 基于提示词评分,如问答正确性(qa_correctness)、摘要质量(summary_quality)、是否存在幻觉(hallucination);
  2. 基于 Embedding 评分,如(bertscore)、(hedging_language...
查看全文

AI 八月 18, 2024

典型智能体框架介绍及实战

文章字数 7.5k 阅读约需 7 mins.

智能体,英文名称为 Agent,原意为代理人,当前语境下特指基于大语言模型的人工智能代理(LLM-powered agents、LLM based agents)。

关于智能体,目前还没有一个被广泛接受的定义。

“An autonomous agent is a system situated within and a part of an environment that senses that environment and acts on it, over time, in pursuit...

查看全文

AI 六月 16, 2024

【译】向量搜索的相似度度量

文章字数 7.4k 阅读约需 7 mins.


你不能比较苹果和橙子。或者你可以吗?像 Milvus 这样的向量数据库允许你比较任何你可以向量化的数据。你甚至可以在你的 Jupyter Notebook 中做到这一点。但是 向量相似性搜索 是如何工作的呢?

向量搜索有两个关键的概念组成部分:索引和距离度量。一些流行的向量索引包括 HNSWIVFScaNN。主要的三种距离度量是:L2 或欧几里得距离、余弦相似度和...

查看全文
加载更多
0%