「 AI 」 二月 16, 2025
可本地部署使用的大模型显存资源估算工具
文章字数 3.5k 阅读约需 3 mins.
🤗 Model Memory Calculator 是 🤗 Accelerate 库提供的一个模型显存计算工具,可估算模型训练或推理时所需的显存大小。
但目前该在线工具无法正常使用,即使使用默认的模型名称,也会报在 Hub 中无法找到该模型:
在该 space 的 discussions 中也有不少人遇到了此问题。
本文提供一种本地化部署运行此工具的方法,还可通过指定 HF_ENDPOINT
避免无法访问 Hugging Face 的问题。
直接部署 https://huggingface.co...
查看全文「 AI 」 十二月 22, 2024
用 vLLM 在多节点多卡上部署 Qwen2.5 以及进行推理
文章字数 14k 阅读约需 13 mins.
本文记录了在两台机器,每台机器一块 Tesla T4 显卡的环境下,使用 vLLM 部署 Qwen2.5-32B-Instruct-GPTQ-Int4 模型的过程及遇到的问题,供类似环境使用 vLLM 进行多节点多卡推理参考。
- Qwen2.5-32B-Instruct-GPTQ-Int4、vLLM
- docker v27.4.0、nvidia-container-toolkit v1.17.3
- Tesla T4 显卡驱动 v550.127.08 CUDA12.4
# qwen
$ git clone...
查看全文
「 AI 」 十二月 01, 2024
用 Spring AI 调用 OpenAI 对话接口
文章字数 7.3k 阅读约需 7 mins.
$ java -version
openjdk version "17.0.2" 2022-01-18
OpenJDK Runtime Environment (build 17.0.2+8-86)
OpenJDK 64-Bit Server VM (build 17.0.2+8-86, mixed mode, sharing)
从 https://start.spring.io/ 下载一个包含 Spring Web...
查看全文「 AI 」 十一月 24, 2024
ARM 环境中部署 Dify
文章字数 26k 阅读约需 24 mins.
将下面内容保存为 arm-images.yaml
,执行 docker compose -f arm-images.yaml pull
拉取所需镜像:
services:
# The nginx reverse proxy.
# used for reverse proxying the API service and Web service.
nginx:
image: nginx:1.27.2
platform: arm64
# API service
api:
image: langgenius...
查看全文
「 AI 」 九月 15, 2024
使用 Arthur Bench 评估本地领域模型
文章字数 11k 阅读约需 10 mins.
Arthur Bench 是一个评估大模型的开源工具。
使用 Arthur Bench
评估 LLM,需编写少量代码,即测试套件(TestSuite
),在套件中选择内置评分方法(也可自定义评分方法),对 LLM 的相应内容进行评估打分。
内置的评分方法 分为四类:
- 基于提示词评分,如问答正确性(
qa_correctness
)、摘要质量(summary_quality
)、是否存在幻觉(hallucination
); - 基于 Embedding 评分,如(
bertscore
)、(hedging_language...
「 AI 」 八月 18, 2024
典型智能体框架介绍及实战
文章字数 7.5k 阅读约需 7 mins.
智能体,英文名称为 Agent,原意为代理人,当前语境下特指基于大语言模型的人工智能代理(LLM-powered agents、LLM based agents)。
关于智能体,目前还没有一个被广泛接受的定义。
查看全文“An autonomous agent is a system situated within and a part of an environment that senses that environment and acts on it, over time, in pursuit...
「 AI 」 六月 16, 2024
【译】向量搜索的相似度度量
文章字数 7.4k 阅读约需 7 mins.