AI 一月 03, 2026

《从零构建大模型》书摘

文章字数 26k 阅读约需 23 mins.

豆瓣评分 9.3

本书中的所有代码示例均可在Manning出版社的官方网站(https://www.manning.com/books/build-a-large-language-model-from...

查看全文

AI 十二月 21, 2025

MedImageInsight

文章字数 7.3k 阅读约需 7 mins.

MedImageInsight: AN OPEN-SOURCE EMBEDDING MODEL FOR GENERAL DOMAIN MEDICAL IMAGING 论文中提出了一个用于医学图像的开源嵌入模型:MedImageInsight。该模型采用类似 CLIP 的双塔架构,一个塔是图像编码器,另一个塔是文本编码器:

MedImageInsight 在未经微调的情况下,即可在分类、图像检索、报告生成等多种医学图像任务中表现出色:

该论文主要作者来自微软相关团队,在网络上搜索 MedImageInsight...

查看全文

BOOK 十月 12, 2025

《图解大模型:生成式AI原理与实战》书摘

文章字数 60k 阅读约需 55 mins.

豆瓣评分 7.4

GitHub仓库(https://github.com/HandsOnLLM/Hands-On-Large-Language-Models)

1.2 语言人工智能的近期发展史

1.2.2 用稠密向量嵌入获得更好的表示

如果两个词各自的相邻词集合有更大的交集,它们的词嵌入向量就会更接近,反之亦然。

1.2.3 嵌入的类型

有许多类型的嵌入,如词嵌入和句子嵌入,它们用于表示不同层次的抽象(词与句子)。

词袋模型在文档层面创建嵌入,因为一个嵌入表示的是整个文档。相比之下,word2vec...

查看全文

AI 六月 29, 2025

用 TEI 部署向量嵌入和重排模型,并在 Dify 中使用

文章字数 21k 阅读约需 19 mins.

TEI(Text Embeddings Inference)是 Hugging Face 提供的一个服务框架,用于部署和运行文本嵌入模型,以及序列分类模型(重排模型)。它支持多种模型格式,性能优异,并提供了 RESTful API 接口,方便与其他应用集成。

Benchmark for BAAI/bge-base-en-v1.5 on an Nvidia A10 with a sequence length of 512 tokens:

CPU 环境部署

最新 1.7 版本 CPU 镜像可能存...

查看全文

AI 六月 22, 2025

Ilya Rice: How I Won the Enterprise RAG Challenge

文章字数 53k 阅读约需 48 mins.

https://abdullin.com/ilya/how-to-build-best-rag/

In this guest blog post Ilya Rice describes the approach that helped him build the best RAG and win in the Enterprise RAG Challenge. He took first place in both prize categories and on SotA leaderboard...

查看全文

AI 五月 25, 2025

基于对话补全接口的问答能力评估

文章字数 9k 阅读约需 8 mins.

LLM Evaluator 是一个跨平台的命令行工具,旨在帮助用户评估基于兼容 OpenAI API 对话补全接口的大语言模型(或智能体、RAG 流程)对于有标准答案的问题的回答能力。

基本工作流程为:

  1. llm-evaluator 通过配置文件读取待评估的问题及标准答案,评估标准可选,默认为本质含义一致,可设置为 = 表示必须与标准答案完全一致;
  2. 调用候选模型对话补全接口,获得候选模型对待评估问题的回答;
  3. 使用评估提示词组装问题、标准答案和候选模型回答的内容,交由评估模型对回答进行评估;
  4. 评...
查看全文

AI 五月 11, 2025

一些短期免费调用 DeepSeek-V3-0324 等模型 API 的方法

文章字数 17k 阅读约需 15 mins.

有哪些可以短期免费调用 DeepSeek-V3-0324 等模型 API 的方法?

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324?inference_api=true&inference_provider=sambanova&language=sh

https://huggingface.co/settings/tokens

curl https://router.huggingface.co/sambanova/v1/chat...
查看全文

GO 三月 09, 2025

Chat with LLMs

文章字数 11k 阅读约需 10 mins.

  • Releases 页面下载对应平台的二进制文件。
  • 生成配置文件模板
      ./chat-llms -t 
  • 去掉模板文件 _template 后缀,配置多模型信息、对话内容,如有需要还可配置系统提示词。
    models_config.yaml
      模型1_ID:
      endpoint: https://api.openai.com
      api-key: sk-xxxxxxxx
      model: text-davinci-003
      temperatures:
          - 0.5
          - 0.7
          - 0.9
      enabled: true...
查看全文

AI 二月 16, 2025

可本地部署使用的大模型显存资源估算工具

文章字数 3.5k 阅读约需 3 mins.

🤗 Model Memory Calculator🤗 Accelerate 库提供的一个模型显存计算工具,可估算模型训练或推理时所需的显存大小。

但目前该在线工具无法正常使用,即使使用默认的模型名称,也会报在 Hub 中无法找到该模型:

在该 space 的 discussions 中也有不少人遇到了此问题。

本文提供一种本地化部署运行此工具的方法,还可通过指定 HF_ENDPOINT 避免无法访问 Hugging Face 的问题。

直接部署 https://huggingface.co...

查看全文

AI 十二月 22, 2024

用 vLLM 在多节点多卡上部署 Qwen2.5 以及进行推理

文章字数 14k 阅读约需 13 mins.

本文记录了在两台机器,每台机器一块 Tesla T4 显卡的环境下,使用 vLLM 部署 Qwen2.5-32B-Instruct-GPTQ-Int4 模型的过程及遇到的问题,供类似环境使用 vLLM 进行多节点多卡推理参考。

  1. Qwen2.5-32B-Instruct-GPTQ-Int4vLLM
  2. docker v27.4.0nvidia-container-toolkit v1.17.3
  3. Tesla T4 显卡驱动 v550.127.08 CUDA12.4
# qwen
$ git clone...
查看全文
加载更多
0%