AI 四月 19, 2026

Dify 1.13.3 中通过 API 触发包含人工节点的流程

文章字数 8.1k 阅读约需 7 mins.

Dify 在 v1.13.0 版本中引入了 Human Input 节点,以支持在工作流关键环节进行人工介入与决策,使用场景如表单填写、流程审批等。

人工节点的表单投递渠道,目前支持 Web App ...

查看全文

AI 三月 22, 2026

【译】混合专家(Mixture of Experts, MoE)

文章字数 4.3k 阅读约需 4 mins.


混合专家(Mixture of Experts, MoE)是近年来开源大模型能够拥有极高的总参数量,又不会使每次推理的代价同等昂贵的主要原因之一。

其基本思想是,用多个专家型前馈块(FeedForward blocks)替换单一的稠密前馈块,然后通过路由让每个 token 只激活其中的一小部分。


引自 大语言模型架构对比:主要结构的变化非...

查看全文

AI 三月 15, 2026

【转】如何调用Github Copilot订阅的Chat Completions API

文章字数 6k 阅读约需 5 mins.


这篇文章教你怎么自己编写代码,把你的Github Copilot订阅的API接出来用。

大致流程是:

  1. 发起 Device Flow 请求,获取device_codeuser_codeXXXX-XXXX)。
  2. 在浏览器访问 https://github.com/login/device,输入`user_code`。
  3. 轮询换取access_tokenghu_开头的 token)。
  4. access_token...
查看全文

AI 三月 01, 2026

MedImageInsight Image Encoder 过程分析

文章字数 15k 阅读约需 14 mins.

浅析 Embedding 模型 中,我们分析了 MedImageInsight 的 Text Encoder,本文将继续基于 lion-ai/MedImageInsights 版本(以下简称 MI2),分析其 Image Encoder,以及 MI2 是如何对图像和文本的嵌入结果进行相似度预测的。

MedImageInsight/ImageEncoder 中实现了 Convolutional Swin TransformerDaViT 两个版本的 Encoder。
2024.09.27...

查看全文

AI 二月 08, 2026

【转】【图解AI:动图】各种类型的卷积,你认全了吗?

文章字数 8.4k 阅读约需 8 mins.

卷积(convolution)是深度学习中非常有用的计算操作,主要用于提取图像的特征。在近几年来深度学习快速发展的过程中,卷积从标准卷积演变出了反卷积、可分离卷积、分组卷积等各种类型,以适应于不同的场景,接下来一起来认识它们吧。

卷积核(Kernel):卷积操作的感受野,直观理解就是一个滤波矩阵,普遍使用的卷积核大小为3×3、5×5等;

步长(Stride):卷积核遍历特征图...

查看全文

AI 一月 25, 2026

浅析 Embedding 模型

文章字数 11k 阅读约需 10 mins.

MedImageInsight 中,介绍了由微软发表,第三方发布的医学图像嵌入模型,本文将以其中的 Text Encoder 为例,浅析 Embedding 模型的工作原理。

Embedding 模型是一种将高维数据(如文本、图像等)转换为低维向量表示的模型。通过这种转换,模型能够捕捉数据的语义信息,使得相似的数据在向量空间中距离更近。

lion-ai/MedImageInsights 中的 Text Encoder 为例(其使用的分词器只支持英文),输入 ["lumbar spine...

查看全文

AI 一月 11, 2026

torch.nn.Embedding 中 max_norm 的作用

文章字数 7.7k 阅读约需 7 mins.

https://docs.pytorch.org/docs/stable/generated/torch.nn.Embedding.html#torch.nn.Embedding

nn.Embedding(num_embeddings, embedding_dim) 可以看成是一个查表词典

  • num_embeddings 行,每一行是一个 embedding_dim 维的向量。
  • 输入是索引(比如单词 ID、类别 ID),输出是对应行的向量。

max_norm 的作用:

给这个“词典...

查看全文

AI 十二月 21, 2025

MedImageInsight

文章字数 7.3k 阅读约需 7 mins.

MedImageInsight: AN OPEN-SOURCE EMBEDDING MODEL FOR GENERAL DOMAIN MEDICAL IMAGING 论文中提出了一个用于医学图像的开源嵌入模型:MedImageInsight。该模型采用类似 CLIP 的双塔架构,一个塔是图像编码器,另一个塔是文本编码器:

MedImageInsight 在未经微调的情况下,即可在分类、图像检索、报告生成等多种医学图像任务中表现出色:

该论文主要作者来自微软相关团队,在网络上搜索 MedImageInsight...

查看全文

BOOK 十月 12, 2025

《图解大模型:生成式AI原理与实战》书摘

文章字数 60k 阅读约需 55 mins.

豆瓣评分 7.4

GitHub仓库(https://github.com/HandsOnLLM/Hands-On-Large-Language-Models)

1.2 语言人工智能的近期发展史

1.2.2 用稠密向量嵌入获得更好的表示

如果两个词各自的相邻词集合有更大的交集,它们的词嵌入向量就会更接近,反之亦然。

1.2.3 嵌入的类型

有许多类型的嵌入,如词嵌入和句子嵌入,它们用于表示不同层次的抽象(词与句子)。

词袋模型在文档层面创建嵌入,因为一个嵌入表示的是整个文档。相比之下,word2vec...

查看全文
加载更多
0%