Tag: Python - Alpha Hinex's Blog

「 AI 」一月 25, 2026

浅析 Embedding 模型

文章字数 11k 阅读约需 10 mins.

在 MedImageInsight 中，介绍了由微软发表，第三方发布的医学图像嵌入模型，本文将以其中的 Text Encoder 为例，浅析 Embedding 模型的工作原理。

Embedding 模型是一种将高维数据（如文本、图像等）转换为低维向量表示的模型。通过这种转换，模型能够捕捉数据的语义信息，使得相似的数据在向量空间中距离更近。

以 lion-ai/MedImageInsights 中的 Text Encoder 为例（其使用的分词器只支持英文），输入 ["lumbar spine...

查看全文

「 AI 」一月 11, 2026

torch.nn.Embedding 中 max_norm 的作用

文章字数 7.7k 阅读约需 7 mins.

https://docs.pytorch.org/docs/stable/generated/torch.nn.Embedding.html#torch.nn.Embedding

nn.Embedding(num_embeddings, embedding_dim) 可以看成是一个查表词典：

有 num_embeddings 行，每一行是一个 embedding_dim 维的向量。
输入是索引（比如单词 ID、类别 ID），输出是对应行的向量。

max_norm 的作用：

给这个“词典...

查看全文

「 AI 」一月 03, 2026

《从零构建大模型》书摘

文章字数 26k 阅读约需 23 mins.

豆瓣评分 9.3

本书中的所有代码示例均可在Manning出版社的官方网站(https://www.manning.com/books/build-a-large-language-model-from-scratch)和GitHub(https://github.com/rasbt/LLMs-from-scratch)上找到

https://magazine.sebastianraschka.com

https://sebastianraschka.com

• [PAD]（...

查看全文

「 AI 」十二月 21, 2025

MedImageInsight

文章字数 7.3k 阅读约需 7 mins.

MedImageInsight: AN OPEN-SOURCE EMBEDDING MODEL FOR GENERAL DOMAIN MEDICAL IMAGING 论文中提出了一个用于医学图像的开源嵌入模型：MedImageInsight。该模型采用类似 CLIP 的双塔架构，一个塔是图像编码器，另一个塔是文本编码器：

MedImageInsight 在未经微调的情况下，即可在分类、图像检索、报告生成等多种医学图像任务中表现出色：

该论文主要作者来自微软相关团队，在网络上搜索 MedImageInsight...

查看全文

「 PYTHON 」十二月 14, 2025

DICOM 数据字典

文章字数 34k 阅读约需 31 mins.

DICOM（Digital Imaging and Communications in Medicine，医学数字成像和通信）是一种用于存储和传输医学影像数据的国际标准。

自从 1985 年首次发布以来，DICOM 标准已经经历了多次修订和扩展，以适应不断发展的医学影像技术和需求。当前最新版本为 2025e，历史版本可见历史版本和各版本多种文件格式归档。

DICOM 数据字典定义了 DICOM 文件中使用的各种数据元素及其属性。以下是一些常见的数据元素及其含义：

标签 (Tag)	名...

查看全文

「 REDIS 」十一月 09, 2025

RedisBloom 模块布隆过滤器的导出与导入

文章字数 5.1k 阅读约需 5 mins.

RedisBloom 模块为 Redis 提供了 Bloom Filter 数据结构，除了基本的创建、添加、查询等操作外，还提供了用来导出单个过滤器的 BF.SCANDUMP 命令，和导入命令 BF.LOADCHUNK。

BF.SCANDUMP key iterator

iterator 参数初始值为 0，表示从头开始导出，命令返回两个元素的数组：

下一个迭代器值，如果再次为 0 则表示导出完成
导出的数据块

BF.LOADCHUNK key iterator data

redis>...

查看全文

「 BOOK 」七月 13, 2025

《Python量化交易》书摘

文章字数 9.6k 阅读约需 9 mins.

豆瓣评分 7.8

严格地说，量化交易是运用复杂的统计学方法和数学模型，从庞大的历史数据中海选出能带来超额收益的多种“大概率”事件以找出规律、制定策略，并且能用数据模型验证、固化这些规律和策略，然后用计算机来严格、高效地执行之。

一般来说，期货相对于股票债券更适合量化交易。

不同于股票T+1制度，期货采用T+0制度，所以期货投资者更加青睐于短线交易。同时，相对于股票动辄要上千万资金的程序化接口，期货程序化交易接口资金门槛低得多，更有利于实现量化交易。而且期货成交量与持仓量的高倍数也使得期...

查看全文

「 AI 」五月 04, 2025

昇腾推理引擎性能测试套件 MindIE Benchmark

文章字数 17k 阅读约需 16 mins.

MindIE Benchmark 是昇腾推理引擎（MindIE，Mind Inference Engine）中推理服务组件 MindIE Service 组件包含的性能测试套件，提供测试大语言模型在不同配置参数下推理性能和精度的能力。

详细信息可参见官方文档 MindIE Benchmark 1.0.0 功能介绍。

MindIE Benchmark 支持 Client 和 Engine 两种不同的推理模式：

Client 模式调用 MindIE Client 的 .generate() 和 ...

查看全文

「 AI 」二月 16, 2025

可本地部署使用的大模型显存资源估算工具

文章字数 3.5k 阅读约需 3 mins.

🤗 Model Memory Calculator 是 🤗 Accelerate 库提供的一个模型显存计算工具，可估算模型训练或推理时所需的显存大小。

但目前该在线工具无法正常使用，即使使用默认的模型名称，也会报在 Hub 中无法找到该模型：

在该 space 的 discussions 中也有不少人遇到了此问题。

本文提供一种本地化部署运行此工具的方法，还可通过指定 HF_ENDPOINT 避免无法访问 Hugging Face 的问题。

直接部署 https://huggingface.co...

查看全文