幻方 | 技术博客

中文 / EN

FlashAttention：具有 IO 感知，快速且内存高效的新型注意力算法

FlashAttention 拥有比 PyTorch 标准注意力快 2~4 倍的运行速度，所需内存还减少了 5~20 倍。

October 19, 2023 author: Vachel

分类

ALL

基础研究

萤火平台

萤火跑模型

hfai 心法

基础设施

并行优化

LLM 最新推理技术，理论可以实现无限长的生成能力。

October 12, 2023 author: Vachel

连续批处理可以实现23倍的 LLM 推理吞吐量，同时降低延迟（P50）。

September 10, 2023 author: Vachel

LLama-2-Chat 几乎是现有开源模型中唯一做了 RLHF 的模型，其数据标注具体是如何做的呢？

August 10, 2023 author: Freja/Vachel

GPT-4 相比前代 GPT-3.5/ChatGPT 有何不同？

July 27, 2023 author: Vachel/小杞

本文将为大家介绍幻方&基础研究实践优化后的数据清洗流程。

July 06, 2023 author: WT/XT/MC

HAI-LLM 是幻方 AI 研发的高效简洁的大模型训练工具，能更好地发挥 GPU 集群的计算能力。

June 27, 2023 author: High-flyer