Continuous Batching:一种提升 LLM 部署吞吐量的利器连续批处理可以实现23倍的 LLM 推理吞吐量,同时降低延迟(P50)。September 10, 2023 author: Vachel
LLaMA-2 技术详解(一):数据打标LLama-2-Chat 几乎是现有开源模型中唯一做了 RLHF 的模型,其数据标注具体是如何做的呢?August 10, 2023 author: Freja/Vachel
HAI-LLM:高效且轻量的大模型训练工具HAI-LLM 是幻方 AI 研发的高效简洁的大模型训练工具,能更好地发挥 GPU 集群的计算能力。June 27, 2023 author: High-flyer