文章列表

开源 | MeiGen-MultiTalk:基于单张照片实现多人互动演绎

美团视觉智能部
近日,美团推出了音频驱动的多人对话视频生成框架MultiTalk,并在GitHub上开源,首创L-RoPE绑定技术,通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性地采用局部参数训练+多任务学习策略,在保留复杂动作指令跟随能力的同时,实现自适应动态人物定位。只需输入多人音频流、参考图像和文本提示,即可生成口型精准同步、肢体自然的交互视频,可支持影视制作、直播电商等场景的工具升级。 阅读全文

老显卡福音!美团开源首发INT8无损满血版DeepSeek R1

搜索和推荐平台部
DeepSeek R1模型权重原生为FP8类型,仅能被英伟达新型GPU支持。美团技术团队进行了INT8精度量化的尝试,量化后模型精度基本无损,可部署到A100等其他型号GPU,从而解锁了芯片限制;相比BF16实现了50%的吞吐提升,降低了推理成本。相关技术已在Hugging Face上开源。 阅读全文

ACL 2024 | 美团技术团队精选论文解读

美团技术团队
本文精选了美团技术团队被ACL 2024收录的4篇论文进行解读,论文内容覆盖了训练成本优化、投机解码、代码生成优化、指令微调(IFT)等技术领域。这些论文是美团技术团队跟高校、科研机构合作的成果。希望能给从事相关研究工作的同学带来一些帮助或启发。 阅读全文

外卖广告大规模深度学习模型工程实践 | 美团外卖广告工程实践专题连载

亚劼 英亮 陈龙 成杰 登峰 东奎 仝晔 思敏 乐彬
在外卖广告CTR场景下,深度学习模型正在从简单DNN小模型过渡到千亿参数复杂模型。基于该背景,本文将重点针对大规模深度模型在全链路带来的挑战,从在线时延、离线效率两个方面展开,阐述外卖广告在大规模深度模型上的工程实践经验,希望能为读者提供思路上的借鉴。 阅读全文