MobileAgent系列学习 — Mobile Agent v2Mobile-Agent-v2通过多智能体协作显著提升移动设备操作任务的完成率,特别是在高级指令场景中。该架构包含规划、决策和反思智能体,能够有效应对任务进度和聚焦内容导航的挑战,实验结果显示性能提升超过30%。2025-1-14 VLM Agents
CLIP系列学习(三) — LongCLIP算法学习Long-CLIP突破了CLIP的文本输入长度限制,从77个token扩展到256个,提升了长文本图像检索的效果,采用了知识保留的位置信息扩展和主成分匹配的方法。实验表明,CLIP的有效长度约为20个token,长文本的细节和重要性得以更好地捕捉。2024-12-31 VLM Pre-train CLIP
CLIP系列学习(二) — BLIP & BLIP 2算法学习BLIP和BLIP-2是用于视觉语言理解和生成的模型,前者结合了对比损失和语言损失,后者通过冻结的图像编码器和大型语言模型提升性能,采用了QFormer作为中介,支持多模态任务。BLIP-2在处理图像特征时更为高效,生成能力也更强2024-12-27 VLM CLIP Pre-train
CLIP系列学习(一)— CLIP算法学习CLIP是一种多模态预训练模型,能够实现图像和文本的联合表示学习,具备零样本学习能力,广泛应用于图像分类、文本到图像检索等领域。后续研究如BLIP、GLIP等进一步扩展了其功能和应用,提升了模型的细粒度理解和计算效率。2024-12-20 VLM Pre-train CLIP