Multimodal_Survey

不同模态进行对齐:CLIP、VLMo 大语言模型能力会更重要:Frozen、FLamingo、BLIP-2 MLP即可完成对齐:LLaVA、MiniGPT-4 视觉编码器很重要:Deepseek-VL、Qwen2.5-VL

上次更新: 2025/06/25, 11:25:50