跳转到主要内容

category

[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型

TODO List

  • 发布InternVL2.5系列培训/评估代码
  • 支持更精简的内核以节省GPU内存
  • 发布MPO的代码、型号和数据
  • 支持多模态打包数据集
  • 支持vLLM和Ollama
  • 支持在线演示中的视频和PDF输入
  • 发布集成VisionLLMv2的InternVL2
  • 使用readthedocs重建文档
  • 支持使用LoRA微调不同的LLM
  • InternVL2的发布要求.txt
  • 发布InternVL2系列培训/评估代码
  • 发布InternVL1.5和InternVL2的Streamlit web UI


What can InternVL do?

  • 视觉感知
  • 跨模态检索
  • 多模式对话
  • HuggingFace快速入门
  • 使用InternViT-6B进行视觉特征提取
  • 使用InternVL-C(对比)和InternVL-G(生成)进行跨模态检索
  • 使用InternVL 2.5进行多模式聊天