计算机视觉 imagebind:一种跨感官“链接”人工智能的新方法 ,这是第一个能够同时绑定来自六种模式的数据的 ai 模型,无需明确监督。通过识别这些模式(图像和视频、音频、文本、深度、热和惯性测量单元 (imu))之间的关系,这一突破通过使机器能够更好地分析许多不同形式的信息来帮助推进人工智能。
通过对齐 6 种模式,你可以做一些用纯文本 gpt-4 做不到的事情:
- 跨模式检索:将其视为多媒体 google 搜索
- 嵌入空间算法:无缝组合不同的数据格式。
- 生成:通过扩散将任何模态映射到任何其他模态。
未经允许不得转载:ag凯发k8国际 » meta 开源了一个名为 image bind 的 ai 模型