单一大型语言模型的局限性变得更加明显,导致转向更小、更专业化的模型。
鸿星尔克,“逐渐做小”的品牌直播
论文地址:https://mobile-aloha.github.io/resources/mobile-aloha.pdf
它不仅可以从图片中提取信息并回答问题,还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等,展现出了强大的多模态能力。在性能上接近GPT-4的情况下,LLaVA具有更高的成本效益,训练只需要8个A100即可在1天内完成。
此外,卡迪夫大学讲师Francesca Sobande研究了具有种族模糊特征的虚拟影响者。她认为一些品牌出于营销目的给予其这些特征,以吸引更广泛的受众,这“只是另一种形式的营销”。