多模态吧
关注: 76 贴子: 249

多模态技术的分享、研究和传播

  • 目录:
  • 程序设计及人工智能
  • 5
    有没有大佬推荐一个效果不错的图文检索模型,训练的数据就一百多MB这样子的小数据集
    逍遥派875 10-27
  • 1
    读研方向是多模态学习,但我深度学习和机器学习的基础都不是很牢固,看了好几遍书和b站上的视频,还是感觉没看懂,有没有大佬教我怎么学,有推荐的路线和相关书籍吗?
  • 4
    求,最近boss让做一下图像描述,image caption,主要是boss要中文的,大佬们有什么模型和项目推荐吗?
  • 2
    如题,目前没找到有类似的工作,吧友们有人看到过么
  • 1
    我想问下多模态该怎么学习啊,我现在关于目标检测和分割之类的差不多都会了,学习多模态是不是还得学习语言方面的内容呀。 还有就是我看现在多模态基本都是与大模型绑定的,如果我只是想用多模态来识别一到两种类别的话,有没有什么模型推荐的
  • 6
    我如何从dataloader同时取几个不同的数据集,且保证shuffle是ture,而且这几个数据集取出的数据的标签一样呢?
    理综265 8-8
  • 2
    开源的 SD3 Medium 模型: 1)基础模型 1+3:主模型:sd3_medium 文本编码器:clip_g、clip_l、t5xxl t5xxl可不使用。 2)融合了文本编码器的模型 2 个: 无T5:sd3_medium_incl_clips = sd3_medium + clip_g + clip_l 有T5: sd3_medium_incl_clips_t5xxlfp8 = sd3_medium + clip_g + clip_l + t5xxl 尺寸是512*512
  • 1
    想问各位大佬知不知道内地有哪些研究多模态大模型的高校或研究所招收硕士研究生,小弟想考过去,最好是考11408的
  • 1
    弟子有一事相求! 弟子是人工智能专业研0小学生,导师给布置了两项任务和方向,对此弟子有一事不明。 (第一,考虑应用于边缘设备的轻量化模型研究; 第二,后续重点考虑多源设备协同和边缘设备的多模态融合。) 1.”应用于边缘设备的轻量化模型研究“这东西是干啥的?网上也查找不到相关资料。 2.弟子比较想走多模态融合,但是现在刚学完python基础,想问问各位老师,我后面的学习路径应该学什么知识呢。谢谢各位大牛子老师!
  • 6
    在Create 2024百度AI开发者大会上,李厂长发表的闭源模型优于开源模型的观点引来了轩然大波,带来了大范围的讨论。闭源ai包括gpt系列和claude系列确实领跑了大语言模型的赛道,但ai真的闭源就会优于开源吗? 以下是我的一些观点:
  • 5
    有大佬知道yolov8多模态如何实现,求求告诉我
  • 1
    最近的一篇论文指出,使用弱智吧问题做数据集训练大语言模型的效果大有裨益。 论文中使用弱智吧数据训练的大模型,其分数超过百科、知乎、豆瓣、小红书等平台,乃至是研究团队精心挑选的数据集,在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分,这甚至包括了AI代码能力。 这几乎是一件匪夷所思的事,但细想下来或许也有些道理。弱智吧问题涉及各个提问死角,把人类正常想不到的提问角度给提问了一遍,这或许正是模
  • 1
    Claude3分为大、中、小三个尺寸的模型,其中大型模型官方自称超越GPT4(claude系列确实是唯一有资格与GPT系列较量的模型),中型模型接近GPT4,并且可以无需会员体验。
  • 1
    openai在chatgpt之后又一震惊世界的新模型——Sora出现了。Sora完全碾压了以Gemini1.5为代表的其他所有视频生成模型。当其他生成模型还在生成5秒视频挣扎时,Sora一经推出就可生成长达60秒的高保真视频,这一碾压式的技术发展创新仍然体现着OpenAI力大砖飞式的风格令人不寒而栗。世界模型是Meta由LeCun最早提出,没想到却Meta还未将之发扬光大,就被openai先以视频生成模型作为基础发布了。其以Transformer为主干的扩散模型。 OpenAI目前已经成为了“closeAI”,
  • 2
    hxdm多模态怎么学习啊,直接看论文也不太懂,网上也找不到好的基础课程,研一好迷茫。
  • 2
    有竞争力的大语言模型,有超越claude的潜力,Mistral的小型版本已开源,但是Mistral-medium暂未开源。 测试体验来看,效果能碾压90%的大语言模型,而且上下文达到了32k。 美中不足的是重复性损失很低,或者没有设置重复性损失,导致写故事很容易反反复复出现相同的内容,在同一对话内写的内容很同质化。应当和gpt一样抑制重复内容的输出会好很多。
  • 16
    MetaAI 开源 ImageBind,可让模型跨 6 种不同的模态!(图像、文本、音频、深度、热能和 IMU 数据) ImageBind将它们全部绑定到一个嵌入空间,用同一向量空间表示。这种极多模态绑定的方式我以前也设想过,没想到MetaAI现在做出来了。 基于该项目,开发者可以实现包括跨模态检索、使用算术合成模态、跨模态检测和生成等各类新兴应用。 通过对齐6种模态,你可以实现一些仅靠文本的GPT无法实现的花样百出的功能。 1.跨模态检索:将其视为多媒体搜索,
    命起涟漪 12-25
  • 1
    近期基于stable diffusion的实时性改进有了两个新成果。 第一个成果是LCM,即潜在一致性模型,能够极大降低扩散模型所需的采样步数,从20步以上减少到了甚至只需要几步即可生成,从而大大提升了生成速度。LCM的后续成果LCM-lora可以与已经训练完成的stable diffusion模型一同使用,而无需重新训练。 第二个成果是stable diffusion XL turbo,即XL的蒸馏模型,只需要一步采样步数就能达到很好的效果。 虽然生成速度还不能达到视频般的帧率,也只能达到0.5秒以下
  • 8
    问题:小张抱住冻得发抖的小王,他感到了温暖。请问谁感到了温暖?为什么? 文心一言回答镇楼
  • 1
    通过交互进行音乐创作的agent来了,只需要通过聊天告诉大语言模型你需要什么样的音乐,就能进行创作音乐,这在之前简直是不可想象的。能够理解音乐,并且能进歌词创作和音频生成。 借助 LLM 的任务规划能力、工具选择能力和以及语言能力,当收到用户对于音乐创作的需求,可以让任务进行分解,然后对每一步选择合适的音乐创作小模型或者工具,并且整个过程可以和用户保持聊天式的交互。
    命起涟漪 10-23
  • 4
    huggingface是机器学习界的github,存储了大量的开源大模型,包括多模态大模型和大语言模型,之前介绍的各种开源多模态模型基本都是存在huggingface上的。huggingface上面很多业界大牛也在使用和提交新模型,这样我们就是站在大牛们的肩膀上。入门者也能快速用得上科研大牛们训练出的超牛模型。github上开源项目放不下的模型也会放在huggingface上,研究者发论文借助开源扩大影响力时,大模型也会放在huggingface上,甚至能在huggingface的space里直接尝试运行
  • 18
    人工智能公司Anthropic发布大型语言模型Claude,是目前OpenAI的GPT的最大的竞争对手。甚至在中文对话写作方面,要超过chatgpt。 Anthropic的创始人都曾是OpenAI的高管,他们在现在的Openai与最初的理念相悖,于是出走,专注于生产不太可能产生攻击性或危险内容的人工智能系统,大型语言模型Claude也是主打一个安全。 Claude在某些方面限制比chatgpt更多,更可能在遇到伦理道德、法律风险问题时,阻止有害内容的输出,但在另外一些方面,Claude的限制反而比chatg
  • 1
    GPT的多模态能力在GPT4首次发布会时就已经展示,但之后很长一段时间都没有对外开放其多模态能力。现在GPT的多模态能力终于要向公众开放了。 多模态能力的GPT模型引入了图片理解的功能,会以-V为后缀标识,代表着视觉(Vision)。 GPT4在你发给说明书图片后,读懂说明书,也能在你拍一张照片并圈出你想问的物体后准确回答,甚至能读懂手写的流程草稿、概念图,乃至电路图等等。其中原本只有人类能识别的验证码可能也将被GPT4轻松破解。 可以预
  • 1
    Python由于其易用性和能够使用大量的库,在人工智能领域被大量使用,并进而形成了Python的人工智能生态。但其效率一直为人所诟病。但新语言Mojo,声称性能可达到目前版本Python的68000倍,并且能够使用Python所有的库! 现在,Mojo终于开放编译器和完整本地开发环境的下载。 Mojo是如何做到比Python快这么多倍的?有以下几步: 第1步,通过类型注释消除Python动态类型的损失,并做代数简化,避免开方运算以及简化复数平方运算,达到89倍加速。 第2步,
  • 2
    Stable diffusion太复杂?Midjourney要付费?解决这些问题的AI绘画Foocus来了!安装十分简单,从点击“下载”到生成第一张图像之间需要点击不超过3次! Foocus是对Stable Diffusion和Midjourney设计的重新思考:从Stable Diffusion学习到,该软件是离线的,开源的,免费的。从Midjourney了解到,不需要手动调整,用户只需要关注提示和图像。 Foocus包含并自动化了许多内部优化和质量改进。用户可以忘记所有那些困难的技术参数,只享受人机交互,“探索新的思想媒介,
  • 1
    DragGAN在之前由于演示出来的拖拽即可p图的效果太过惊艳,还没正式开源就获得了大量stars,但其开源后就被发现泛化不足,很多时候生成效果都不如演示中那般好。GAN在泛化能力和生成图像质量上都有短板,但用diffusion能有效的弥补这一缺点。 Dragon Diffusion是DragGAN的升级版,可用操作包括在图像中移动物体、调整物体大小、替换物体外观和图像内容拖动。另外将物体从图片中去除的效果也相当好。
  • 1
    新的开源可商用大语言模型包括ChatGLM2和百川baichuan-13B,这两个模型都良好支持中文,可以通过中文提问就能获取较好的回答。 新的开源大模型另有llama2,这一个模型英文训练量占了90%,对中文的支持挺一般的。 新的非开源大语言模型有Claude2,中文支持度良好,有超级长的上下文长度,完全能把一整篇文章放进去提问,回答质量优于chatGPT,弱于GPT4。
  • 2
    5月时就宣布6月开源的DragGAN终于在现在(6月底)开放了源代码。这个项目发布演示视频后就因为演示出奇的好的效果得到了广泛的关注。DragGAN没有源代码放出的时候,在github上没有任何代码和demo的项目就已经得到了大量关注,迅速突破了上千star⭐,这是不可思议的,到现在开源为止,star数已经突破16k。 DragGAN通过点击和拖动就能改变图片,能快速实现许多PS需要大量工作量的功能(比如把人的腿拖长,腰拖细,把脸拖瘦,还能保证图片逼真不违和),
  • 2
    图灵奖得主、Meta 首席 AI 科学家 Yann LeCun的团队发布并开源了首个基于世界模型概念的AI模型——图像联合嵌入预测架构(Image Joint Embedding Predictive Architecture, I-JEPA),这一模型的发布可能是AI领域再次被颠覆的前奏。 LeCun认为基于自监督的语言模型(如gpt等目前所有大语言模型)无法获得关于真实世界的知识,这些模型在本质上是不可控的。他一直以来认为chatgpt的性能并没有超出自己的预料,认为大语言模型的发展十分有限,但又大力支持大模型的发
  • 2
    DeepFloyd IF开放dreambooth和lora的训练了,现在可以自己本地尝试训练模型或lora了。 DeepFloyd IF是一个开源的AI绘画模型,与大名鼎鼎的绘画模型Stable Diffusion(简称SD)是同一家公司开源的,但DeepFloyd IF与其他绘画模型有着非常大的区别,DeepFloyd IF在像素空间工作。与潜空间扩散模型(如Stable Diffusion)不同,扩散是在像素级别实现的。Stable Diffusion是从一张噪点图来生成同等大小的图片,而DeepFloyd IF是先生成一张64*64的小图片,再像素扩散生成一张256*256的中
  • 0
    QLoRA,这是一种高效的微调方法,是基于LoRA的创新,能够非常大地降低微调大模型时需要的显存而不损失性能,降低了微调的成本,也给个人微调大模型打开了道路。 LLM 通常使用 16 位浮点参数 (即 FP16 或 BF16) 进行训练。因此,存储一个权重值或激活值需要 2 个字节的内存。如果参数能从16位降低到8位或者4位,就能对模型大小进行压缩。但压缩后再进行微调会极大地损失性能,这个问题阻挡了个人对量化后的模型进行微调,现在QLoRA解决了这个问题。
  • 3
    阿里达摩院的团队开源了最新的多模态大模型mPLUG-Owl,通过多语言微调,使得模型能够支持多语言对话,不仅包括中文,力,还能在法语、日语、葡萄牙语等多种语言上进行对话。 它的视觉理解能力远超visual GLM,对比visual GLM傻愣愣的理解,分不清图片里是什么,mPLUG-Owl明显更准确一些。mPLUG-Owl在预训练阶段放弃了训练模态转换模块的方式,不再冻结视觉端,而是直接将视觉端打开进行训练。在指令微调阶段,mPLUG-Owl使用了两种微调数据:纯文本指令
  • 2
    之前介绍imagebind时,就说过imagebind的一种用法——使用扩散模型通过任何模态生成指定的模态跨6种模态,新多模态范式——ImageBind ,现在,实现这个功能的工具出现了,可以实现Any-to-any多种模态协同生成任何模态。 这个工具叫可组合扩散 (CoDi),这是一种新颖的生成模型,能够从输入模态的任何组合中生成输出模态的任何组合,例如语言,图像,视频或音频。与现有的生成AI系统不同,CoDi可以并行生成多个模态。 CoDi采用了一种新颖的可组合生成策
  • 1
    Powerpointer和Local Powerpointer:使用gpt的api运行或本地运行的大语言模型来生成漂亮的ppt。 1.如果使用gpt的的api只需要提供api key。 2.如果想使用本地部署的大语言模型生成,使用oobabooga文本生成WebUI API来生成。 Powerpointer可以直接创建ppt,可以轻松地进行更改或在PowerPoint中完成ppt,并为图像创建占位符。还可以选择7种设计样式,使ppt更加美观。
  • 3
    这是一篇论文,介绍了一个比思维链更强的大语言模型prompt方法,能够在解决高难度数学问题上表现比思维链更佳。题为Progressive-Hint Prompting Improves Reasoning in Large Language Models,提出 Progressive-Hint Prompting (PHP,注意这个PHP不是编程语言,这是这个方法的缩写),在 PHP 框架下,Large Language Model (LLM) 能够利用前几次生成的推理答案作为之后推理的提示,逐步靠近最终的正确答案。 使用 PHP方法: 1.问题能够和推理答案进行合并,形成新的问题;2.模型可以处理
  • 6
    Contrastive Language-Image Pre-training (CLIP)是利用自然语言描述图像的数据,训练时对图像和文本具有深度理解能力的神经网络模型。通过使用自然语言作为监督信号,CLIP 可以自然地跨越多个视觉和语言数据集,且具有较强的可迁移性。最早的CLIP由openai训练完成。 但现在有了优于 OpenAI 的 CLIP,使用DataComp-1B数据集训练的CLIP ViT-L/14模型,可用于zero-shot、任意图像分类、图像和文本检索等任务,zero-shot准确率为79.2% 该重新训练的CLIP可以用在许多原本openai的C
  • 5
    VisualGLM-6B 是一个开源的,支持图像、中英文的多模态对话语言模型,基于 ChatGLM-6B。 之前清华就开源过GLM的base模型和ChatGLM,其中ChatGLM作为早期开源的大语言模型,在开源大语言模型榜单中仍然能排名第五,能力不容小觑,而且还是少数能完美支持中文的优秀开源语言模型,因此多模态的ChatGLM的效果也十分令人期待,期待其多模态能力加持后的效果。现在VisualGLM终于来了。 VisualGLM图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体
  • 0
    坤坤不愧是视频AI界的Lenna,又双叒叕被作为演示在论文里出现了。 这是一篇论文,通过介绍一个端到端以聊天为中心的视频理解系统VideoChat,希望以此开始对视频理解的探索。通过可学习的神经接口集成了视频基础模型和大型语言模型,从而在时空推理、事件定位和因果关系推理方面表现出色。为了对这个系统进行有指导意义的调整,作者提出了一个以视频为中心的指令数据集,该数据集由数千个带有详细描述和对话的视频组成。该数据集强调时空
  • 4
    复旦 NLP 团队的 MOSS 大语言模型 开源,增加「搜索引擎、计算器、解方程、文生图」等插件功能,可以在线体验,支持本地部署。 MOSS是一个支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行(但该精度未开放)。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮
  • 1
    OpenAI在尝试利用GPT-4为GPT-2中的所有307,200个神经元贴上标签提供解释,用简单的英语描述每个神经元在模型中的作用,这将有助于大家理解模型,以及对模型对齐。 语言模型已经变得非常强大,部署更广泛,但是我们对它们在内部如何工作的理解仍然非常有限。例如,可能很难从它们的输出中检测到它们是使用有偏见的启发式方法还是参与欺骗。可解释性研究旨在通过查看模型内部来发现其他信息。 解释性研究的一种简单方法是首先了解各个组件 (神
  • 1
    MPT-7B是MosaicML基金会系列的最新产品,一个从头开始训练的、基于1T文本和代码数据的Transformer。 首先开源可商用,能力与LLaMA-7B相当,要想达到更好的效果,需要后续自己微调或等其他开源者微调,微调后所有无需像LLAMA仅限研究,可以作为商业用途。 有三个微调模型,除了基本的MPT-7B之外:MPT-7B-Instruct、MPT-7B-Chat和MPT-7B-StoryWriter-65k+ 其中写作模型支持65k的上下文。 而GPT4最大支持的token也只有32k,是GPT4的两倍。 后续继续进行微调的话,应该能取得更
  • 1
    近期开源的多模态任务规划助手,结合文字和图片给用户提出更清晰明了的指导。图1的示例中,使用者向多模态任务规划助手提问“如何做川菜”,规划助手一步一步每一步要做什么,甚至包括图片说明,给出了制作川菜每一步的文字和图片。 多模态过程规划(MPP)可以根据高层目标生成一系列配对的文字和图片步骤,比单一模态计划更具辅助性。(光给出文字说明有时候是很抽象的) 文本-图像提示(TIP)的双模态提示方法利用大型语言模型的零
  • 0
    先说个个非常有意思的事,在ChatGPT出现前,GPT3就早已出现,但并没有掀起波澜。但就在GPT4正在研发时,OpenAI突然被要求回过头来研发GPT3的改进版,这在当时并不被人理解,因为对于正在研发GPT4点openai员工来说,GPT3已经是过时的东西。可就是这次改进,将GPT3微调改进成了ChatGPT,使其有了多轮对话能力和交互指令能力,强大的能力直接引起了世界范围内的轩然大波。 最近的研究强继续调了微调指令对于增强大型语言模型的重要性,将GPT-3增强为ChatGPT
  • 1
    MiniGPT-4:由阿卜杜拉国王科技大学的几位博士开发,他们认为GPT-4 先进的多模态生成能力,主要原因在于利用了更先进的大型语言模型。于是他们做了一个类似于GPT-4的但是开源的多模态实现,可以执行复杂的视觉语言任务。 在模型上,MiniGPT4基于LLaMA的小羊驼vicuna(号称达到GPT4的90%语言能力的模型)+ BLIP-2(CLIP的后续工作),拼接后通过一个线性投影层进行对齐,训练上,先 500万个图片文本对预训练,然后通过3500个图片文本对微调。 这一项目最重要
  • 7
    AI已经实现了多种模态相互生成,比如图文互生(通过clip获取特征,各种扩散模型如stablediffsion、dalle等)、文文互生(GPT系列、bard、文心一言等)、音文互生(语音识别和文字转语音等,并已广泛应用),目前视频和文字互生也已经出现。 也许过不了多久,AI将能够更智能的处理多种模态的任务,不仅仅限于目前的visual ChatGPT的形式,也不只是目前语音助手这类自然语言识别能力不足的形式。 多模态时代来临了。 注:以上内容不由语言模型生成

  • 发贴红色标题
  • 显示红名
  • 签到六倍经验

赠送补签卡1张,获得[经验书购买权]

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!