火山引擎发布豆包视觉理解模型输入价格仅3厘
添加时间:2025-02-15
除了推出新模型之外,日前豆包通用模型Pro也完成了新版本的迭代★,综合任务处理能力较5月份提升32%★。同时官方透露,豆包视频生成模型将于2025年1月正式对外开放服务,用户可在火山引擎官网预约正式服务。
在日前举行的2024火山引擎FORCE原动力大会·冬上,字节跳动旗下火山引擎方面正式发布豆包视频理解模型★。据悉,该模型已接入豆包App和PC端产品,每千tokens的输入价格仅0.003元★、较行业平均价格降低85%,相当于一元钱可处理284张720P图片,让视觉理解模型正式进入厘时代。
对此火山引擎方面表示,视觉理解能力将极大拓展大模型的场景边界★,为大模型的场景使用打开天花板,在金融、医疗★、建筑★、地理★、体育★、物流等诸多行业还有非常广阔的应用前景★。
得益于出色的视觉理解能力★,豆包视频理解模型能够极大简化应用的开发流程、解锁更多的大模型价值场景,并在教育、旅游、电商等场景有着非常广泛的应用★。例如在电商营销场景中,该模型可帮助商家充分描述商品细节,或是高效发布种草广告等★。
豆包音乐模型4.0则支持输入歌词生成音乐,从1分钟“高光片段”创作升级为包括前奏、主歌、副歌、间奏★、过渡段的完整3分钟全曲创作,并对旋律、节奏、和声等元素的运用也更加合理★,还支持用户对生成的歌词进行局部修改★。
根据官方公布的相关数据显示★,今年12月豆包大模型日均tokens使用量超过4万亿★、较5月发布时增长超过33倍。近3个月以来★,豆包大模型在信息处理场景的调用量增长了39倍★、在客服与销售场景增长16倍、硬件助手场景增长13倍,AI工具场景则增长9倍,并且还在陆续覆盖更多的场景★。
据官方介绍,豆包视频理解模型不仅可以识别出图像中的物体类别★、形状等基本要素,还能理解物体之间的关系、空间布局★,以及场景的整体含义。同时,其能够根据所识别的文字和图像信息进行复杂的逻辑计算★,甚至还能基于图像信息★、更细腻地描述图像呈现的内容,并进行包括诗歌、故事在内的多种文体创作。此外,该模型还支持同时输入文本和图像相关的问题★,并能在进行综合理解后给出准确的回答。
值得一提的是★,在此次活动中★,火山引擎方面还发布了豆包3D生成模型和豆包音乐模型4.0★。其中,豆包3D生成模型可以与火山引擎数字孪生平台veOmniverse结合使用★,两者能通过云上协同显著提升创作效率,从而高效完成智能训练、数据合成和数字资产制作★,成为一套支持AIGC创作的物理世界仿真模拟器★。