【xc体育科技消息】在众多为人工智能(AI)赋予“视觉”能力的模型中,谷歌的PaliGemma模型占据一席之地。作为谷歌的视觉语言模型,它能够识别图像中的物体和文字。近日,谷歌正式推出了全新的PaliGemma 2模型,并已投入使用。

PaliGemma初代模型已是一款实用的工具,能够识别图像中的物体,并为图像添加字幕,甚至还能为短视频添加字幕。PaliGemma的一个更为实用的功能是能够回答关于图像的问题。因此,它是一款功能强大的综合模型。
谷歌于今年5月正式向公众介绍了PaliGemma模型。谷歌希望PaliGemma 2能够成为初代模型的直接替代品。谷歌提供了多个版本的PaliGemma 2,包括30亿、100亿和280亿参数变体,以及224像素、448像素和896像素分辨率版本。
在其他规格方面,PaliGemma 2支持长文本字幕生成。谷歌表示,它将不仅仅局限于识别物体,还能识别人物并解读其情绪。因此,如果某人感到高兴、悲伤等情绪,PaliGemma 2都能捕捉到。
此外,该模型似乎还能识别场景中发生的更多内容,以讲述完整的故事。谷歌称,PaliGemma在识别乐谱、化学公式、识别深度以及制作胸部X光片报告方面表现更佳。谷歌为PaliGemma带来了相当显著的更新。如果你想使用它,可以在Hugging Face、Kaggle和Ollama平台上获取其代码。
谷歌还发布了其视频生成模型Veo的私有预览版。该公司在今年的谷歌I/O大会上宣布了这一消息。如果你正在使用谷歌的Vertex云平台,那么你将有机会进行尝鲜。你可以生成最高达1080p分辨率的视频。
版权所有,未经许可不得转载
-xc体育-
2026-05-16【XCsports-xc体育官网科技消息】4月30日,鸿蒙智行发布问界M6答网友问(第四期),就用户关心的提车时间、交付周期、购车优惠及无麦K歌功能等核心问题进行集中解答。问界M6 甄选配置现车 -
2026-05-16【XCsports-xc体育官网科技消息】4月30日,OPPO Find X9 Ultra 16GB+1TB非卫星通信版正式开售,售价9299元,提供大地苔原、极地冰川两款配色可选。OPPO Fi -
2026-05-16【XCsports-xc体育官网科技消息】在全球投影市场,极米已连续三年全球家用投影出货量第一,连续八年领跑中国市场,六年实现销量、销售额双冠。截至2025年底,极米累计专利超1200项,核心发明