**谷歌I/O大会:人工智能引领未来**
北京时间5月15日凌晨,谷歌召开了年度I/O开发者大会,主题演讲持续了两个小时,人工智能成为此次活动的核心焦点。
### 一、Gemini系列全面升级
谷歌发布了新的AI模型“Gemini 1.5 Flash”,作为更具成本效益的替代方案,从即日起在谷歌AI工作室和Vertex AI上提供公开预览。此外,2月份发布的“Gemini 1.5 Pro”也将进行升级,年底前将其处理窗口从100万Tokens扩大到200万,以便处理更大规模的数据。
谷歌CEO皮查伊强调,Gemini系列在跨语言处理方面有显著改进,将支持35种语言,并可以分析PDF和视频提供摘要。Gemini Nano也进行了扩展,增加了图片输入功能,并在本地运行以保障用户隐私。开源大模型Gemma系列也迎来更新,6月份将发布参数量达到270亿的Gemma 2,并引入第一个视觉语言模型PaliGemma。
### 二、Veo、Imagen 3和音频概述
谷歌推出了视频生成模型“Veo”,可根据文本、图片和视频提示生成1080P视频,并嵌入不可见水印SynthID。新一代图像生成模型“Imagen 3”也发布,生成的图像质量更高,细节更丰富,目前仅供选定创作者使用,不久将在Vertex AI上推出。
此外,通过Gemini 1.5 Pro,音频概述功能可以基于源文件生成个性化的交互式音频对话。
### 三、AI赋能谷歌搜索
谷歌搜索引擎将在美国推出“AI概览”功能,直接总结搜索结果,并具备多步骤推理能力,能够处理复杂问题和多条件限制。新的“拍视频”搜索功能也将上线。
通过Gemini,Google Photos将增加“Ask Photos”功能,允许用户通过对话提示查找特定图像,预计在今年夏季晚些时候推出。
### 四、Astra项目
谷歌宣布了“Astra”项目,旨在开发日常生活中的通用AI智能体。这个智能体将能够理解复杂环境并作出反应,记忆所见所闻,满足个性化需求,使用户能够自然交谈。
### 五、AI芯片和硬件
谷歌推出了第六代TPU(张量处理单元)“Trillium”,将在2024年底向云客户提供,其计算性能比上一代提升了4.7倍。谷歌还将推出支持工作负载的CPU和GPU,并成为首批提供英伟达Blackwell GPU的云提供商之一。
此次I/O大会展示了谷歌在人工智能领域的最新进展和未来愿景,进一步巩固其在科技创新中的领先地位。
Comments