NoxRobot

1: OpenAI发布新一代视频生成模型Sora Turbo

发布时间：2024年12月12日

OpenAI于北京时间12月10日宣布推出其最新的AI文本生成视频模型Sora Turbo。相比于今年2月推出的Sora预览版，Sora Turbo在生成速度上有了显著提升。新版本可以生成最长20秒、最高分辨率1080P的视频，并提供多种视频比例选择，包括宽屏、竖屏和方形画幅。

Sora最初在2024年2月发布，可以通过文本指令生成长达60秒的高清视频，支持复杂的多角度镜头和多个角色的情感表达。Sora Turbo不仅继承了这些功能，还提高了效率，为用户提供更快捷的创作体验。

OpenAI表示，这一升级将Sora Turbo定位为目前全球生成时长最长的视频模型之一，进一步拓展了AI在视频生成领域的应用潜力。Sora Turbo现已向OpenAI的Plus和Pro用户开放，未来将面向更多市场。

2: 腾讯混元大模型上线文生视频功能

2024年12月4日 —— 腾讯宣布其混元大模型已正式上线视频生成功能，这是在文生文、文生图和3D生成之后的又一重大进展。此次更新中，腾讯对HunYuan-Video模型进行了四项技术升级，包括数据处理系统的引入、文本编码优化以及算力增强。这些提升使得视频生成的质量和可控性得到了显著提高。用户只需输入一段描述，即可生成超写实画质的视频画面，特别是在冲浪、跳舞等大幅度运动场景中，画面表现更加流畅，不易变形。此外，该视频生成大模型已在Hugging Face平台及Github上开源，参数量高达130亿，是当前最大的视频开源模型。用户在腾讯元宝App中的“AI视频”板块可以申请试用，而企业客户则可通过腾讯云服务进行接入。该模型支持中英文双语输入、多种视频尺寸以及多种视频清晰度。

3: 谷歌发布Gemini 2.0：AI新里程碑

2024年12月12日，谷歌正式发布其最新的AI大模型——Gemini 2.0。这款模型被称为谷歌迄今为止功能最强大的AI工具，具备更强的多模态处理能力，包括原生图像和音频输出，以及新的工具应用。谷歌首席执行官桑达尔·皮查伊表示，Gemini 2.0在推理能力上更加接近人类，能够解决更复杂的数学问题，还可以编写代码。该模型集成了谷歌搜索、代码执行功能，并支持第三方用户定义的函数，进一步扩大了应用范围。此外，Gemini 2.0引入了原生图像生成和多语言音频功能，使其在与OpenAI和Anthropic的竞争中更具优势。Gemini 2.0现已对开发者和受信任的测试人员开放，并计划于明年初全面开放。

2024年12月 AI Agent头条：第23期

1: OpenAI发布新一代视频生成模型Sora Turbo

2: 腾讯混元大模型上线文生视频功能

3: 谷歌发布Gemini 2.0：AI新里程碑