发布时间:2024年12月12日
OpenAI于北京时间12月10日宣布推出其最新的AI文本生成视频模型Sora Turbo。相比于今年2月推出的Sora预览版,Sora Turbo在生成速度上有了显著提升。新版本可以生成最长20秒、最高分辨率1080P的视频,并提供多种视频比例选择,包括宽屏、竖屏和方形画幅。
Sora最初在2024年2月发布,可以通过文本指令生成长达60秒的高清视频,支持复杂的多角度镜头和多个角色的情感表达。Sora Turbo不仅继承了这些功能,还提高了效率,为用户提供更快捷的创作体验。
OpenAI表示,这一升级将Sora Turbo定位为目前全球生成时长最长的视频模型之一,进一步拓展了AI在视频生成领域的应用潜力。Sora Turbo现已向OpenAI的Plus和Pro用户开放,未来将面向更多市场。
2024年12月4日 —— 腾讯宣布其混元大模型已正式上线视频生成功能,这是在文生文、文生图和3D生成之后的又一重大进展。此次更新中,腾讯对HunYuan-Video模型进行了四项技术升级,包括数据处理系统的引入、文本编码优化以及算力增强。这些提升使得视频生成的质量和可控性得到了显著提高。用户只需输入一段描述,即可生成超写实画质的视频画面,特别是在冲浪、跳舞等大幅度运动场景中,画面表现更加流畅,不易变形。此外,该视频生成大模型已在Hugging Face平台及Github上开源,参数量高达130亿,是当前最大的视频开源模型。用户在腾讯元宝App中的“AI视频”板块可以申请试用,而企业客户则可通过腾讯云服务进行接入。该模型支持中英文双语输入、多种视频尺寸以及多种视频清晰度。
2024年12月12日,谷歌正式发布其最新的AI大模型——Gemini 2.0。这款模型被称为谷歌迄今为止功能最强大的AI工具,具备更强的多模态处理能力,包括原生图像和音频输出,以及新的工具应用。谷歌首席执行官桑达尔·皮查伊表示,Gemini 2.0在推理能力上更加接近人类,能够解决更复杂的数学问题,还可以编写代码。该模型集成了谷歌搜索、代码执行功能,并支持第三方用户定义的函数,进一步扩大了应用范围。此外,Gemini 2.0引入了原生图像生成和多语言音频功能,使其在与OpenAI和Anthropic的竞争中更具优势。Gemini 2.0现已对开发者和受信任的测试人员开放,并计划于明年初全面开放。