万兴科技视觉算法工程师高力刚:让视频创作更具想象力

长沙晚报网2024-05-04  12

导读:青年名片  高力刚,视觉算法工程师,“95后”,江西九江人。2021年,从中南大学计算机技术专业硕士毕业后加入万兴科技算法团队,专注于视觉生成式算法的研究与应用落地,多次获得公司AI创新中心月度之星、年度项目之星等奖项。  长沙晚报全媒体记…

  青年名片

  高力刚,视觉算法工程师,“95后”,江西九江人。2021年,从中南大学计算机技术专业硕士毕业后加入万兴科技算法团队,专注于视觉生成式算法的研究与应用落地,多次获得公司AI创新中心月度之星、年度项目之星等奖项。

高力刚 受访者供图

  长沙晚报全媒体记者 徐运源 通讯员 谢翔

  4月28日,万兴“天幕”音视频大模型在长沙开启公测。近日,记者来到位于湘江新区尖山路旁的万兴创意科技大厦,采访了深度参与其中的高力刚。

  “公测整体反馈不错,无论是视频的生成还是视频的配乐,用户体验下来都觉得能够解决视频创作中的一些痛点,还有好几家公司现场立即找到我们表达了合作意向。”高力刚介绍,万兴“天幕”是国内首个音视频多媒体大模型,已通过中央网信办备案。

  高力刚告诉记者,万兴“天幕”拥有文生视频、视频生视频、图生视频、视频配乐、文生图等多项能力,以文生视频为例,输入一组关键词,即可一键生成充满想象力的60秒视频,有故事情节、角色形象、画面连贯性等。

  “可以用一键生成的方式将一个简短的故事转化为视频,基本上能够按照设定的故事情节完成视频制作。”高力刚说,一些惊艳的片段,用户可以直接拿去做创意视频使用,比如拍摄广告或短片。

  万兴“天幕”自身的创意来源于哪?来源于上百人算法团队的“高强度”训练。作为核心研发人员,高力刚负责语言大模型的垂直类应用(用机器来替代人),以及视频生成模型的训练和迭代。

  “视频大模型的训练数据量特别大,对研发人员的技术要求相对较高。”高力刚说,“天幕”训练的视频时长在100万小时左右。

  记者现场也体验了“天幕”的本领,输入“非洲动物大迁徙”,几分钟即生成一段时长60秒的视频,在舒缓的音乐中,可以看到一群动物经过草原、河流、森林、雪原等不同的迁徙场景。输入“动漫风格 孙悟空 带着金箍棒大闹天宫”等关键词,在60秒视频中可以看到孙悟空从幼年到成年斩妖除魔的过程。

  “就像讲述一个故事,视频会呈现一个完整的过程。”高力刚说,天幕在文生视频领域有不少领先的地方,后续团队也将通过更多的训练数据集改善、迭代模型结构,未来逐步向企业和开发者开放,加速音视频领域的智能化创作进程。

  愿景

  我和爱人目前已在长沙定居,这里不仅房价低,而且拥有丰富的医疗资源、教育资源,娱乐性和宜居性都不错。我是做AI的,希望能在这座城市深耕,未来成为高级算法研发工程师。

本文来自“长沙晚报网”,版权归原网站所有,点击阅读原文

展开全文

为您推荐


本文地址: https://www.life0731.com/read-403007.html
免责声明:本文仅代表作者个人观点,与长沙生活网(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表长沙生活网(本网)赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们联系,本网站将在规定时间内给予删除等相关处理.

相关阅读

最新回复(0)