[7.5启动] 文本语音驱动数字人表情口型竞赛

主办方: SMG技术中心(上海东方传媒技术有限公司)、SMG融媒体中心、AR/VR技术及应用国家工程实验室 - 当前服务器时间 十一月 6, 2024, 12:57 a.m. UTC+8
奖励 ¥120000
参赛提交

上一阶段

终选答辩阶段
八月 15, 2022, 午夜 UTC+8

当前阶段

A 榜
七月 5, 2022, 8 a.m. UTC+8

终止阶段

Competition Ends
九月 15, 2022, 8 a.m. UTC+8

公告[0801]

1. 0801 的 凌晨 0 点起 B 榜开始接受提交。请参赛者注意,因为 A 榜、B 榜同时存在,大家在提交界面时,请注意切换 A 榜、B榜,以免提交错误位置。切换方式请见如下示意图:

2. 请注意,当前进入 B 榜阶段后,每个队伍/选手有两次渲染测试申请机会,当前的渲染测试每周三截止收取一次,每周五前反馈渲染内容。

3.请注意,B 榜的测试集、评分规则、评分内容均有更新和调整,请以该补充文档为准:点我访问

此处简要说明如下:

1)B 榜测试集包含有三种类型测试任务:中之人录制语音(6min左右)、TTS 合成语音(1.5min 左右)、上海电视台新闻提取语音( 2.5min 左右)

2)B 榜提交时需针对上述三种任务均输出对应 blendshape 并打包提交至平台

3)输出的 blendshape 需考虑眼部动作,眼部动作可不通过 AI 模型输出,具体眼部动作的设定、生成需在最终 PPT 中写明方法

4)线上 B 榜评分时,仅针对「中之人录制语音」的对应 blendshape 予以客观评分,且 blendshape 的参数维度中不包含眼部动作等(与 A 榜一致)

5)B 榜截止后,我们将选取实名认证、有有效数据申请、且有有效 A 榜成绩的的 在 B 榜排名前 20 的选手,提交解决方案 PPT、模型代码。

6)我们将邀请 10 名主观评审,对选定的测试任务做主观评价。测试任务、主观评价维度请详见上方文档链接。测试任务的 blendshape 将由 SMG 技术中心统一做渲染处理生成视频提供至评审。

 

4. 竞赛官方解读视频回放如下:

 

AIWIN2022 春季——文本语音驱动数字人表情口型竞赛

出题方:SMG技术中心(上海东方传媒技术有限公司)、SMG融媒体中心、AR/VR技术及应用国家工程实验室

赛题描述

随着“元宇宙”概念的火爆,数字人被越来越多出现在我们生活的方方面面。SMG在2020年退出了虚拟二次元新闻主播“申䒕雅”,并在2022年转正有了写实风格的数字人形象。创造一个数字人需要大量时间和经历,虚拟人物的创造包括:人物原型、建模、生成、渲染等;虚拟人物的驱动方式包括:手动制作动画、动作捕捉技术、AI智能驱动技术。

随着AI技术的发展,越来越多人开始用AI来控制数字人的动态行为。通过对接AI大脑(知识库),让AI数字人具备了特定场景下的识别信息、理解信息、反馈信息的智能人机交互能力。

然而在实际应用中,让数字人能够模拟真人情感和行为细节仍然是正在不断优化的行业研究课题。本次的赛题即为实际应用中的研究课题之一:如何让数字人可能基于对文本语音的理解,有更真实的表情和口型的表现力 。本次赛题将以SMG新闻主播“申䒕雅”数字人为虚拟主角,提供其中之人大量动捕数据的供机器学习,形成一套AI算法来通过文本语音驱动数字人表情口型。

竞赛关键要点

 

A

B

训练集

1、原始的文本数据;

2、“中之人”念文稿的原始语音数据;

3、“中之人”通过动捕系统捕捉生成数据,并绑定在数字人的“申䒕雅”模型上生成的BlendShape参数,共30min左右。(按 25FPS 输出,一秒音频对应 25 组 BlendShape 参数)

不再提供额外训练集

测试集

1、原始的文本数据;

2、“中之人”念文稿的原始语音数据;

3、“中之人”通过动捕系统捕捉生成数据,并绑定在数字人的“申䒕雅”模型上生成的BlendShape参数,共10min。

中之人录制的语音数据(6min)左右;

TTS 合成的语音数据(1.5min)左右;

上海电视台新闻提取的语音数据(2.5min)左右

提交要求

1、选手(团队或个人)需完成系统实名认证,签署保密协议方能有效参赛。

2、提交算法模型,可基于文本/语音输出数字人“申䒕雅”的BlendShape参数。

3、A榜启动至 7 月 31 日,选手可有最多2次申请生成数字人视频的机会,可通过左侧「渲染测试」标签了解详情。

4、最终提交算法模型至AIWIN平台。

1、须有有效的 A 榜成绩,B 榜成绩才能生效。

2. 提交算法模型,可基于文本/语音输出数字人“申䒕雅”的BlendShape参数。

3、B 榜开启后,选手可再获得最多 2次中途生成数字人视频的机会,可通过左侧「渲染测试」标签了解详情。

4、最终提交算法模型代码和解决方案PPT至AIWIN平台。

关键节点(拟)

7 月 5 日开启A 榜

 

8 月 1 日0:00 开启 B 榜

(A 榜继续运行)

8 月 14 日 24:00 关闭线上榜单

8 月下旬答辩

9 月上旬颁奖

提交限制

每日做多3 次提交

全程最多 3 次提交

晋级或奖励

 

 

依据:综合B 榜有效成绩排名将要求前 20 名提交 PPT 和代码,结合 PPT、代码审核及对 Blendshape 的渲染主观评价,将选取有效的前 10 名进入终审路演答辩,结合答辩成绩,确定最终奖项归属 。

 

奖励:

1.12 万元奖金池

2.企业:SMG长期合作数字人项目的机会

3.个人:SMT(SMG 技术中心)实习或入职优先考虑

4.AIWIN 证书

 

 

竞赛详细设定

一、赛题考官

SMG技术中心(上海东方传媒技术有限公司)、SMG融媒体中心、AR/VR技术及应用国家工程实验室

二、赛题背景

随着元宇宙的兴起,越来越多的厂商将战略资源投入到元宇宙和数字人。作为人机交互的重要组成部分,表情和口型驱动广泛用于游戏、电影、人机对话、虚拟主播等。不同于传统的动画和游戏,元宇宙的世界对表情和口型有更高的要求,从而使数字人(digital human)表情更加丰富、细腻;口型与表达的内容更加吻合,以提升元宇宙情感体验。

表情(expression)可被视作由无数个表情基准通过线性组合而计算得到,用公式来说就是e=Bd+b,其中e是expression,B是一组表情基准(即blendshape,可以是皱眉、闭合眼皮、嘴角扬起等,越细分表情约细腻),d是对应的系数(在这一组里面的权重),b是neutral。当下,Maya 等软件在制作数字人动画时均需通过 blendshape 参数来实现表情动画的定义。

我们的竞赛任务即希望通过给定的语音文本,通过 AI 算法生成对应的 blendshape 参数,从而在 Maya 等软件中可以驱动对应人物表情。

为便于选手快速了解 Blendshape,可参考以下短视频的演示,视频中左侧的参数列表例如“Jaw Open”等都代表了脸部某一细节如唇角上扬、口型开闭、眼睛张闭等程度,通过对这一系列参数(统称为 blendshape)的数值(0-1 之间)予以控制,将能刻画一个数字人某一帧的口型表情,而当多帧连续放映就形成了动画效果

三、赛题任务

本次赛题将提供语音以及所对应的文本和blendshape参数,语音通过真人朗读文本获得,blendshape参数通过人脸面部捕捉设备获得。

参赛选手通过端对端训练语音/文本—blendshape参数,得到人脸表情驱动模型。在测试阶段,输入为语音或文本数据,输出为blendshape参数,通过blendshape参数,将用于驱动虚拟数字人面部表情。比赛任务即:

输入:语音/文本数据

输出:blendshape参数(要求25FPS,即1秒音频输出25个blendshape,训练集按同样要求采集生成)

四、赛题数据

A. 数据规模和内容覆盖

 

初赛

复赛

训练集(含验证集,请自行划分)

30 min左右的语音数据以及所对应文本和BlendShape参数(按 25FPS 输出,一秒音频对应 25 组 BlendShape 参数),实名认证并签署保密协议后可获取

不再提供额外训练集

测试集

10 min语音数据以及所对应文本,可下载

10 min语音数据以及所对应文本,可下载

B. 数据内容示例:

“1.wav”示例内容:略

“1.txt”示例内容:床前明月光,疑是地上霜

“1.csv”示例内容:csv 格式文件,请具体参见「下载」-「数据示例」

五、赛题赛程和提交要求

本赛题共分成三个大阶段:

线上比赛(A、B 榜)——成绩复核——终选答辩

线上比赛阶段采用 A、B 榜模式,并在 PPT 和代码核验后挑选前 10 名进入终选答辩

1.线上比赛

该阶段内接受个人报名、团队登记(报名登记规则请详细阅读比赛规则)。

团队创建需经管理员审核(若正式代表某机构或企业参赛,需机构或企业出具相应盖章函件证明方可建立)。

参与的选手,需与SMG技术中心(SMT)签署相关的参赛协议,以规范数据使用范围和履行保密义务。

A. 赛程说明:

  1. 训练集:线上比赛将为选手提供30min左右的语音数据以及所对应文本和blendshape参数用于训练,所有数据均可下载。实名认证并签署保密协议后可获取
  2. 测试集:选手完成模型训练后,可尝试测试集(10min语音数据以及所对应的文本),A 榜和 B 榜期间将分别提供两个不同版本的测试集,测试集在实名认证并签署保密协议后可获取。模型产出识别结果后,可按 B 小节的提交要求提交后,获得排名。
  3. 数据下载:选手通过保密协议等手续后,会获得链接。
  4. 渲染测试:在 7 月 31 日前,开放每组选手最多 2 次的渲染测试,即可提交最多 2 个 blendshape 文件提请命题方渲染为视频检视效果;B 榜开启后,将增补 2 次机会。具体渲染测试的操作流程及具体规则请参见左边「渲染测试」的标签。
  5. 成绩有效:B榜成绩有效的前提是有有效的 A 榜成绩;A 榜成绩有效额前提是完成实名认证和协议签署。
  6. 实名认证:请注意本次竞赛要求所有选手完成实名认证方能核算成绩,请未做过实名认证的点击页面右上角进入个人中心,点击“完成实名认证”。实名认证采用三要素:姓名、手机号和身份证,请确保手机号为您本人名下实名认证的号码。

B. 结果提交的内容和要求:

  1. 本平台要求所有提交内容统一打包为 zip 文件上传,其中包含的内容为 对应测试集各个 audio 文件输出的 blendshape  文件( csv格式)。ZIP包请统一命名为 用户 ID_YYMMDD.zip,用户 ID 为你注册时的用户名(如为个人)或团队名(如为团队)。请注意,ZIP 文件打包后请测试确保其解压后在对应解压目录的根目录下能够直接获得所有 csv 文件,而不是嵌套在文件夹下。
  2. 每个csv为一个音频文件对应的输出,其含有 blendshape 的参数组值,所输出的 blendshape 文件请遵循对应测试集的音频文件予以命名,例如测试集音频文件为“1.wave”则其对应的 blendshape 命名为”1.csv”
  3. blendshape 的输出记录格式为CSV,其格式请参考「下载」-「blendshape 标准示例」
  4. 请注意,针对 B 榜提交,请对下述三个任务,即59.wav ,tts_2.wav ,tv_1.wav 额外考虑眼部等参数的输出,这三个任务将做主观评审

 

C.提交规则:

设定每日最多 3 次提交(A 榜) / 设定全程最多 3 次(B榜)

请注意,为避免不可预见的问题,团队中请保持使用统一账号负责提交。具体保留在排行榜上的成绩按照 D 小节「排名规则」的设定。

D. 排名规则:

排行榜显示最佳成绩。

E. 晋级规则:

排行榜截止排名后,工作人员将对排行榜做复核,确认所有榜上个人和团队都已完成实名认证,并剔除相关小号记录等。

2. 成绩复核

A.流程说明:

1)线上比赛结束后,AIWIN 将在1 天内确定 B 榜有效的前 20 名,通知提交 PPT 和代码。

2)为便于选手准备,请 B 榜成绩进入前 30 的提前准备 PPT 和代码。我们正式通知提交后,一般给于的提交时间为 2 天内提交完毕。

3)相应提交方式和要求届时将邮件通知。

4)  PPT 可参照如下结构准备:

  1. 解题思路 PPT 命名应为「选手名.ppt」,对于个人参赛选手名即个人 ID,团队参赛选手名即为团队名。
  2. 解题思路 PPT 需包含以下内容:
    1. 个人简介:在职者填写当前职业和在职机构(如方便透露),在校者请填写当前年级、专业、高校 
      团队简介:团队整体介绍,以及每个成员的介绍、成员分工
    1. 赛题理解与问题建模:清楚描述对赛题任务的理解,抽象为模型建立的策略
    2. 数据探索与特征工程:针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法
    3. 模型训练和融合:描述模型的训练、实验对比和融合过程与方法
    4. 眼部动作说明:请对添加的眼部动作给出具体的生成或添加的方法论
    5. 模型性能说明:模型性能,指标为处理 1s 音频耗时(不作为主观评分主要依据) 主观评分主要依据)

5) 代码请整理后,提供 README 文档,文档内应对代码的运行方式、代码结构、代码依赖等做相关说明,并确保提供的代码可独立运行复现结果。

6)20 名提交内容后,将送审 SMG技术中心做技术复审,以及针对主观评价任务做主观评审,经过综合评定后,将通知前 10 名进入决赛答辩

六、评价方式

线上排名

采用如下评价方式。

模型输出要求25FPS(即1秒视频输出25个blendshape)

模型性能将通过RMSE计算一段输入音频输出的blendshape平均损失

公式如下:

 

参考代码如下:

完整示例代码:链接: https://pan.baidu.com/s/1ZwsqCsGEu5U_v55K1BEX2Q?pwd=5mxj 提取码: 5mxj 

对测试集,我们将计算平均损失,分数越小,性能越佳(排名越高)

B 榜 20 名选 10 名进入决赛时,将增加主观评价方式,即通过输出的blendshape,渲染驱动3D模型,主观评价表情和口型优劣。(具体主观评价和客观分数的比例,将在稍后赛程中进一步确定和公布)

 

主观评价

主观评价仅针对下述三个任务开展:

“中之人”:59.wav

TTS合成:tts_2.wav  

新闻提取:tv_1.wav

 

我们将邀请 10 名评审参与主观评价,其维度为:

- 声画同步

- 开口音整体准确度

- 闭口音整体准确度

- 是否有无意义抖动

- 生成发音的成功率

- 整体嘴部说话逼真度

- 眨眼自然度  

终选方式

综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。

 

 

 

 

 

 

 

 

线上排名

采用如下评价方式。

模型输出要求25FPS(即1秒视频输出25个blendshape)

模型性能将通过RMSE计算一段输入音频输出的blendshape平均损失

公式如下:

 

参考代码如下:

 

完整示例代码:链接: https://pan.baidu.com/s/1ZwsqCsGEu5U_v55K1BEX2Q?pwd=5mxj 提取码: 5mxj 

 

对测试集,我们将计算平均损失,分数越小,性能越佳(排名越高)

B 榜 20 名选 10 名进入决赛时,将增加主观评价方式,即通过输出的blendshape,渲染驱动3D模型,主观评价表情和口型优劣。(具体主观评价和客观分数的比例,将在稍后赛程中进一步确定和公布)

 

主观评价

主观评价仅针对下述三个任务开展:

“中之人”:59.wav

TTS合成:tts_2.wav  

新闻提取:tv_1.wav

 

我们将邀请 10 名评审参与主观评价,其维度为:

- 声画同步

- 开口音整体准确度

- 闭口音整体准确度

- 是否有无意义抖动

- 生成发音的成功率

- 整体嘴部说话逼真度

- 眨眼自然度 

 

 

 

 

 

竞赛设定规则

1. 参赛者身份属性、队伍组成成分均以保密协议签署的内容为准,一经审核通过,不再发生变化。

2. 所有参赛者,无论是自然人或法人组织,均需按照保密协议的约定,不得私自或公开分享传播赛事数据

AIWIN赛事一般通用规则

  1. 参赛人群:大赛面向社会各界开放,不限年龄国籍,高校、科研院所、企业从业人员均可报名参赛。参与大赛组织工作有关单位员工及直系亲属可参赛但不可获奖;
  2. 账号体系:赛事平台的账号体系以个人为单位,注册平台需要提交个人的姓名、学校/单位、邮箱、手机等信息。上述信息仅用于赛事联络和运营。
  3. 赛事报名:赛题报名以单个账号为单位开展。选手根据自身情况,仅可二选一选择一种身份参赛:
  • 个人参赛:选手以个人身份注册账号直接参赛
  • 团队参赛:团队的每个成员均需在比赛平台注册,并通过系统在所参与的赛题上组建团队,并将各队员添加入团队作为成员。每个团队最多 5 人。 团队成员在加入团队后,各自可代表团队提交项目,且团队成员个人成绩(无论成团前后)将被统一视为团队成绩,团队成绩最终成绩取团队各成员所取得的最好成绩。同一团队仅可占 1 席晋级名额和奖项名额,如遇同一团队多名成员占有 1 席以上晋级范围的排名,则名额顺延至下一团队或个人。
  1. 作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩并进行严肃处理;
  2. 排行规则:排行榜以个人账号为单位,依据所提交的结果评分予以排名。如个人账号从属于某团队,则排行榜在该个人账号旁会显示其团队名称。团队的排名以团队中各团队成员的最高排名为准。
  3. 排名验证:赛题出题方、大赛主办方、平台运营方有权利进一步要求参赛者提交代码、解题思路等并基于此检视判断排行分数的合理性,从而对排名进行修正。各赛事赛题的最终排名应以各赛题所发布的公告或通知为准,线上排行榜仅为参考。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证。
  4. 晋级规则:赛段晋级名额、方式由各赛题设定。若有参赛者主动弃赛,晋级名次顺延。晋级名额中以个人身份参赛的则个人选手个人晋级,如个人从属于某团队,则该团队整体晋级。
  5. 公平竞技:参赛者禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩排名,禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理。
  6. 组织声明:组委会保留对比赛规则进行调整修改的权利、比赛作弊行为的判定权利和处置权利、收回或拒绝授予影响组织及公平性的参赛团队奖项的权利。
  7. 竞赛数据:组委会参赛人员使用提供的数据进行指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关赛题的出题方;参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分。
  8. 知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
  9. 奖励分配:竞赛平台、赛题主办方等均不对物质奖励的分配方式予以负责,物质奖励将颁发给个人参赛者或团队指定的个人。证书等将根据个人参赛和团队参赛予以区分,授予个人或团队(列明个人姓名)

 

 

 

 

 

 

 

关于协议签署的任何问题,请咨询 aiwin@aispacesh.com,请勿直接咨询 SMT侧收件人 

 

一、总体步骤

1. 账号注册:队伍中的所有人应在ailab.aiwin.org.cn的平台注册了账号

2. 实名认证:队伍中的所有人应通过实名认证(地址:http://ailab.aiwin.org.cn/my/verification/,具体步骤也可参考「实名认证」的专题标签。如因为手机号实名信息与身份证不符等原因而实名认证无法通过,可先跳过实名认证,在提交协议环节我们会手工做验证)

3. 参赛报名:队伍中的所有人应在竞赛页面点击「参赛提交」报名赛事

4. 队伍组建(如需):队伍中的所有人应通过竞赛的「队伍管理」组建或加入了队伍 (如不清楚具体怎么操作,可点击页面右上角「使用手册」具体了解),协议签署手续完成后,队伍的组成情况以协议签署的版本为准。

5. 协议签署:

    如果你们队伍是由个人(即不代表任何机构)组成的,那么请签署个人版保密协议(链接见下),请确保每个人都已单独签署一份,并已准备好了身份证复印件

    如果你们队伍中有任何机构需要以机构身份参赛,请准备好机构盖章的法人版保密协议(链接见下),并请准备好营业执照扫描件

6. 协议提交:https://jinshuju.net/f/WnNdD7

7. 协议审核:我们会在 2 个工作日内尽快对材料予以审核,并邮件反馈团队

8. 数据下载:获得数据链接的选手可下载数据,请注意根据协议,任何选手无论个人或法人机构都无权传播该数据,请勿私自向任何其他未签署协议的个人、机构提供数据。任何个人、机构未完成上诉材料提供,而获得数据并提交的结果都将视为无效提交。

二、关于协议的签署

协议的获取地址和说明地址:https://pan.baidu.com/s/1gGxNo_SplzgWMrLUhOZ8_g     密码: lma9

请注意以下几点:

1. 如无需 SMT侧提供盖章版,可仅通过上方电子渠道提交单章/单方签字的扫描件即可

2. 如需要 SMT 侧盖章,请按照协议要求完整准备正本协议和相应附件,一并寄送到上诉协议文件夹下的协议说明里提供的地址

 

 

 

 

 

 

 

渲染测试申请入口:https://jinshuju.net/f/LiOcBu

一、 渲染测试的目的

本竞赛的任务是利用人工智能机器学习方式代替传统动捕获得语音文本对应的 BlendShape 参数,从而加速数字人的生产效率。为了能够让选手直观检视机器学习产出参数组的实际效果,命题方牵头单位 SMG 技术中心为选手提供了渲染测试服务,能够为选手自选的一个特定 BlendShape 文件(即测试集中对应的一个特定文本音频)做渲染,并返还生成的视频。

 

二、渲染测试的规则

1. 测试申请截止节点

为提高渲染测试的效率,赛事设定每周日晚 24 点统一截止一批申请的采集,并在次周一由 SMG 技术中心统一渲染返还给选手。

(B 榜期间修正为 8 月 3 日周三、8 月 10 日周三两次截止收取,周五反馈)

2. 有效测试申请

有效的测试申请必须含有完整、有效、真实的填写信息,且上传的 blendshape 文件有效、按要求命名

blendshape 命名规则:文件命名为[选手名-Audio 名],即两部分组成
- 选手名:即你们的团队名称或个人参赛的话即个人用户名
- 对应 Audio 名:对应测试集中的 Audio 名

3. 测试次数限制
-截止7 月 31 日(含当天),每个有效的团队有 2 次提出申请的机会;
-8 月 1 日-8 月 14 日期间,每个有效的团队可获得额外 2 次提出申请的机会;

 

三、渲染测试的流程:

1. 请首先至https://jinshuju.net/f/LiOcBu 提交申请,你应当准备好你们需要申请渲染的 BlendShape 文件

2. 每周一至周日 24 点为一个申请接收周期,我们将统一再「次周一」将上周的有效申请转交给 SMG 技术中心

3. SMG技术中心将按照时间倒序(先提交的先渲染)开始渲染生成视频

4. 视频渲染完成后,将返还至申请中预留的邮箱

请注意渲染时间随着每周申请量变化而有所不同,请给到 1-2 个工作日的预期。

 

 

 

 

 

 

 

此处提供一些具备参考意义的论文、开源方案等资料,请注意任何所列的参考内容仅供选手参考,并非代表 AIWIN 或者任何命题方对该方法或代码的官方采纳或思路建议,请选手自行谨慎使用

一、参考文献:

1.Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion 2017
2.VisemeNet: Audio-Driven Animator-Centric Speech Animation 2018
3.Capture, Learning, and Synthesis of 3D Speaking Styles 2019
4. AUDIO2FACE: GENERATING SPEECH/FACE ANIMATION FROM SINGLE AUDIO WITH ATTENTION-BASED BIDIRECTIONAL LSTM NETWORKS 2019
5. A Novel Speech-Driven Lip-Sync Model with CNN and LSTM 2022

二、开源方案

https://github.com/FACEGOOD/Voice2Face 

 

 

 

 

 

 

 

请注意,2022 赛季起实名认证都将作为晋级或切榜后成绩有效的前提。

实名认证需通过点击系统右上角用户名处,进入「设定」界面操作。

在此界面请先确认姓名是否为真实姓名,若不是请修改,并点击页面最下方的保存按钮。之后点击「前往实名认证」

在实名认证页面,你需要填入自己的身份证号和手机号(请使用登记在你身份证名下的手机号

若三者信息匹配即可完成实名认证。如有技术问题,请按页面提示联络我们。

 

 

 

 

 

 

 

 

结合2022AIWIN春季赛季赛题,机械出版社华章分社推荐以下书籍,希望能够帮助各位参赛选手取得好的成绩!同时对于优秀的参赛选手也将提供部分书籍奖励。感兴趣的同学也可到 AIWIN 专题书单页面购买(京东专题页传送门当当专题页传送门

1.  基于深度学习的自然语言处理

推荐语:将深度学习方法应用于各种自然语言处理任务,可以让你的算法在速度和准确性方面提升到一个全新的水平。本书首先介绍自然语言处理领域的基本构件,接着介绍使用*的神经网络模型可以解决的问题。深入研究各种神经网络架构及其特定的应用领域将有助于你理解如何选择*模型来满足你的需求。随着学习的深入,你将学到卷积神经网络、循环神经网络、递归神经网络以及长短期记忆网络。在后面的章节中,你将能够使用自然语言处理技术(如注意力机制模型和集束搜索)开发应用程序。

 

2.会话式AI:自然语言处理与人机交互

 

推荐语:这是一部讲解如何基于NLP技术和人机交互技术实现聊天机器人的著作。

两位作者聊天机器人领域均有多年大型项目的实战经验,这本书不仅讲解了NLP和人机交互的核心技术,而且从技术、算法、实战3个维度讲解聊天机器人的原理、实现与工程实践。

 

3.  从零构建知识图谱

推荐语:这是一本能让读者快速从零开始构建工业级知识图谱的著作。作者是知识图谱和自然语言处理领域的专家,本书得到了OpenKG联合创始人王昊奋、清华大学教授李涓子、东南大学教授漆桂林、美团知识图谱团队负责人张富峥、文因互联创始人鲍捷等学界和业界知识图谱扛旗人的一致好评和推荐。

本书不仅详细讲解了知识图谱的技术原理和构建工具,而且还循序渐进地讲解了知识图谱的构建方法、步骤和行业应用。配有大量实战案例,并且开放了源代码,确保读者能学会并落地。

 

4. 基于混合方法的自然语言处理:神经网络模型与知识图

推荐语:IBM研究员Ken Barker及谷歌知识图谱Denny Vrandecic作序推荐,介绍神经网络和知识图谱的结合在NLP中的应用。书中准确地演示了如何创建和使用上下文表示,对意义嵌入和知识图谱嵌入有着明确的处理方法,解释了使用它们的语言模型和Transformer体系结构。

 

5. 自然语言理解与行业知识图谱

推荐语:为互联网企业的智能平台构建提供了很好的案例参考,也为行业信息化从业者提供了从入门到进阶的技术指导,适合作为自然语言处理、知识图谱、计算机、人工智能等领域从业者的学习指导书,也非常适合对自然语言处理、知识图谱感兴趣的学生和创业团队阅读。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

我们推荐你通过 Intel DevCloud 平台利用其线上环境和算力完成本竞赛的建模

DevCloud:http://devcloud.intel.com/

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

提交压缩包的规范

当前系统仅接受压缩包,所以请将所有任务对应的 blendshape 的 csv 文件统一打包入一个压缩包,并按命名规范操作上传提交。

请注意,该压缩包应当在 unzip 命令下解压后,在解压路径的根目录下能够直接得到所有 csv 文件,而无文件夹嵌套。

如有文件夹嵌套,系统将无法自动定位到 csv 文件,从而无法判分而抛出异常。

提交结果分析

1. 请注意,提交界面上传文件后,提交物会先后经历[submitting- submitted - running - finished] 数个状态。

2. 待进入 finished 状态后,可点击”+“号 展开该行提交

3. 点击「查看 scoring output 输出」可看到详细的每个 blendshape 的分数和总分 score

4. 请注意当前 score 数值越小越接近 0代表生成的 blendshape 越好

5. 排行榜采用的是取你历史提交最佳成绩显示,因此建议你是提交后,隔 1 分钟刷新提交页面,查看此轮提交物的输出分数

6. 如果发现排行榜显示的分数并非是你的最好成绩,请邮件至 it@aispacesh.com 反馈该问题,我们尽快介入处理。

 

常见异常:

 

错误情况 1:

在 Traceback 中直接输出的报错信息
FileNotFoundError: [Errno 2] No such file or directory: './input/ref/xxxx.csv'

含义:评审程序会读取 ground truth,并试图通过同样的文件名找到对应的提交答案,如出现上述错误,说明你对输出的 blendshape 的命名有误。请检查,如测试任务是A1.wav,则对应的输出应该是 A1.csv

错误情况 2:

在 Traceback 中直接输出的异常
KeyError: 'XXXXXX'

含义:请确认你的输出中是否正确输出了 blendshape 的参数,正确的参数个数应该为52个(请以 数据包中 blendshape-example(输出模版参考).zip 为准)

错误情况 3:

在 Traceback 中直接输出的异常
ValueError: Found input variables with inconsistent numbers of samples: [xxx, yyy]

含义:初步判断应当是你输出的 blendshape 文件的行数与 ground truth 有差异,或你的 blendshape 可能包含多余的参数列,请检查

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A 榜

Start: 七月 5, 2022, 8 a.m.

概述: [已开启]赛事分 AB 榜,必须有有效 A 榜成绩方能使 B 榜成绩生效,A 榜终止日期为 8 月 14 日

B 榜

Start: 八月 1, 2022, 午夜

概述: B 榜自 8 月 1 日开启接受提交,前 30 名请自行做好提交 PPT 和代码准备,待 8 月 14 日榜单封榜后,有效的 20 强将收取代码和 PPT

终选答辩阶段

Start: 八月 15, 2022, 午夜

概述: 代码和 PPT 复核及渲染输出结果后,将邀请 10 强选手线下答辩

比赛结束

九月 15, 2022, 8 a.m.

请登陆来参加比赛

登入
# 用户名 分数
1 invatar 0.123
2 azrael 0.130
3 shuaigui 0.141