腾讯ARC算法实践的沃土:深度学习在内容素材上复原、二次创作的研究应用

举报
资源描述
腾讯ARC: 算法实践的沃⼟ ——深度学习在内容素材上复原、⼆次创作的研究应⽤ 腾讯PCG简介(平台与内容事业群) 社交平台 内容平台 流量平台 带来引领潮流的独特社交体验 创造跨平台的数字内容消费体验 实现内容/产品最有效的用户触达 长视频 短视频 影业 资讯 体育 动漫 内 容 生 态 中 国 最 丰 富 的 内 容 布 局 , 最 具 能 量 的 I P 创 造 能 力 内容多样性 X 算法需求的多样性 传播 再创作 应用端 大 数 据 分 析 和 洞 察 图文 视频 广告 影视 动漫 推荐 搜索 画像 内容的 多样性 内容理解 审核 标准化 预处理 直播 制作 智能内容创作 视频 丰富内容 视频 精细的视频 分发 深度理解 (视频结构与情绪) 后期处理 (音乐、filter) 再创作 内容增强、生成等… 编辑 (场景、clip) 视觉效果 呈现 用户 跨模态 检索与推荐 平台服务 用户拍摄 检索 内容理解 数据结构与组织 比如:标签、聚类等 脚本 大量素材 源素材 小想法 想法 多模态理解与推理 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 传统双流视频-文本网络, e.g., CLIP Training objective, �text e.g., contrastive loss 高效的下游视频-文本检索 �video 缺乏细粒度的视频-文本信息交互 backward Encoder Encoder Text Video 传统单流视频-文本网络, e.g., ViLT Training objective, e.g., video-text matching loss �joint 低效的下游视频 文本检索 - backward 细粒度的视频-文本信息交互 Joint Encoder Text Video 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 单塔与双塔模型的桥梁 预训练: 下游检索: Training objectives, i.e., contrastive loss + MCQ loss dot product Bridge Forme Encode r Encode r r only for pretraining Text Video Text Video 高效的下游视频-文本检索,继承双塔优势 细粒度的视频-文本信息交互,继承单塔优势 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 如何构建多项选择题? … … … “A girl in shorts and a hat is dancing on the green grass” noun verb noun spatial local objects temporal object motionsspatial local objects Noun question: “A girl in shorts and a hat is dancing on the [?]” Answer: “green grass” Verb question: “A girl in shorts and a hat is [?] on the green grass” Answer: “dancing” 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 基于参数化BridgeFormer 的多项选择题借口任务 MCQ “dancing” “laying” “green grass” “stage” BridgeFormer only for pre-training “talking” Verb answer Noun answer “beach” � � �, � TextFormer VideoFormer � 1 � 2 � � Verb Noun question “Aqugirlestinionshorts and a hat is[?] on the[?] ” • 七个公共数据集SOTA+,包括零样本、微调等评测基准 • 涵盖视频-文本检索、动作分类等视频-文本表征学习任务 • 超越CLIP@OpenAI预训练 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 可视化:BridgeFormer 如何回答“名词”问题? Q1 Q2 “An old couple/[?] (Q1) are drinking coffee, and there is a plate of bread/[?] (Q2) on the table in front of them.” “A girl is walking with a dog/[?] (Q1) near a lake/[?] (Q2), and there is a meadow on her left.” “A woman wearing a pink dress/[?] (Q1) and carrying a black handbag/[?] (Q2) is walking in the park.” “Parents and kids are playing football/[?] (Q1) on the countryside lawn/[?] (Q2) .” 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 可视化:BridgeFormer 如何回答“动词”问题? Frame 1 Frame 2 Frame 3 “A hand is cutting/[?] (Q) the pizza on the wooden table.” “A man standing on the lake shore is drinking/[?] (Q) hot tea.” 腾讯PCG产品中跨模态检索的应用(CVPR2022,ECCV2022) 查询:小狗在山顶看日出 跨模态检索 查询:绑着粉红色蝴蝶结的羊驼,一动不动的趴在售卖羊驼毛 绒玩具的门口,来回张望。 关 键 字 检 索 跨 模 态 视 频 检 索 视 频 打 标 签 真值: ['请勿模仿', '体育训练', '运 动牛人', '跑酷', '空翻', '体能训练 标 题 生 成 '] 团身侧空翻,后空翻,后手翻,mc 小 朋 友 的 日 常 , 你 们 觉 得 这 个 小 孩 子 的 玩 具 有 多 好 玩 呢 ? 跑酷,翻跟头,侧手翻,空翻,真好体 ,开合跳,前手翻,年下男,训练模式 ,唱功炸裂,国内,cf跑酷,那小子真 帅 这 样 扎 头 发 , 简 单 又 好 看 , 学 会 了 吗 ? 视觉模型 模型迭代: 基于兼容模型的检索系统热刷新升级(ICLR 2022) 传统冷刷新模型升级 低效模型迭代: 图库离线回填后新模型 才可以上线, 数十亿图像回填需若干月. 热刷新模型升级 高效模型迭代: 新模型的即时上线, 和图库的在线回填,精度逐步爬升 模型迭代: 基于兼容模型的检索系统热刷新升级(ICLR 2022) 传统兼容模型的挑战—— 热刷新模型升级中的模型退化问题 模型回归问题的本质因素—— 负翻转 模型迭代: 基于兼容模型的检索系统热刷新升级(ICLR 2022) 我们提出的缓解模型退化的兼容训练 模型迭代: 基于兼容模型的检索系统热刷新升级(ICLR 2022) Google Landmark v2:ResNet-50 ResNet-101 模型升级 模型迭代: 通用场景下的兼容正则化(IJCAI 2022 Oral) 开放世界模型升级下的五种数据分布& 通用兼容正则化 腾讯PCG产品中模型兼容性的应用 ContentDNA :用于版权识别的大规模索引系统 月流量 库存视频 索引 视频 … 视频长度 (s) 特征量 • 冷刷新模型升级: • 热刷新模型升级: 刷库慢 即时上线 模型预训练: 图像BERT预训练的多选离散化(ECCV 2022) mc-BEiT: Multi-choice Discretization for Image BERT Pre-training Compared to BEiT (@Microsoft) and iBOT (@Bytedance), new state-of-the-arts on ImageNet classification, ADE20k semantic segmentation, COCO detection & instance segmentation. 底层视觉 ——对内容素材的复原、增强与编辑 基于生成人脸先验的人脸复原GFPGAN (CVPR 2021) 真实世界的低清人脸输入: 压缩 模糊 噪声 GFPGAN 的复原结果: 基于生成人脸先验的人脸复原GFPGAN (CVPR 2021) Degradation Removal Pretrained GAN as prior Losses � 푙 푒 latent codes � MLP � 푔푙표푙 Adversarial Loss � 푒�푒 � � � 푠푝푙 ROI align Facial Component 푒�푒 Loss � Channel-Split SFT � 푚표 ℎ Spatial Feature Transform (SFT) � GAN Identity Preserving Loss Face Recognition Feature Extractor × + conv Restoration Loss � 푠푝푙 利用了生成网络 GAN 的先验知识 丰富的纹理和人脸细节 生动的色彩 基于生成人脸先验的人脸复原GFPGAN (CVPR 2021) 我们的人脸复原 算法GFPGAN PaperWithCode Top榜 我们的GFPGAN人脸 复原算法 GitHub Trending榜 基于生成人脸先验的人脸复原GFPGAN (CVPR 2021) 基于向量量化和双解码器的人脸复原VQFR (ECCV 2022 Oral) Main Branch �푚 TWM TWM TWM �� � Vector Quantization Vector Quantization Texture Branch Code Distance Texture Warp Module (TWM) offset 0 1 … … N-1 0.6 N-2 0.9 0.4 0.1 1 1 � � � � � �
展开阅读全文
温馨提示:
金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
相关搜索

当前位置:首页 > 研究报告 > 统计年鉴/数据分析


电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号