腾讯ARC算法实践的沃土：深度学习在内容素材上复原、二次创作的研究应用

资源描述

腾讯ARC: 算法实践的沃⼟ ——深度学习在内容素材上复原、⼆次创作的研究应⽤腾讯PCG简介(平台与内容事业群) 社交平台内容平台流量平台带来引领潮流的独特社交体验创造跨平台的数字内容消费体验实现内容/产品最有效的用户触达长视频短视频影业资讯体育动漫内容生态中国最丰富的内容布局，最具能量的 I P 创造能力内容多样性 X 算法需求的多样性传播再创作应用端大数据分析和洞察图文视频广告影视动漫推荐搜索画像内容的多样性内容理解审核标准化预处理直播制作智能内容创作视频丰富内容视频精细的视频分发深度理解（视频结构与情绪）后期处理（音乐、filter）再创作内容增强、生成等… 编辑 (场景、clip) 视觉效果呈现用户跨模态检索与推荐平台服务用户拍摄检索内容理解数据结构与组织比如:标签、聚类等脚本大量素材源素材小想法想法多模态理解与推理基于多项选择题的预训练借口任务（CVPR 2022 Oral）传统双流视频-文本网络, e.g., CLIP Training objective, �text e.g., contrastive loss 高效的下游视频-文本检索 �video 缺乏细粒度的视频-文本信息交互 backward Encoder Encoder Text Video 传统单流视频-文本网络, e.g., ViLT Training objective, e.g., video-text matching loss �joint 低效的下游视频文本检索 - backward 细粒度的视频-文本信息交互 Joint Encoder Text Video 基于多项选择题的预训练借口任务（CVPR 2022 Oral）单塔与双塔模型的桥梁预训练: 下游检索: Training objectives, i.e., contrastive loss + MCQ loss dot product Bridge Forme Encode r Encode r r only for pretraining Text Video Text Video 高效的下游视频-文本检索，继承双塔优势细粒度的视频-文本信息交互，继承单塔优势基于多项选择题的预训练借口任务（CVPR 2022 Oral）如何构建多项选择题？ … … … “A girl in shorts and a hat is dancing on the green grass” noun verb noun spatial local objects temporal object motionsspatial local objects Noun question: “A girl in shorts and a hat is dancing on the [?]” Answer: “green grass” Verb question: “A girl in shorts and a hat is [?] on the green grass” Answer: “dancing” 基于多项选择题的预训练借口任务（CVPR 2022 Oral）基于参数化BridgeFormer 的多项选择题借口任务 MCQ “dancing” “laying” “green grass” “stage” BridgeFormer only for pre-training “talking” Verb answer Noun answer “beach” � � �, � TextFormer VideoFormer � 1 � 2 � � Verb Noun question “Aqugirlestinionshorts and a hat is[?] on the[?] ” • 七个公共数据集SOTA+，包括零样本、微调等评测基准 • 涵盖视频-文本检索、动作分类等视频-文本表征学习任务 • 超越CLIP@OpenAI预训练基于多项选择题的预训练借口任务（CVPR 2022 Oral）可视化：BridgeFormer 如何回答“名词”问题？ Q1 Q2 “An old couple/[?] (Q1) are drinking coffee, and there is a plate of bread/[?] (Q2) on the table in front of them.” “A girl is walking with a dog/[?] (Q1) near a lake/[?] (Q2), and there is a meadow on her left.” “A woman wearing a pink dress/[?] (Q1) and carrying a black handbag/[?] (Q2) is walking in the park.” “Parents and kids are playing football/[?] (Q1) on the countryside lawn/[?] (Q2) .” 基于多项选择题的预训练借口任务（CVPR 2022 Oral）可视化：BridgeFormer 如何回答“动词”问题？ Frame 1 Frame 2 Frame 3 “A hand is cutting/[?] (Q) the pizza on the wooden table.” “A man standing on the lake shore is drinking/[?] (Q) hot tea.” 腾讯PCG产品中跨模态检索的应用（CVPR2022，ECCV2022）查询：小狗在山顶看日出跨模态检索查询：绑着粉红色蝴蝶结的羊驼，一动不动的趴在售卖羊驼毛绒玩具的门口，来回张望。关键字检索跨模态视频检索视频打标签真值: ['请勿模仿', '体育训练', '运动牛人', '跑酷', '空翻', '体能训练标题生成 '] 团身侧空翻,后空翻,后手翻,mc 小朋友的日常，你们觉得这个小孩子的玩具有多好玩呢？跑酷,翻跟头,侧手翻,空翻,真好体 ,开合跳,前手翻,年下男,训练模式 ,唱功炸裂,国内,cf跑酷,那小子真帅这样扎头发，简单又好看，学会了吗？视觉模型模型迭代: 基于兼容模型的检索系统热刷新升级（ICLR 2022）传统冷刷新模型升级低效模型迭代: 图库离线回填后新模型才可以上线, 数十亿图像回填需若干月. 热刷新模型升级高效模型迭代: 新模型的即时上线，和图库的在线回填，精度逐步爬升模型迭代: 基于兼容模型的检索系统热刷新升级（ICLR 2022）传统兼容模型的挑战—— 热刷新模型升级中的模型退化问题模型回归问题的本质因素—— 负翻转模型迭代: 基于兼容模型的检索系统热刷新升级（ICLR 2022）我们提出的缓解模型退化的兼容训练模型迭代: 基于兼容模型的检索系统热刷新升级（ICLR 2022） Google Landmark v2：ResNet-50 ResNet-101 模型升级模型迭代: 通用场景下的兼容正则化（IJCAI 2022 Oral）开放世界模型升级下的五种数据分布& 通用兼容正则化腾讯PCG产品中模型兼容性的应用 ContentDNA :用于版权识别的大规模索引系统月流量库存视频索引视频 … 视频长度 (s) 特征量 • 冷刷新模型升级: • 热刷新模型升级: 刷库慢即时上线模型预训练: 图像BERT预训练的多选离散化（ECCV 2022） mc-BEiT: Multi-choice Discretization for Image BERT Pre-training Compared to BEiT (@Microsoft) and iBOT (@Bytedance), new state-of-the-arts on ImageNet classification, ADE20k semantic segmentation, COCO detection & instance segmentation. 底层视觉 ——对内容素材的复原、增强与编辑基于生成人脸先验的人脸复原GFPGAN (CVPR 2021) 真实世界的低清人脸输入：压缩模糊噪声 GFPGAN 的复原结果：基于生成人脸先验的人脸复原GFPGAN (CVPR 2021) Degradation Removal Pretrained GAN as prior Losses � 푙 푒 latent codes � MLP � 푔푙표푙 Adversarial Loss � 푒�푒 � � � 푠푝푙 ROI align Facial Component 푒�푒 Loss � Channel-Split SFT � 푚표 ℎ Spatial Feature Transform (SFT) � GAN Identity Preserving Loss Face Recognition Feature Extractor × + conv Restoration Loss � 푠푝푙 利用了生成网络 GAN 的先验知识丰富的纹理和人脸细节生动的色彩基于生成人脸先验的人脸复原GFPGAN (CVPR 2021) 我们的人脸复原算法GFPGAN PaperWithCode Top榜我们的GFPGAN人脸复原算法 GitHub Trending榜基于生成人脸先验的人脸复原GFPGAN (CVPR 2021) 基于向量量化和双解码器的人脸复原VQFR (ECCV 2022 Oral) Main Branch �푚 TWM TWM TWM �� Vector Quantization Vector Quantization Texture Branch Code Distance Texture Warp Module (TWM) offset 0 1 … … N-1 0.6 N-2 0.9 0.4 0.1 1 1 � � � � � �

展开阅读全文

温馨提示：

金锄头文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。