24
2024
09

白虎 内射 多任务学习在转转搜索意图相识的执行

发布日期:2024-09-24 23:04    点击次数:176

白虎 内射 多任务学习在转转搜索意图相识的执行

搜索是转转主要的流量分发进口,搜索场景袒护了App首页搜索、App频谈页搜索以及小法子搜索等各式做事进口。意图相识旨在准确地解读用户输入的搜索要道词背后的着实需求,对搜索体验的利害至关进犯。通过意图相识,搜索引擎不错诊治搜索政策,提供与用户意图匹配的搜索限度,提高搜索限度的关系性和用户体验。此外白虎 内射,意图相识还不错匡助搜索引擎提供更多的个性化做事,如保举关系本色、智能指示等,从而进一步提高搜索的恶果和用户风景度。

意图相识精真金不怕火来说即是从词法、句法、语义三个层面临 Query 进行结构化认识。在电市场景的缺点问题是query的类目瞻望,例"iphone 15 pro 128 白色"的结构化类目为手机(类目)-苹果(品牌)-15 pro(型号)。转转的类目体系深广、类目层级间存在关联,且query可能属于多个类目。转转的类目瞻望可相识为三个磋磨联性的任务。

本文主要先容多任务学习在转转搜索意图相识的类目瞻望中的执行。率先先容多任务学习的基本成见;其次先容业界类目瞻望的顺序;终末展示多任务学习在转转意图相识类目瞻望场景下的探索。

1 多任务学习简介

1.1 什么是多任务学习

多任务学习(MTL)机器学习中的一种学习范式,想法是欺诈包含在多个关系任务中有用的信息,以匡助提高整个任务的泛化性能。其中枢想想是欺诈不同任务之间的分享示意来学习一个通用的特征提真金不怕火器,从良友毕学问的移动和任务的协同优化。

MTL与机器学习的其他学习范式存在关系性,举例移动学习(transfer learning)、多标签学习(multi-label learning)和多输出追忆(multi-output regression)。多任务学习与移动学习的设备相通但有显耀相反;多任务学习不同任务莫得区别,想法是提高整个任务的性能;而移动学习是通过源任务来提高想法任务的性能。多标签学习和多输出追忆每个数据皆与多个labels关系联,这些labels不错是类别也不错是追忆的数字;多标签学习和多输出追忆是多个任务领有疏导的数据,但多任务学习不同的任务领有的是不同的数据;要是把每个可能的标签动作一个任务,多标签学习和多输出追忆某种敬爱上不错看作是多任务学习的一种突出情况。多视图学习是机器学习的另一种范式,每个数据有多个视图,每个视图包含一组特征,尽管不同视图有不同特征,但整个视图被用于学习团结个任务,因此多视图学习属于具有多组特征的单任务学习。

蝴蝶谷娱乐

MTL与其他范式不同之处

多任务学习包含五种顺序,特征学习顺序、低秩顺序、任务聚类顺序、任务关联性学习顺序和解析顺序。这些顺序的瞩目先容可参考[1]。

1.2 NLP的多任务学习

比年来,在机器学习问题中,基于数据启动的神经模子取得了巨大的得手。在天然言语处理(NLP)领域,引入transformer和预磨练言语模子(PLMs)(如BERT、T5和GPT-3),在多个下贱任务的性能上已毕了巨大的冲破。天然预磨练使得PLMs具备了通用的百科学问和言语学问,但不才游任务中使用PLMs仍然需要进行任务特定的合适。然则,充分磨练这么的模子时时需要大皆的绚烂磨练样本,这在NLP任务中往往是上流的。跟着神经模子的限度按捺增大,磨练它们需要巨大的想象才能,以及深广的时候和存储预算。为了进一步提高模子性能,处理数据稀缺问题,并已毕资本效益的任务合适,联结PLM和MTL的顺序[2]被用于处理NLP任务。

NLP的MTL-并行架构

NLP的MTL-层级架构

基于任务之间的关联性何如被欺诈,MTL架构可分为以下几类:并行架构、层级架构、模块化架构和生成反抗架构。并行架构将模子的大部分分享给多个任务,每个任务有我方的任务特定输出层。层级架构模子化了任务之间的层级关系。这种架构不错从不同任务中层级地组合特征,将一个任务的输出动作另一个任务的输入,或者明确地模子化任务之间的交互。模块化架构将整个这个词模子解析为分享和任务特定的组件,辩认学习任务不变和任务特定的特征。与上述三种架构不同,生成反抗架构鉴戒了生成反抗网罗的想想,以提高现存模子的才能。需要戒备的是,不同类别之间的领域并不老是固定的,因此一个具体的模子可能适用于多个类别。尽管如斯,这个分类体系不错进展MTL架构想象背后的进犯想想。NLP中多任务学习的架构和优化技能可参考[3]。

2 业界类目瞻望顺序

意图相识在电商中饰演着不成或缺的脚色,关于进步电商平台的竞争力和用户体验至关进犯。这里的意图相识指狭义的类目瞻望(CP),其想法是识别给定文本的意图类别。

阿里[4]提议了一个深档次分类框架,将多圭臬层级信息纳入神经网罗中,并凭证类别树引入了一种示意分享政策。作家还界说了一种新颖的汇集吃亏函数,以处分层级瞻望吃亏。

Deep Hierarchical Classification

好意思团[5]将意图识别分为两步,第一步是意图调回,这块是调换为了分类任务,只判断某个查询是否包含某种意图。线上聘请辞书匹配+法规+模子的样式进行识别,辞书主要包含业务和领域关所有这个词据,辞书和Pattern法规,能相比好的处理热点识别,针对长尾部分,主要靠Bert模子来处理泛化识别问题;第二步是意图散播,意图调回收场以后,作家还要知谈现时搜索的各个意图的强弱,尤其是找到主意图,即是图上头部分的意图散播,作家将其改动成排序问题。由于线上展示的每条POI限度,后台皆有明确的业务包摄,是以作家就不错依据这个业务包摄信息和用户点击行径,得回有标注的磨练语料,来磨练排序模子。模子特征主要分为两部分,一是统计类的特征,包括一些CTR、CVR及关系的用户行径的特征。二是Embedding类特征,进行语义的抒发。

好意思团意图识别

京东到家[6]在搜索品类瞻望场景下主要尝试的顺序有两种,一类是平直聘请层级性多标签分类,第二类是聘请语义模子,联结用户点击,订单,成交等特征进行和会模子拟合出对应不同品类的得分取topN动作瞻望的品类倾向。

京东意图识别

3 多任务学习在转转的执行

转转平台悉力于促进低碳轮回经济的更好发展,梗概袒护全品类商品。在N品类第二弧线配景下,咱们需要在保证手机3C领域恶果的同期,进步N品类的搜索体验。

3.1 多任务学习在类目瞻望的执行

转转的类目瞻望包含类目、品牌和型号三个层级。咱们数据存在如下特质:(1)不同类目数据不平衡。(2)档次不一致: 有些query到类目,例手机、平板和吉他;有些query到品牌,例华为手机和卡西欧腕表;有些query到型号,例realmegt人人骁龙778和airpods pro 二代。(3)类别巨大:品牌有上千个,型号有上万个。考虑到数据特质,咱们从数据采样、技能选型和磨练妙技三个层面通过组合拳进步类目瞻望恶果。

咱们基于上风品类降采样和劣势品类重采样的样式弥补数据不平衡问题,举例手机类目采样50%,4类目采样80%,N类目重采样200%。咱们将类目瞻望调换为类目、品牌和型号三个任务,缓解某任务空标签占相比高的情况。咱们使用分类处理类别较少的任务,类别较多的任务用文本匹配作念,也即类目和品牌使用分类、型号使用匹配。

技能选型

关于类目和品牌分类任务,咱们使用roberta[7]产出query文本向量后接全连结层获取类别得分;关于型号匹配任务,咱们使用roberta孪生网罗辩认产出query和型号的文本向量再想象出相通度得分。分类模子使用交叉熵吃亏函数,匹配模子使用对比学习SimCSE[8]吃亏函数, MTL的loss使用三个任务loss的加权和。

咱们欺诈多任务学习进步模子性能、增强泛化才能、提高数据遵守,并促进学问移动和跨任务学习的上风,应用到意图相识给线上带来下单提袋率的进步。

3.2 多任务学习在转转的明天想象

通过东谈主工评估以及线上AB实验白虎 内射,充分说明了多任务学习磨练多个关系任务的有用性,在类目瞻望模块落地后,不错用于意图相识其他模块,例定名实体识别。调回模块的向量调回或es调回皆用到了文本的特征,也不错将多任务学惯用于调回模块。



相关资讯
热点资讯


Powered by 2018最新主播国产在线视频 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024