注册登录后全站资源免费查看下载
您需要 登录 才可以下载或查看,没有账号?立即注册
×
本项目提供通用场景下基于预训练模型微调的层次分类端到端应用方案,打通数据标注-模型训练-模型调优-模型压缩-预测部署全流程,有效缩短开发周期,降低AI开发落地门槛。
层次文本分类任务的中数据样本具有多个标签且标签之间存在特定的层级结构,目标是预测输入句子/文本可能来自于不同级标签类别中的某一个或几个类别。下面是以图新闻文本分类为例,该新闻的一级标签为体育,二级标签为足球,体育与足球之间存在层级关系。在现实场景中,大量的数据如新闻分类、专利分类、学术论文分类等标签集合存在层次化结构,需要利用算法为文本自动标注更细粒度和更准确的标签。

数据集的标签集具有多级标签且标签之间具有层级结构关系,输入句子/文本具有一个或多个标签。在文本层次分类任务中,我们需要预测输入句子/文本可能来自于不同级标签类别中的某一个或几个类别。以上图层次分类中新闻文本为例(新闻为根节点),该新闻一级分类标签为 体育,二级分类标签为 足球。 本项目采用速卖通的商品数据集,通过商品标题可以判别出该商品所属的一级类目和二级类目,并提供可以一键run的详细代码,及部署方案。小白也可以轻松上手NLP层级文本分类。 训练epoch50轮预计在6个小时左右。若想本地部署,请按照requirements中的环境进行配置。 
训练epoch50轮预计在6个小时左右。若想本地部署,请按照requirements中的环境进行配置。 PaddleNLP 商品标题层级多标签分类:
下载地址(回复可见):
|