医疗文本分类
最后更新 2020/05/11 14:09
阅读 18823
文本分类
鸡毛飞上天
4
获得赞0
发布的文章1
答辩的项目Batch大小为32,循环次数为2次,通过在线上环境完成训练,模型最优精度评分为82.11。
最后更新 2020/05/11 14:09
阅读 18823
文本分类
一、赛题分析
1、线下的数据占线上的数据1%左右,通过探索性数据分析,线下的数据不存在重复值,字段一共有3个,包括了label、title、text。其中,text字段存在“无”字段,即不存在数据。通过计算各个类别的样例数,发现类别间存在严重的不平衡问题,有的类别极其稀疏,如健身、动脉导管未闭等等,而有的类别则极其的密集,如妇产科、神经科等等。另外,观察数据发现类别中存在如阳痿、早泄、阳痿早泄三种不同的类别,而这种问题属于类别间存在交集的情况,对于模型提出了巨大的挑战。
二、文本分类思路
1、 数据划分 由于不清楚测试数据的数据分布,无法进行对抗验证训练,保证训练集和测试集数据分布保持一致性,另外,此次竞赛的数据量太大,为了节省训练的时间,采用的策略是,将所有的数据按照类别进行划分,然后对每个类别,随机抽取其中的80%数据加入到训练集中,其余的20%数据加入
请先绑定您的微信账号 点击立即绑定
敬请谅解,如有疑问请联系FlyAI客服