医疗文本分类 Top5

鸡毛飞上天

4
获得赞
0
发布的文章
1
答辩的项目

医疗文本分类 Top5

Batch大小为32，循环次数为2次，通过在线上环境完成训练，模型最优精度评分为82.11。

医疗文本分类
文本分类

最后更新 2020/05/11 14:09 阅读 19127
0

医疗文本分类

最后更新 2020/05/11 14:09

阅读 19127

文本分类

一、赛题分析

1、线下的数据占线上的数据1%左右，通过探索性数据分析，线下的数据不存在重复值，字段一共有3个，包括了label、title、text。其中，text字段存在“无”字段，即不存在数据。通过计算各个类别的样例数，发现类别间存在严重的不平衡问题，有的类别极其稀疏，如健身、动脉导管未闭等等，而有的类别则极其的密集，如妇产科、神经科等等。另外，观察数据发现类别中存在如阳痿、早泄、阳痿早泄三种不同的类别，而这种问题属于类别间存在交集的情况，对于模型提出了巨大的挑战。

二、文本分类思路

1、数据划分由于不清楚测试数据的数据分布，无法进行对抗验证训练，保证训练集和测试集数据分布保持一致性，另外，此次竞赛的数据量太大，为了节省训练的时间，采用的策略是，将所有的数据按照类别进行划分，然后对每个类别，随机抽取其中的80%数据加入到训练集中，其余的20%数据加入

开通会员,查看完整内容

本文为作者在FlyAI平台发布的原创内容，未经许可禁止转载。
本文链接地址：https://flyai.com/n/132432

立即参加医疗文本分类

讨论

500字

表情

发送

删除确认

是否删除该条评论？

取消删除