鸡毛飞上天

  • 4

    获得赞
  • 0

    发布的文章
  • 1

    答辩的项目

医疗文本分类 Top5

Batch大小为32,循环次数为2次,通过在线上环境完成训练,模型最优精度评分为82.11。

医疗文本分类
文本分类
最后更新 2020/05/11 14:09 阅读 16292

医疗文本分类

最后更新 2020/05/11 14:09

阅读 16292

文本分类

一、赛题分析

1、线下的数据占线上的数据1%左右,通过探索性数据分析,线下的数据不存在重复值,字段一共有3个,包括了label、title、text。其中,text字段存在“无”字段,即不存在数据。通过计算各个类别的样例数,发现类别间存在严重的不平衡问题,有的类别极其稀疏,如健身、动脉导管未闭等等,而有的类别则极其的密集,如妇产科、神经科等等。另外,观察数据发现类别中存在如阳痿、早泄、阳痿早泄三种不同的类别,而这种问题属于类别间存在交集的情况,对于模型提出了巨大的挑战。

二、文本分类思路

1、 数据划分 由于不清楚测试数据的数据分布,无法进行对抗验证训练,保证训练集和测试集数据分布保持一致性,另外,此次竞赛的数据量太大,为了节省训练的时间,采用的策略是,将所有的数据按照类别进行划分,然后对每个类别,随机抽取其中的80%数据加入到训练集中,其余的20%数据加入

本文为作者在FlyAI平台发布的原创内容,采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,转载请附上原文出处链接和本声明。
本文链接地址:https://flyai.com/n/132432
立即参加 医疗文本分类
讨论
500字
表情
发送
删除确认
是否删除该条评论?
取消 删除
感谢您的关注
该篇内容公开后我们将会给你推送公开通知
好的
发布成功!
您的公开申请已发送至后台审核,
通过后将公开展示本详情页!
知道了
向贡献者赞赏
¥61.08
微信支付
支付宝

请先绑定您的微信账号 点击立即绑定

立即支付
温馨提示:
支付成功后不支持申请退款,请理性消费;
支付成功将自动解锁当前页面代码内容,付款前请确认账号信息。
微信扫码支付
请前往Web网页进行支付

敬请谅解,如有疑问请联系FlyAI客服

知道了
举报
请选择举报理由
确定
提示
确定要删除?
取消删除

今日签到成功

获得 $vue{sianData.sign_fai} FAI的GPU算力积分

知道了