手写英文字体识别(名企内推)
最后更新 2020/10/27 16:03
阅读 19010
CNN
快来追我呀
7
获得赞0
发布的文章3
答辩的项目Batch大小为64,循环次数为30次,通过在线上环境完成训练,模型最优精度评分为84.25。
最后更新 2020/10/27 16:03
阅读 19010
CNN
该数据集包含通过慈善项目收集的超过40万个手写英文姓名。由于个人手写风格的差异化,对于机器识别手写字符来说仍然构成困难的挑战,所以要求参赛者通过建立预测模型实现精准的手写字体识别。
针对这个任务我们首先想到的是CRNN模型,CRNN模型由CNN+RNN+CTCLoss组成,专门用于图片不定长文字识别。
我们可以在github上找到相关的开源代码,针对开源代码的输入输出部分进行修改,仿照我们任务数据的格式,重新改写dataset数据集的生成和迭代,从而可以快速的搭建好模型,接下来的工作便是对参数进行相应的调整。
在整个训练阶段,发现对于label的处理可以提高分数,比如剔除掉部分数据,label长度大于26的数据,这些数据只占整体数据的百分之一都不到,但却导致所有label都要规整到统一长度,所以剔除掉这部分是数据是有用的。
其他方面就是参数batchsize,lr等参数的调整,这些参数只能通过不断的提交来发现其中的规律,个人发现本次比赛中,使用较小的batchsize可以达到更好的效果。
之后就是个人感悟部分,比赛要趁早,才有足够的时间去调整优化代码,每天打卡还可以再多训练一次。
CNN
请先绑定您的微信账号 点击立即绑定
敬请谅解,如有疑问请联系FlyAI客服