玖月初识

  • 12

    获得赞
  • 0

    发布的文章
  • 1

    答辩的项目

医疗文本分类

Batch大小为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为82.50。

医疗文本分类
PyTorch BERT 自然语言处理 文本分类
最后更新 2020/05/12 15:53 阅读 12854

医疗文本分类

最后更新 2020/05/12 15:53

阅读 12854

PyTorch BERT 自然语言处理 文本分类

  • 预处理数据集
def pred_process(title, text, tokenizer, pad_size):
    content = title + text
    content = data_clean(content)
    tokens = tokenizer.tokenize(content)
    tokens = ["[CLS]"] + tokens + ["[SEP]"]

    # 得到input_id, seg_id, att_mask    input_id = tokenizer.convert_tokens_to_ids(tokens)
    types = [0] * (len(input_id))
    masks = [1] * len(input_id)
    # 短则补齐,长则切断    if len(input_id) < pad_size:
        types = types + [1] * (pad_size - len(input_id))  # mask部分 segment置为1        masks = masks + [0] * (pad_size - len(input_id))
        input_id = input_id + [0] * (pad_size - len(input_id))
        # print('ok')    else:
        # print(len(input_id))        types = types[:pad_size]
        masks = masks[:pad_size]
        input_id = input_id[:pad_size]
    return input_id, types, masks
  • 切分训练集和测试集 
def split_train_dev_data(self):
    # 随机打乱索引    random_
本文为作者在FlyAI平台发布的原创内容,未经许可禁止转载。
本文链接地址:https://flyai.com/n/133466
立即参加 医疗文本分类
讨论
500字
表情
发送
删除确认
是否删除该条评论?
取消 删除
感谢您的关注
该篇内容公开后我们将会给你推送公开通知
好的
发布成功!
您的公开申请已发送至后台审核,
通过后将公开展示本详情页!
知道了
向贡献者赞赏
¥62.23
微信支付
支付宝

请先绑定您的微信账号 点击立即绑定

立即支付
温馨提示:
支付成功后不支持申请退款,请理性消费;
支付成功将自动解锁当前页面代码内容,付款前请确认账号信息。
微信扫码支付
请前往Web网页进行支付

敬请谅解,如有疑问请联系FlyAI客服

知道了
举报
请选择举报理由
确定
提示
确定要删除?
取消删除

今日签到成功

获得 $vue{sianData.sign_fai} FAI的GPU算力积分

知道了