医疗文本分类
最后更新 2020/05/12 15:53
阅读 12747
PyTorch BERT 自然语言处理 文本分类
玖月初识
12
获得赞0
发布的文章1
答辩的项目Batch大小为32,循环次数为10次,通过在线上环境完成训练,模型最优精度评分为82.50。
最后更新 2020/05/12 15:53
阅读 12747
PyTorch BERT 自然语言处理 文本分类
def pred_process(title, text, tokenizer, pad_size):
content = title + text
content = data_clean(content)
tokens = tokenizer.tokenize(content)
tokens = ["[CLS]"] + tokens + ["[SEP]"]
# 得到input_id, seg_id, att_mask input_id = tokenizer.convert_tokens_to_ids(tokens)
types = [0] * (len(input_id))
masks = [1] * len(input_id)
# 短则补齐,长则切断 if len(input_id) < pad_size:
types = types + [1] * (pad_size - len(input_id)) # mask部分 segment置为1 masks = masks + [0] * (pad_size - len(input_id))
input_id = input_id + [0] * (pad_size - len(input_id))
# print('ok') else:
# print(len(input_id)) types = types[:pad_size]
masks = masks[:pad_size]
input_id = input_id[:pad_size]
return input_id, types, masks
def split_train_dev_data(self):
# 随机打乱索引 random_
请先绑定您的微信账号 点击立即绑定
敬请谅解,如有疑问请联系FlyAI客服