医疗文本分类

玖月初识

12
获得赞
0
发布的文章
1
答辩的项目

医疗文本分类

Batch大小为32，循环次数为10次，通过在线上环境完成训练，模型最优精度评分为82.50。

医疗文本分类
PyTorch BERT 自然语言处理文本分类

最后更新 2020/05/12 15:53 阅读 13056
0

医疗文本分类

最后更新 2020/05/12 15:53

阅读 13056

PyTorch BERT 自然语言处理文本分类

预处理数据集

def pred_process(title, text, tokenizer, pad_size):
    content = title + text
    content = data_clean(content)
    tokens = tokenizer.tokenize(content)
    tokens = ["[CLS]"] + tokens + ["[SEP]"]

    # 得到input_id, seg_id, att_mask    input_id = tokenizer.convert_tokens_to_ids(tokens)
    types = [0] * (len(input_id))
    masks = [1] * len(input_id)
    # 短则补齐，长则切断    if len(input_id) < pad_size:
        types = types + [1] * (pad_size - len(input_id))  # mask部分 segment置为1        masks = masks + [0] * (pad_size - len(input_id))
        input_id = input_id + [0] * (pad_size - len(input_id))
        # print('ok')    else:
        # print(len(input_id))        types = types[:pad_size]
        masks = masks[:pad_size]
        input_id = input_id[:pad_size]
    return input_id, types, masks

切分训练集和测试集

def split_train_dev_data(self):
    # 随机打乱索引    random_


										
										
						
							
						
						
							
								开通会员,查看完整内容
							
							
								
								
							
							
								
								
							
						
					

															
						本文为作者在FlyAI平台发布的原创内容，未经许可禁止转载。
						
						
本文链接地址：https://flyai.com/n/133466
													赞





			
				
					立即参加 医疗文本分类
				
			

					


				
				

		讨论
		

			
				
				
				
				500字
			
			
				
					
					表情
					

					
				
				
					
				
				发送
			
			
				
					
						
					
				
			
		

		

			

		

		
			
				删除确认
				是否删除该条评论？
				
				取消
				删除




		
				
					

						
						玖月初识
					
					
						
							12
							获得赞
						
						
							0
							发布的文章
						
						
							1
							答辩的项目
						
					
				

				
				
				
                    
				 
				
				
                    
                        
                        论文推荐
                    
					
                    
                                                    
                                An Open and Comprehensive Pipeline for Unified Object Grounding and Detection
                                
                                                                
                                    
                                     
                                    Pytorch 
								
                                                            
                                                    
                                TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection
                                
                                                            
                                                    
                                Imperio: Language-Guided Backdoor Attacks for Arbitrary Model Control
                                
                                                            
                                            
                
				
				
					
						最新竞赛
					
					
													
								
									
									医疗文本分类
									奖金池 ¥3,000
								
							
													
								
									
									5种花分类
									奖金池 ¥800
								
							
													
								
									
									多面体骰子分类
									奖金池 ¥2,000
								
							
											
				
			
	
		
		经验推荐
	
	
					
				遥感图像自然场景识别-黑羽
				来自项目：遥感图像自然场景识别
			
					
				基于PyTorch工程利器解析遥感影像分类任务，小白必看！
				来自项目：遥感影像场景分类预测
			
					
				FasterRCNN在口罩佩戴检测任务中的上分技巧～
				来自项目：口罩佩戴检测
			
			



			
		


		
		
			
				感谢您的关注
				该篇内容公开后我们将会给你推送公开通知

				好的
			
		

		
		
			
				发布成功！
				您的公开申请已发送至后台审核，
 通过后将公开展示本详情页！
				知道了
			
		

		

		
		

		
		
			
				
				向贡献者赞赏
				
					¥62.23
				
				
					微信支付
					支付宝
				
				请先绑定您的微信账号 点击立即绑定
				立即支付
				温馨提示：
支付成功后不支持申请退款，请理性消费； 
支付成功将自动解锁当前页面代码内容，付款前请确认账号信息。
			
		

		
		
			
				
				微信扫码支付
				
			
		

		
		
			
				
				请前往Web网页进行支付
				
				敬请谅解，如有疑问请联系FlyAI客服
				知道了
			
		

		
		
			
				
				举报
				请选择举报理由
				
					$vue{item.value}
				
				确定
			
		

		
		

		
		

		
		
			
				提示
				确定要删除？
				
					取消删除 
				
			
		

		
			
				
					
						 今日签到成功
						获得 $vue{sianData.sign_fai} FAI的GPU算力积分
						知道了


		
	
		
			
				
				
					北京智能工场科技有限公司旗下的FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。
挑战者，都在FlyAI!
				
			
			
				诚邀合作
				
					商务负责人：李先生
					手机 : 18601176010 
					邮箱 : jiayi@cece.com
					联系地址：北京市海淀区盈都大厦B座
				
				
			
			
				FlyAI产品与服务
				
					AI数据服务
					项目实践系统部署 
					赛事合作
					企业数据智能化运营
				
			
		

	
	
		
			
							友情链接：
							星座AI
							AI心理测试
							我爱计算机视觉
							PyTorch 中文网
							飞马网


			
			
				企业邮箱：flyai@flyai.com
				联系我们
				意见反馈
				用户协议
				隐私保护条例
				
			
			
				©️ 2022  北京智能工场科技有限公司      京ICP备18009152号-$vue{number}
		 		京公网安备 11010802025674号
			
		
	
	
		
			意见反馈
			
			
			提交