药物不良反应数据库信息的下载

阅读量：

需求：请告知如何从不良反应数据库中提取所有药品的相关不良反应信息

点击详细信息之后

分析页面请求，发现是ajax请求，

第一步，请您先通过获取药品详细信息页面的 url 地址（即此步骤中所指之药品唯一标识符），以便后续操作的基础。
第二步，请您通过获取该药品的唯一标识符完成信息下载过程。
第三步，请您对网页内容进行解析工作，并提取该网页中的药物适应症及其可能存在的不良反应情况。
然后将提取的信息保存至指定路径中。

代码

复制代码

 # -*- coding: utf-8 -*-

    
  
    
 """
    
 @Datetime: 2019/1/11
    
 @Author: Zhang Yafei
    
 """
    
 import json
    
 import numpy
    
 import os
    
  
    
 from gevent import monkey
    
 monkey.patch_all()
    
 import gevent
    
 from urllib.parse import urljoin
    
 import pandas as pd
    
 import requests
    
 from concurrent.futures import ThreadPoolExecutor
    
 from lxml.etree import HTML
    
  
    
  
    
 url_list = []
    
 drug_list = []
    
  
    
  
    
 def task(page):
    
     origin_url = 'http://pharm.ncmi.cn/dataContent/dataSearch.do?did=6'
    
     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    
     data = {
    
     'method': 'list',
    
     'ec_i': 'ec',
    
     'ec_crd': 200,
    
     'ec_p': page+1,
    
     'ec_rd': 200,
    
     'ec_pd': page,
    
     }
    
     response = requests.post(origin_url, headers=headers, data=data)
    
     return response
    
  
    
  
    
 def done(future,*args,**kwargs):
    
     response = future.result()
    
     response = HTML(response.text)
    
     hrefs = response.xpath('//table[@id="ec_table"]//tr/td[4]/a/@href')[1:]
    
     for href in hrefs:
    
     detail_url = urljoin('http://pharm.ncmi.cn', 'dataContent/' + href)
    
     url_list.append(detail_url)
    
  
    
  
    
 def main():
    
     origin_url = 'http://pharm.ncmi.cn/dataContent/dataSearch.do?did=6'
    
     headers = {
    
     'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    
     data = {
    
     'method': 'list',
    
     'ec_i': 'ec',
    
     'ec_crd': 200,
    
     'ec_p': 1,
    
     'ec_rd': 200,
    
     'ec_pd': 0,
    
     }
    
     response = requests.post(origin_url, headers=headers, data=data)
    
     response = HTML(response.text)
    
     hrefs = response.xpath('//table[@id="ec_table"]//tr/td[4]/a/@href')[1:]
    
     url_list = []
    
     for href in hrefs:
    
     # http://pharm.ncmi.cn/dataContent/dataSearch.do?method=viewpage&id=145511&did=6
    
     # http: // pharm.ncmi.cn / dataSearch.do?method = viewpage & id = 144789 & did = 6
    
     detail_url = urljoin('http://pharm.ncmi.cn','dataContent/'+href)
    
     url_list.append(detail_url)
    
     list(map(parse, url_list))
    
  
    
  
    
 def parse(file):
    
     with open(file=file, encoding='utf-8') as f:
    
     response = f.read()
    
     response = HTML(text=response)
    
     drug_name = response.xpath('//form/table[1]//table/tr[3]/td[2]/text()')[0].strip()
    
     adverse_reaction = response.xpath('//form/table[1]//table/tr[9]/td[2]/text()')[0].strip()
    
     indiction = response.xpath('//form/table[1]//table/tr[last()-1]/td[2]/text()')[0].strip()
    
     if not indiction:
    
     indiction = numpy.NAN
    
     drug_dict = {
    
     '药品通用名称': drug_name,
    
     '不良反应':adverse_reaction,
    
     '适应症': indiction,
    
     }
    
     drug_list.append(drug_dict)
    
     print(file+'提取成功')
    
  
    
  
    
 def task1(i, url):
    
     response = requests.get(url)
    
     filename = 'html/{}.html'.format(i)
    
     if not os.path.exists(filename):
    
     with open(filename,'w',encoding='utf-8') as f:
    
         f.write(response.text)
    
  
    
  
    
 if __name__ == '__main__':
    
     # 1.获取所有url
    
     # pool = ThreadPoolExecutor()
    
     # for page in range(37):
    
     #     v = pool.submit(task, page)
    
     #     v.add_done_callback(done)
    
     #
    
     # pool.shutdown(wait=True)
    
     # 2.将url写入文件
    
     # with open('url.py','w') as f:
    
     #     json.dump(url_list, f)
    
  
    
     # 3.读取url并下载页面
    
     # with open('url.py') as f:
    
     #     url_list = json.load(f)
    
     # pool = ThreadPoolExecutor()
    
     # for i, url in enumerate(url_list):
    
     #     v = pool.submit(task1, i, url)
    
     #
    
     # pool.shutdown(wait=True)
    
  
    
     # 4.读取页面提取有用信息,并写入文件
    
     for base_path, folders, files in os.walk('html'):
    
     file_list = list(map(lambda x:os.path.join(base_path, x), files))
    
     # list(map(parse, file_list))
    
     pool = ThreadPoolExecutor()
    
     for file in file_list:
    
     v = pool.submit(parse, file)
    
  
    
     pool.shutdown(wait=True)
    
  
    
     df = pd.DataFrame(data=drug_list)
    
     df = df.loc[:, ['药品通用名称','适应症','不良反应']]
    
     writer = pd.ExcelWriter('adverse_reaction_database.xlsx')
    
     df.to_excel(writer, 'adverse_reaction', index=False)
    
     writer.save()

转载于:https://www.cnblogs.com/zhangyafei/p/10266642.html

全部评论 (0)

还没有任何评论哟~

药物不良反应数据库信息的下载

需求：如图，我想把不良反应数据库中的每个药品的不良反应相关信息给获取到点击详细信息之后分析页面请求，发现是ajax请求，第一步，我们需要获取详细页面的url，也就是药品ID 第二步，拿到详细页面...

药物基因组学降低68%不良反应风险

基于您我搜索到的资料，以下是对“药物基因组学基于CPIC指南降低68%药物不良反应风险”的全面解析，涵盖定义、指南框架、临床证据及技术实现：一、药物基因组学的定义与核心目标药物基因组学（Pharm...

干货 | 肿瘤患者数据管理及化疗药物不良反应分析

以下内容整理自大数据能力提升项目必修课《大数据系统基础》同学们的期末答辩汇报。我们的报告分为以下五个部分。首先，第一部分是项目背景及需求分析。我们的项目背景是数字医疗场景。数字医疗是一个信息技术与...

生物信息学之抗癌药物反应论文阅读七：MOLI

论文地址：MOLI:MultiOmicsLateIntegrationwithdeepneuralnetworksfordrugresponseprediction 小Tip:这是总结生物信息学相关论...

生物信息学之抗癌药物反应论文阅读二：HNMDRP

论文地址：Anovelheterogeneousnetworkbasedmethodfordrugresponsepredictionincancercelllines HNMDRP：一种新颖的基于异...

生物信息学之抗癌药物反应论文阅读四：MD-WDNN

论文地址：Deeplearningpredictstuberculosisdrugresistancestatusfromgenomesequencingdata 基于深度学习和基因组测序数据的结核病...

生物信息学之抗癌药物反应论文阅读五：L1000+DTI

论文地址：Drug–targetinteractionpredictionwithadeeplearningbasedmodel 基于深度学习的药物靶标相互作用预测作者信息： LingweiXie1...

生物信息学之抗癌药物反应论文阅读三：ML+PDX

论文地址：Machinelearningmodelstopredictinvivodrugresponseviaoptimaldimensionalityreductionoftumourmolecu...

生物信息数据库

生物信息与药物数据库前言生物信息学与药物治疗一、蛋白质相关数据库 1.STRING数据库 2.Uniprot数据库 3.DIP数据库 4.HPRD数据库二、基因相关数据库 1.COXPRESd...

生物信息-学习从NCBI上下载数据

一、下载基因序列的数据第一步：打开NCBI官网https://www.ncbi.nlm.nih.gov/ 第二步：输入GSE10846（基因序列的编号）进行查询点击进入在该页面上滚动下滑至最底部...

是否确定退出登录?

药物不良反应数据库信息的下载

全部评论 (0)

相关文章推荐

药物不良反应数据库信息的下载

药物基因组学降低68%不良反应风险

干货 | 肿瘤患者数据管理及化疗药物不良反应分析

生物信息学之抗癌药物反应论文阅读七：MOLI

生物信息学之抗癌药物反应论文阅读二：HNMDRP

生物信息学之抗癌药物反应论文阅读四：MD-WDNN

生物信息学之抗癌药物反应论文阅读五：L1000+DTI

生物信息学之抗癌药物反应论文阅读三：ML+PDX

生物信息数据库

生物信息-学习从NCBI上下载数据