python爬取pubmed的文献_爬虫获取pubmed中文献的标题和摘要

阅读量：

为了解决在PubMed等数据库中快速浏览相关文献标题及摘要的问题，我开发了一个相对简单的爬虫程序（目前仅支持单一关键词及多个关键词通过AND检索）。该程序旨在为研究人员提供便捷的方式以批量提取研究人员感兴趣的文献标题及摘要信息。

采用Python编程语言进行开发的编辑器系统中，默认集成有requests模块作为基础功能。该系统通过requests.get()方法执行网络请求，并利用re模块中的正则表达式处理文本数据。具体而言，在代码实现中模拟了浏览器的行为。尽管如此，在实际应用中仅选择了2个不同的浏览器实例进行处理。

import requests

import re

key=input("请输入你想查找的信息：")

local_url=input("请输入你想存储的位置及名称：")

turl="https://pubmed.ncbi.nlm.nih.gov/"

tdata=requests.get(turl,params={"term":key}).text

pat_allpage='(.*?)'

allpage=re.compile(pat_allpage,re.S).findall(tdata)

num = input('请通过输入框提供文章数量（共计：'+str(int(allpage[0].replace('\n ', '').replace(',',''))*10)+')'）

for j in range(0,int(num)//10+1):

url="https://pubmed.ncbi.nlm.nih.gov/"+"?term="+key+"&page="+str(j+1)

data=requests.get(url,params={"term":key}).text

pat1_content_url='

.*?<.>'

content_url=re.compile(pat1_content_url,re.S).findall(data)

Python字典变量hd被赋值为一个包含两个字符串键值对的对象；其中该字段由两个相同的字符串组成；第一个字符串由以下部分组成： Mozilla / [详细描述]；第二个字符串则由以下部分构成： Mozilla / [详细描述]

for i in range(0,len(content_url)):

curl="https://pubmed.ncbi.nlm.nih.gov/"+content_url[i]

try:

cdata=requests.get(curl,headers=hd).text

pat2_title="

(.*?)"

pat3_content='

(.*?)

pat4_date='(.*?)'

title=re.compile(pat2_title,re.S).findall(cdata)

print("正则爬取的题目是："+title[0])

content=re.compile(pat3_content,re.S).findall(cdata)

date=re.compile(pat4_date,re.S).findall(cdata)

fh=open(local_url+".html","a",encoding="utf-8")

fh.write(str(title[0])+' ----'+str(date[0])+"
"+str(content[0])+"
")

fh.close

except Exception as err:

pass

if int(num) < 10:

if i+1 == int(num):

break

elif int(num) == 10:

if i == 9:

break

elif (j*10)+i+1 == int(num):

break

将上述代码保存为.py格式，进入终端运行代码：

python 文件名.py

设置输入关键词为(target; mutation)，并将保存路径及文件名称设置在G盘爬虫学习目录下为drug_mutation，并希望从中获取相关文章数量为7篇

#多个关键词需要使用分号分隔，在输入中需要将分号改为‘%3bmutation’

得到.html格式的文件：标题----时间摘要

遇着的问题：

当运行程序时可能出现错误；再次尝试则问题会解决。(可能源于网络延迟, 访问次数过多导致拒绝, 稍后再试一次)

2.速度有点慢；(可能是网慢，导致请求返回的比较慢)

未来进行改进的地方：

点击标题即可下载该篇文章；2. 为了确保输入不是整数，则可避免使用if语句；3. 支持根据时间筛选文章内容；4. 除了支持逻辑运算and之外，则能够执行or和not操作。

刚开始研究爬虫，有什么建议，欢迎提出来！有不懂的，一起探讨！

原文链接:

全部评论 (0)

还没有任何评论哟~

python爬取pubmed的文献_爬虫获取pubmed中文献的标题和摘要

为了满足快速浏览pubmed中相关文献标题和摘要的需求，写了个简单的爬虫目前只实现了单个关键词以及多个关键词的and检索，用于批量获取感兴趣文献的标题和摘要。使用编辑器是python，所编写的爬虫主...

python爬取pubmed的文献_爬虫获取pubmed中文献的标题和摘要

爬虫获取pubmed中文献的标题和摘要

为了满足快速浏览pubmed中相关文献标题和摘要的需求，写了个简单的爬虫（目前只实现了单个关键词以及多个关键词的and检索），用于批量获取感兴趣文献的标题和摘要。使用编辑器是python，所编写的爬...

BeautifulSoup4的详解+PubMed医学文献爬取

点击名片关注阿尘blog，一起学习，一起成长本文主要介绍了BeautifulSoup4的使用和实践：PubMed医学文献标题、摘要、pmid的爬取 01 — BeautifulSoup4 安装及初步...

python爬取pubmed的文献_使用python來調用pubmed API快速整理文獻

在pubmed上用關鍵字取得的文獻後，想要把這些文獻直接收集起來，可以使用pubmed所提供的API，可以很簡單快速的達到自己想要的資料收集方式，這邊使用python來實作：載入需要用到的包 imp...

python爬取pubmed的文献_利用selenium爬取pubmed，获得搜索的关键字最近五年发表文章数量...

PubMed是一个提供生物医学方面的论文搜寻以及摘要，并且免费搜寻的数据库。是一个做生物方面经常要用到的一个查找文献的网站。最近刚学了爬虫相关的知识包括urllib库，requests库，xpath表...

基于BeautifulSoup实现pubmed文献摘要的爬虫与无格式输出

一、实现背景为了满足项目数据集的构造，我们需要针对各领域医学文献的摘要进行爬取工作，因此编写了pubmed的文献摘要爬虫代码。代码基于python语言，可使用pycharm直接，同时基于Beauti...

Python：利用Entrez库筛选下载PubMed文献摘要

此处有几种选择可以达到目的：（1）官网上匹配筛选条件（注：匹配快速，但是下载下来的数量受到限制，每次只能下载10000条数据，甚至更少。）可以看到，我需要的数据是有三十多万条，但是每次只能下载10...

Python爬虫实战 | (7) 爬取万方数据库文献摘要

在本篇博客中，我们将爬取万方数据库，首先我们打开万方首页<http://www.wanfangdata.com.cn：在搜索框中输入关键词，选择期刊、学位或会议，点击搜论文，并可得到与关键词相关的期...

爬虫——Python爬英文文献ScienceDirect论文的标题、摘要，并保存在本地

相对于上一篇爬百度学术的，这篇爬的是ScienceDirect，英文版的，这里面提供的内容更全，有标题，完整摘要，作者，论文相关信息等注意需要科学上网才能爬取 importtime importre...

是否确定退出登录?

python爬取pubmed的文献_爬虫获取pubmed中文献的标题和摘要

全部评论 (0)

相关文章推荐

python爬取pubmed的文献_爬虫获取pubmed中文献的标题和摘要

python爬取pubmed的文献_爬虫获取pubmed中文献的标题和摘要

爬虫获取pubmed中文献的标题和摘要

BeautifulSoup4的详解+PubMed医学文献爬取

python爬取pubmed的文献_使用python來調用pubmed API快速整理文獻

python爬取pubmed的文献_利用selenium爬取pubmed，获得搜索的关键字最近五年发表文章数量...

基于BeautifulSoup实现pubmed文献摘要的爬虫与无格式输出

Python：利用Entrez库筛选下载PubMed文献摘要

Python爬虫实战 | (7) 爬取万方数据库文献摘要

爬虫——Python爬英文文献ScienceDirect论文的标题、摘要，并保存在本地