当前位置:网站首页>根据Uniprot ID/PDB ID批处理获取蛋白质.pdb文件
根据Uniprot ID/PDB ID批处理获取蛋白质.pdb文件
2022-08-01 19:52:00 【李划水员】
1.根据Uniprot ID批处理获取蛋白质.pdb文件
由于Uniprot的ID号可能对应多个NCBI的ID,但是根据Alphafold可以获取其唯一的PDB文件,所以用代码批处理获得.pdb文件如下:
import pandas as pd
import numpy as np
from Bio import SeqIO
from Bio import PDB
import requests
# 但是可能会出现 InsecureRequestWarning 警告,
# 虽然不影响代码采集但是看着不舒服,可以加上下面两行:
import urllib3
urllib3.disable_warnings()
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:95.0) Gecko/20100101 Firefox/95.0'}
def read_file(file_name):
pro_swissProt = []
with open(file_name, 'r') as fp:
for line in fp:
if line.startswith('>'):#作用:判断字符串是否以指定字符或子字符串开头
pro_swissProt.append(line[1:-1])
return pro_swissProt
file1 = '/AD/all1.csv'
ID=read_file(file1)
j = 0
not_exist_list = []
for i in ID:
j = j + 1
print(j)
print(i)
url = 'https://alphafold.ebi.ac.uk/files/AF-'+i+'-F1-model_v1'+'.pdb'
print(url)
r = requests.get(url, headers=headers, verify=False)
with open('/AD/Information/PDB/'+i+'.pdb','w') as files:
r = r.text.splitlines() #np.array(pssm).tolist()
for lines in r:
files.write(lines)
files.write('\n')
if r[0][1]=='?':
print(i + '没有pdb文件。')
not_exist_list.append(i)
#输出了未找到的蛋白质的.pdb文件,这些可以在网址里再手动查一下,有遗漏的
print(not_exist_list)
print(len(not_exist_list))
其中,file1格式如下:
>Q8BH75
MGYDVTRFQGDVDEDLICPICSGVLEEPVQAPHCEHAFCNACITQWFSQQQTCPVDRSVVTVAHLRPVPRIMRNMLSKLQIACDNAVFGCSAVVRLDNLMSHLSDCEHNPKRPVTCEQGCGLEMPKDELPNHNCIKHLRSVVQQQQSRIAELEKTSAEHKHQLAEQKRDIQLLKAYMRAIRSVNPNLQNLEETIEYNEILEWVNSLQPARVTRWGGMISTPDAVLQAVIKRSLVESGCPASIVNELIENAHERSWPQGLATLETRQMNRRYYENYVAKRIPGKQAVVVMACENQHMGDDMVQEPGLVMIFAHGVEEI
>P06727
MFLKAVVLTLALVAVAGARAEVSADQVATVMWDYFSQLSNNAKEAVEHLQKSELTQQLNALFQDKLGEVNTYAGDLQKKLVPFATELHERLAKDSEKLKEEIGKELEELRARLLPHANEVSQKIGDNLRELQQRLEPYADQLRTQVSTQAEQLRRQLTPYAQRMERVLRENADSLQASLRPHADELKAKIDQNVEELKGRLTPYADEFKVKIDQTVEELRRSLAPYAQDTQEKLNHQLEGLTFQMKKNAEELKARISASAEELRQRLAPLAEDVRGNLRGNTEGLQKSLAELGGHLDQQVEEFRRRVEPYGENFNKALVQQMEQLRQKLGPHAGDVEGHLSFLEKDLRDKVNSFFSTFKEKESQDKTLSLPELEQQQEQQQEQQQEQVQMLAPLES
>Q60770
MAPPVSERGLKSVVWRKIKTAVFDDCRKEGEWKIMLLDEFTTKLLSSCCKMTDLLEEGITVIENIYKNREPVRQMKALYFISPTPKSVDCFLRDFGSKSEKKYKAAYIYFTDFCPDSLFNKIKASCSKSIRRCKEINISFIPQESQVYTLDVPDAFYYCYSPDPSNASRKEVVMEAMAEQIVTVCATLDENPGVRYKSKPLDNASKLAQLVEKKLEDYYKIDEKGLIKGKTQSQLLIIDRGFDPVSTVLHELTFQAMAYDLLPIENDTYKYKTDGKEKEAVLEEDDDLWVRVRHRHIAVVLEEIPKLMKEISSTKKATEGKTSLSALTQLMKKMPHFRKQISKQVVHLNLAEDCMNKFKLNIEKLCKTEQDLALGTDAEGQRVKDSMLVLLPVLLNKNHDNCDKIRAVLLYIFGINGTTEENLDRLIHNVKIEDDSDMIRNWSHLGVPIVPPSQQAKPLRKDRSAEETFQLSRWTPFIKDIMEDAIDNRLDSKEWPYCSRCPAVWNGSGAVSARQKPRTNYLELDRKNGSRLIIFVIGGITYSEMRCAYEVSQAHKSCEVIIGSTHILTPRKLLDDIKMLNKSKDKVSFKDE
>P70452
MRDRTHELRQGDNISDDEDEVRVALVVHSGAARLGSPDDEFFQKVQTIRQTMAKLESKVRELEKQQVTILATPLPEESMKQGLQNLREEIKQLGREVRAQLKAIEPQKEEADENYNSVNTRMKKTQHGVLSQQFVELINKCNSMQSEYREKNVERIRRQLKITNAGMVSDEELEQMLDSGQSEVFVSNILKDTQVTRQALNEISARHSEIQQLERSIRELHEIFTFLATEVEMQGEMINRIEKNILSSADYVERGQEHVKIALENQKKARKKKVMIAICVSVTVLILAVIIGITITVG
>P63044
MSATAATVPPAAPAGEGGPPAPPPNLTSNRRLQQTQAQVDEVVDIMRVNVDKVLERDQKLSELDDRADALQAGASQFETSAAKLKRKYWWKNLKMMIILGVICAIILIIIIVYFST
2.根据PDB ID在RCSB中获取pdb文件
将第一段代码的网址换成:
url = 'http://www.rcsb.org/pdb/files/'+i+'.pdb'
PS:最近在学习dssp的处理,但是一直没有进展,又没有小伙伴有Linux的安装包和教程
***********************
满满的干货说我文章质量太低了………………,让我提交下,看看字数够了没
边栏推荐
- 分享一个适用于MCU项目的代码框架
- openresty 动态黑白名单
- 第60章 ApplicationPart自动集成整体性和独立性插件项
- MySQL开发技巧——并发控制
- Find the sum of two numbers
- 专利检索常用的网站有哪些?
- 58: Chapter 5: Develop admin management services: 11: Develop [admin face login, interface]; (not measured) (using Ali AI face recognition) (demonstrated, using RestTemplate to implement interface cal
- XSS靶场中级绕过
- deploy zabbix
- ssh & scp
猜你喜欢
随机推荐
58:第五章:开发admin管理服务:11:开发【管理员人脸登录,接口】;(未实测)(使用了阿里AI人脸识别)(演示了,使用RestTemplate实现接口调用接口;)
有序双向链表的实现。
从普通进阶成优秀的测试/开发程序员,一路过关斩将
【kali-信息收集】(1.4)识别活跃的主机/查看打开的端口:Nmap(网络映射器工具)
openresty 动态黑白名单
18、分布式配置中心nacos
研究生新同学,牛人看英文文献的经验,值得你收藏
SENSORO成长伙伴计划 x 怀柔黑马科技加速实验室丨以品牌力打造To B企业影响力
deploy zabbix
不要再使用MySQL online DDL了
【蓝桥杯选拔赛真题47】Scratch潜艇游戏 少儿编程scratch蓝桥杯选拔赛真题讲解
Redis启动时提示Creating Server TCP listening socket *:6379: bind: No error
Compse编排微服务实战
Pytorch模型训练实用教程学习笔记:一、数据加载和transforms方法总结
数据可视化
漏刻有时文档系统之XE培训系统二次开发配置手册
力扣刷题之合并两个有序数组
面试突击70:什么是粘包和半包?怎么解决?
What should I do if the Win11 campus network cannot be connected?Win11 can't connect to campus network solution
【kali-信息收集】(1.5)系统指纹识别:Nmap、p0f