PSSM矩阵的两种生成方式
一、本地生成方式——PSSM矩阵的生成(ncbi-blast-2.9.0±win64)
本地生成需要自己下载ncbi-blast,还要自己动手安装及环境变量的配置;然后还要自己进行数据库构建,而一般我们需要拿来比对的数据库都比较大,下载很浪费时间。
具体操作方式可以参考以下文章:
https://blog.****.net/xiaobai1_1/article/details/103224665
二、POSSUM服务器服务器在线生成http://possum.erc.monash.edu/
POSSUM服务器是由以下这篇论文提出的:POSSUM: a bioinformatics toolkit for generating numerical sequence feature descriptors based on PSSM profiles
POSSUM服务器由两个主要组件组成:客户端Web界面和服务器后端。用户可以与客户端Web界面进行交互,以输入其蛋白质序列并选择要生成的特定特征描述符。然后,提交的作业将转发到服务器后端。
通过客户端Web界面,用户可以上传FASTA格式的蛋白质序列文件,或直接输入蛋白质序列。接下来,用户需要自定义参数以生成PSSM概要文件,然后选择需要计算的特征描述符。POSSUM通过运行PSI-BLAST生成提交序列的PSSM配置文件。根据输入蛋白质序列的长度,PSSM配置文件生成过程可能在计算上很耗时。POSSUM可以在服务器后端内部的后台中计算相应的功能描述符。用户无需等待作业进度:他们可以通过唯一的链接跟踪提交的作业的进度,也可以在作业完成后通过电子邮件(如果在客户端界面中选择了此选项)收到电子邮件通知。(如果你的序列比较多比较长请一定记得填写好自己的邮箱地址)
基于PSSM的算法基于原始PSSM概要文件的矩阵转换,可以将其分为三种类型:行转换,列转换或行列转换的混合。对于POSSUM,这些描述符分为四组(表1)。第一组包括AAC-PSSM,D-FPSSM,平滑PSSM,AB-PSSM,PSSM组合,RPM-PSSM和S-FPSSM,它们是通过原始PSSM的行转换生成的。第二组包含通过列转换生成的描述符,包括DPC-PSSM,k分隔的Bigrams-PSSM,Trigram-PS-PSSM,EEDP和TPC。第三组包括EDP,RPSSM,Pse-PSSM,DP-PSSM,PSSM-AC和PSSM-CC,它们是通过行和列转换的混合生成的。第四组包括AADP-PSSM,AATP和MEDP,它们仅将前三组中的描述符组合在一起。
如果想更清楚了解这篇论文的,请自行查看:https://academic.oup.com/bioinformatics/article/33/17/2756/3813283
… …
主界面:
可以选择的特征描述符
可以比对的数据库只有如下三种,虽然没有自己本地运行的那样想比对哪种就有哪种,但是这三个数据库已经我们足够使用了。提醒一点,输入的数据不能超过500个序列。
blast迭代的次数和E-value可以根据自己的实际需求进行填写。
邮箱建议都写上,因为生成PSSM很费时,而且你不一定提交上去就开始运行你的,有时候要等好几天的。
(这个服务器本人觉得最大的缺点就是:服务器不稳定,有时候打不开。前段时间它就“罢工了两个多月”)