项目简介: | 随着高通量生物技术的迅猛发展,生命组学呈爆炸式增长,促使生命科学由叙述科学转向定量预测科学。而生物大数据时代的到来和以人工智能为代表的信息技术的快速发展,为基于大数据的生物预测创造了前所未有的条件。本项目研究生物信息学中的若干预测问题,涉及基因组、转录组和蛋白质组以及相互作用组,具体问题包括:面向基因组的启动子、增强子、顺式调控元件与模块以及核小体等的预测;面向转录组的miRNA前体预测、miRNA分类、miRNA靶基因预测;面向蛋白质组的蛋白质结构与功能的预测;面向相互作用组的蛋白质相互作用、蛋白质- RNA相互作用、药物靶标、蛋白质复合物等的预测。研究开发了一系列高效的预测方法/算法,提升了现有方法/算法的预测性能/效率,在国内外学术界产生了重要的影响。代表性创新成果如下: 1)提出了一种基于自协方差变换(Auto-Covariance,AC)的蛋白质折叠预测方法(ACCFold,代表作1),ACCFold通过将序列谱进行自协方差变换和交叉协方差(Cross-Covariance,CC)变换,可将不同长度的蛋白质序列表示成固定长度的组合ACC特征向量。在此基础上,采用模式分类进行折叠预测,准确率高于已有同类方法。 2)提出了一种新的miRNA前体预测方法miRenSVM(代表作2),借助提取并选择合适的特征,该方法能够识别二级结构包含多茎-环的miRNA前体。进一步运用组合分类方法,有效的解决了miRNA前体预测研究中一直存在的样本不均衡问题,准确率达到92.84%;开发了一种基于有监督学习的方法miRFam用于自动划分miRNA家族(代表作3),效率和准确率更高,可以满足实际应用中快速、准确的要求。 3)提出了一种基于结构邻居特征的能量热点集成预测方法(代表作4),取得了当前最好预测性能;提出了一种有效的相互作用位点预测集成学习方法(代表作5),能有效应用于发现蛋白质互作界面上的能量热点。 4)将已广泛应用的MHC II类亲和肽预测方法TEPITOPE基于Pocket相似度发展为可预测700多个HLA-DR类亲和肽的新方法TEPITOPEpan(代表作6),与代表当前最高水平的NetMHCIIpan相比,表现出更加优越的性能; 5)提出了一种有效的方法来筛选高可靠的负样本,从而显著提高了预测的性能(代表作7)。在人类和线虫两个物种上采用六种分类模型进行测试,基于所提出的方法选出的负样本的预测结果优于随机选择的负样本;我们的负样本筛选系统为研究人员提供了发现新药和新靶标的有用资源,也可为现有的复合物-蛋白质数据库做了补充。这个方法有很强的普适性,可以推广到生物信息学中很多其它预测问题。 6)提出了一种基于模式的最近邻搜索算法预测启动子(代表作8)。首先从新的结构角度,系统分析了这两类启动子的异同点,发现含CpG 岛相关和CpG 岛不相关启动子的结构特征值差异很大,但是具有非常相似的结构模式,并且这种模式和非启动子序列的模式不同。基于这一发现,提出一个能预测CpG 岛相关和CpG 岛不相关启动子的统一的方法,即基于模式最近邻搜索的启动子预测算法(简称为PNNP)。实验表明PNNP能有效发现启动子的结构特征模式,提高了整个基因组上的启动子预测准确率。
8篇代表作共计他引252次。引用期刊包括生物信息学领域著名学术Nature Protocols, Nature Communications, Genome Research, Nucleic Acids Research, Bioinformatics, PLOS Computational Biology, Current Opinion in Structural Biology等。 |
代表性论文专著目录: | Qiwen Dong, Shuigeng Zhou*, and Jihong Guan. A new taxonomy-based protein fold recognition approach based on auto-cross covariance transformation. Bioinformatics, 25(20):2655-2662, 2009. Lei Deng, Jihong Guan*, Qiwen Dong, and Shuigeng Zhou*, Prediction of protein-protein interaction sites using an ensemble method. BMC Bioinformatics, 10:426, Dec. 2009. Yanglan Gan, Jihong Guan*, and Shuigeng Zhou*. A pattern-based nearest neighbor search approach for promoter prediction using DNA structural profiles. Bioinformatics, 25 (16): 2006-2012, 2009. Jiandong Ding, Shuiggeng Zhou* and Jihong Guan*. MiRenSVM: towards better prediction of microRNA precursors using an ensemble SVM classifier with multi-loop features. BMC Bioinformatics, 11: S11, 2010. Jiandong Ding, Shuigeng Zhou* and Jihong Guan*. miRFam: an effective automatic miRNA classification method based on n-grams and a multiclass SVM. BMC Bioinformatics, 12:216, 2011. Lianming Zhang, Yiqing Chen, Hau-San Wong, Shuigeng Zhou, Hiroshi Mamitsuka and Shanfeng Zhu*. TEPITOPEpan: Extending TEPITOPE for peptide binding prediction covering over 700 HLA-DR molecules.PLOS One, 7(2), 2012. Lei Deng, Qiangfeng Cliff Zhang, Zhigang Chen, Yang Meng, Jihong Guan* and Shuigeng Zhou*. PredHS: a web server for predicting protein–protein interaction hot spots by using structural neighborhood properties. Nucleic Acids Research, 42(Webserver-Issue): 290-295, 2014. Hui Liu, Jianjiang Sun, Jihong Guan, Jie Zheng and Shuigeng Zhou*. Improving compound-protein interaction prediction by building up highly credible negative samples. Bioinformatics, 31(12): 221-229, 2015.
|