从蛋白质序列到结构
我们从蛋白质氨基酸序列出发预测结构码,通过约化氨基酸类,扩充结构码隐态改变转移概率,最终实现结构码预测30%左右的精度.我们由无缝穿引法对某一序列生成伪结构,分别构造利用结构码和配位数的简单的单体项形式去评估它们.基于氨基酸和结构码的联合概率p((a)i,ci)的局域项能够有效的识别出绝大多数蛋白的天然结构.我们利用配位数构造的混合模型,尽管识别天然结构的能力有限,但是得到的不同环境态下,氨基酸和结构码表现出有意义的倾向性.配位数是带有三维结构空间限制的一维化的表示,利用这种表示我们在MJ的框架下,基于概率模型导出了和MJ的(e)a可比的单体能ua.通过最大化残基和配位数的互信息,我们得到了粗粒化的两态结果.两态的二体修正有明显的差异.我们在数据库里寻找对结构稳定性起关键作用的保守的邻对.我们只关心不同的规则二级结构之间的相互作用,在不同的家族之间,我们找到了一些保守的我们称为工字型的邻对.这些典型的工字型在结构上和序列上都很保守,所以我们把它们称为拼装基元,这些拼装基元携带着很强的序列信号.邻对是一个广泛的概率,包括局域邻对和序列上远程的邻对.即使是远程的邻对,仅其中一部分对结构起主导作用,序列信号要比其它的强.我们只有找到这些结构上序列上都保守邻对,才能真正对结构起到限制作用,并可能对势函数有实际意义的贡献.
- 作者:
- 曾辉
- 学位授予单位:
- 中国科学院研究生院
- 专业名称:
- 理论物理
- 授予学位:
- 博士
- 学位年度:
- 2011年
- 导师姓名:
- 郑伟谋
- 关键词:
- 蛋白质序列;结构码;配位数;单体能;工字型
-