Peter Kerpedjiev需要一堂关于基因学的速成课。作为一名接受过一些生物信息学培训的软件工程师,Kerpedjiev正在攻读博士学位,并且认为这真的有助于他了解一些生物学基础知识。“如果我想和某人开展一场智慧的对话,我需要了解哪些基因呢?”Kerpedjiev思索道。
他直奔这些数据而去。多年来,美国国家医学图书馆(NLM)一直系统性地为其颇受欢迎的PubMed数据库中的几乎每篇文章加上标签。这些标签含有一些关于每个基因起什么作用的信息。Kerpedjiev提取了所有描述某个基因或者该基因编码蛋白的结构、功能或者位置的文章。
通过整理记录,他列出了一个始终被研究得最多的基因榜单——有点像人类基因组“热门点击”的意味。
Kerpedjiev发现,在榜单上打头的是一个名为TP53的基因。3年前,当他第一次开展此项分析时,研究人员在约6600篇论文中仔细分析了该基因或者其产生的蛋白p53。今天,这一数字已达到8500左右并且还在增长。平均而言,在每天发表的论文中约有两篇描述TP53基础生物学的最新细节。
TP53的受欢迎程度对于大多数生物学家来说不应当成为新闻。这是一种肿瘤抑制基因,也是广为人知的“基因组卫士”。它会在约一半的人类癌症中发生突变。“这解释了它的持久力。”约翰斯·霍普金斯大学医学院癌症基因学家Bert Vogelstein表示,在癌症中,“没有哪个基因比TP53更重要了”。
不过,还有一些高居榜首的基因就很少有人知道了,包括在基因研究的既往年代异军突起但随着技术进步开始过时的基因。“这个榜单令人感到惊奇。”目前在哈佛医学院从事基因组数据可视化博士后研究的Kerpedjiev表示,“一些基因是可预测的,但有些完全出乎意料。”
《自然》杂志同Kerpedjiev合作,分析了一直被研究最多的基因。此项工作提供的不仅仅是对话开场白:它阐明了生物医学研究中的重要趋势,并且揭示了关于特定疾病或者公共卫生问题的关切如何改变研究重点。它还揭示了一些基因——很多跨越学科和疾病领域——是如何主导研究的。
成为全球艾滋病病毒研究焦点
即便在1983年发现艾滋病病毒(HIV)是艾滋病的起因前,诸如David Klatzmann等临床免疫学家便注意到艾滋病患者中出现的一种奇怪模式。“我对这些人体内没有T4细胞的事实感到震惊。”目前在法国巴黎第六大学工作的Klatzmann表示。他在细胞培养试验中证实,HIV似乎选择性地感染并摧毁这些属于免疫系统T细胞子集的细胞。问题在于:该病毒是如何进入细胞的?
Klatzmann推断,曾被免疫学家用于定义这一系列细胞的表面蛋白(随后被称为CD4)可能还充当了HIV进入细胞的受体。1984年12月,他在一篇发表的论文中报告了这一发现。同时发表的还有一篇由当时在英国伦敦癌症研究所工作的分子病毒学家Robin Weiss及其同事撰写的类似论文。
在3年的时间里,CD4成为生物医学文献中的最热门基因。它的热度从1987年维持到了1996年。其间,CD4占到NLM所加的全部标签的1%~2%。
这种关注度部分源自应对新出现的艾滋病危机的努力。例如,上世纪80年代末,若干公司开始涉猎打造治疗形式的CD4蛋白的想法。其能在HIV病毒感染健康细胞前肃清病毒粒子。不过,美国国家癌症研究所艾滋病和癌症病毒项目负责人Jeffrey Lifson介绍说,来自小型人类试验的结果证实,这只是一个很平庸的想法。
导致CD4如此流行的更大一部分原因同基础免疫学相关。1986年,研究人员意识到,表达CD4的T细胞可被细分成两个不同的群体:一个能消除感染细胞的细菌和病毒,另一个会抵御诸如蠕虫等没有入侵细胞也会引发疾病的寄生虫。“这是一个非常激动人心的时刻,因为我们了解的太少了。”纽约大学医学院免疫学家Dan Littman表示。就在一年前,他帮助克隆了编码CD4的DNA并将其插入细菌,从而使大量的蛋白能被用于研究。
10年后,Littman还共同领导了一个团队证实,为进入细胞,HIV会利用除了CD4的另一个受体:一种被确认为CCR5的蛋白。自此以后,它们和另一个名为CXCR4的共同受体持续成为密集的全球HIV研究的焦点,目标则是阻止该病毒进入细胞,虽然其尚未实现。
昙花一现
上世纪90年代初,TP53的地位已经开始上升。不过,在它爬上人类基因阶梯的最顶端之前,一个鲜为人知的基因——GRB2出了很多年的风头。
当时,研究人员开始辨别涉及细胞通讯的特定蛋白的相互作用。多亏了细胞生物学家Tony Pawson作出的开创性研究,科学家了解到,一些小的胞内蛋白含有被称为SH2的模块。它可能同细胞表面的被激活蛋白结合并将信号传递给细胞核。
1992年,耶鲁大学医学院生物化学家Joseph Schlessinger证实,被生长因子受体结合蛋白——GRB2编码的蛋白就是这一中继站。它含有一个SH2模块以及两个可激活涉及细胞生长和生存的蛋白区域。“它是分子‘媒人’。”Schlessinger介绍说。
很快,其他研究人员填补了空白,并且开创了信号传导研究领域。尽管细胞信号传导的很多其他基本成分很快得以揭示并最终促成了针对癌症、自体免疫疾病、糖尿病和心脏病的疗法,但GRB2始终“站”在最前沿并且在上世纪90年代末连续3年成为被提及次数最多的基因。
加州大学圣地亚哥分校生物化学家Peter van der Geer介绍说,部分原因在于GRB2“是信号传导级联两部分之间的首个实体连接点”。更重要的是,“它涉及细胞调节的很多不同方面”。
GRB2有点像被研究最多基因榜单上的“局外人”。它并非疾病的直接起因,也不是药物靶标。而这或许解释了为何它会昙花一现。“有些冉冉升起的明星会迅速衰落,因为它们没有临床价值。”在瑞典斯德哥尔摩卡罗林斯卡研究所和巴黎第六大学长期研究TP53的科学家Thierry Soussi表示。
短暂超越TP53
TP53的主导地位被另一个基因APOE短暂地打断。上世纪70年代中期,APOE蛋白最早作为涉及从血液中清除胆固醇的“运输者”而被描述。该领域的开创者、来自加州大学旧金山分校的Robert Mahley介绍说,研究人员认真地考虑过将其作为预防心脏病的降脂疗法。Mahley在兔子中测试了该疗法。
最终,上世纪80年代末他汀类药物的创建使上述策略落入制药史的“垃圾箱”。但随后,神经科学家Allen Roses和同事在阿尔茨海默氏症患者的黏性大脑斑块中发现了APOE蛋白。他们在1993年证实,该蛋白的一种特定形式——APOE4同阿尔茨海默氏症大大增加的发病风险存在关联。
这使科学家对其产生了更广泛的兴趣。当然,进入被研究最多基因榜单需要时间。淀粉样蛋白假说称,一种名为淀粉样蛋白-β的蛋白质片段的累积引发了阿尔茨海默氏症。这一观点在当时非常流行。很少有研究人员对寻找转运胆固醇的蛋白同该疾病存在何种关联感兴趣。但Mahley表示,APOE4和阿尔茨海默氏症患病风险之间的基因关联被证实是“无可辩驳的”。 2001年,APOE短暂地超越了TP53。
和其他流行的基因一样,APOE之所以得到很好的研究,是因为它是目前未解决的一个重要健康问题的关键。但它的重要性还在于抗淀粉样蛋白疗法在临床测试中逐渐失去势头。“虽然我讨厌这么说,但帮助我的正是失败的试验。”今年为自己公司筹集到6300万美元用于研发靶向APOE4蛋白药物的Mahley表示。在他看来,这些失败迫使行业和资助机构重新思考应对阿尔茨海默氏症的治疗策略。