清大彭明辉教授的研究生手册
看来这是一帖解药, 专治学术知识焦虑症, 尤其针对所谓的期刊论文特别有效喔!
做Research 的人参考看看吧~~
一. 论文的要求
我对硕士论文的基本要求是:(1)论文的主要内容, 是叙述一套方法在一个特定场合中的应用.(2)这套方法必须要有所创新或突破, 并因而对学术界有所贡献. 因此, 它或者是解决既有问题的新方法, 或者是既有方法的新应用, 或者是以一个新的方法开启一整片新 的应用领域.(3)在论文中, 你必须要有能力提出足够的证据来让读者信服说:针对这个应用场合, 你所提出来的方法确实有比文献中一切既有方法更优越之处.(4)此外, 你必 须要能清楚指出这个方法在应用上的限制, 并且提出充分证据来说服读者:任何应用场合, 只要能够满足你所提出来的假设(前提) 条件, 你的方法就一定适用, 而且你所描述的 优点就一定会存在.(5)你还必须要在论文中清楚指出这个方法的限制和可能的缺点(相对于其它文献上的既有方法, 或者在其它应用场合里). 假如这个方法有任何重大缺点, 在口试时才被口试委员指出来, 其后果有可能是论文无法通过.(6)行文风格上, 它是一 篇论证严谨, 逻辑关系清晰, 而且结构有条理的专业论述. 也就是说, 在叙述你的方法的过程, 你必须要清清楚楚地交代这个方法的应用程序以及所有仿真或实验结果的过程, 使 得这个专业领域内的任何读者, 都有办法根据你的描述, 在他的实验室下复制出你的研究 成果, 以便确定你的结论确实是可以「在任何时间, 任何地点, 任何人」都具有可重复性(可重复性是「科学」的根本要求).(7)而且, 你对这个方法的每一个步骤都必须要提供充分的理由说明「为什么非如此不可」.(8)最后, 你的论文必须要在适当位置清楚注明所有和你所研究之题目相关的文献. 而且, 你必须要记得:只要是和你所研究的问题相关的学术文献(尤其是学术期刊论文), 你都有必要全部找出来(如果漏掉就是你的过失), 仔细读过. 假如你在学位论文口试时, 有口试委员指出有一篇既有文献, 在你所讨论的问题中处理得比你的方法还好, 这就构成你论文无法及格的充分理由.(9)第(2)款所谓「对学术界的贡献」, 指的是:把你的所有研究成果扣除掉学术界已经发表过的所有成果(不管你实际上有没有参考过, 没有参考过也算是你的重大过失), 剩下的就是你的贡献. 假如这个贡献太少, 也构成你论文无法及格的充分理由.
上面所叙述的九款要件中, 除第(2)款之外, 通通都是必须要做到的, 因此没有好坏之分. 一篇硕士论文的好坏(以及成绩的评定标准), 主要是看第(2)款所谓「对学术界的贡献」的多寡与重要性而定. 假如你要申请国外的博士班, 最重要的也是看你的硕士论文有什么「贡献」而定(这往往比TOFEL,GRE,GPA 还重要). 一个判断硕士论文的好坏有一个粗浅办法:假如你的研究成果可以在国外著名学术期刊(journals,而非magazines) 上发表, 通常就比一篇只能在国外学术会议(conferences)上发表的硕士论文贡献多; 一篇国外学术会议的论文又通常比无法发表的论文贡献多; 在国际顶尖学术期刊上发表的论文通常比一篇二流的学术期刊论文贡献多.SCI 有一种叫做Impact
Factor 的指数, 统计一个期刊每篇论文被引述的次数. 通常这个次数(或指数) 愈高, 对学术界的影响力就愈大. 以机械视觉相关领域的期刊而言,Impact Factor在1.0以上的期刊, 都算是顶尖的期刊. 这些期刊论文的作者, 通常是国外顶尖学府的著名教授指导全球一流的博士生做出来的研究成果.
二. 完成硕士论文所需要的能力
从前面的叙述可以归纳出来, 完成硕士论文所需要的能力包括以下数项, 依它们的培养先后次序逐项讨论.
(1)数据检索的能力:在给定(或自己拟定) 的题目范围内, 你必须有能力利用数据检索 系统(尤其是教育部「博硕士论文检索系统」,Compendex 和SCI 这三套论文数据索引系统), 查出所有相关的论文, 而无任何遗漏(否则你可能在论文口试时才发现同一个题目已经有人发表过了). 你到底要用什么样的关键词和查所程序去保证你已经找出所有相关的文献? 这是第一个大的挑战. 每一组关键词(包含联集与交集) 代表一个论文所构成的集合, 假如你用的关键词不恰当, 你可能找到的集合太小, 没有涵盖所有的相关文献; 假如你用的关键词太一般化(譬如「image 」), 通常你找到的集合会太大, 除了所有相关文献之外还加上好几十倍的毫不相关的文献.
(2)资料筛选的能力:即使你使用了恰当的搜寻策略, 通常找到的文献集合都还是明显地比你所需要的集合大, 而且通常文献比数大概在一两百篇或数百篇之间, 而其中会和你的 的研究子题直接且密切相关的论文, 通常只有廿, 卅篇左右. 你如何可以只读论文的题目, 摘要, 简介和结论, 而还没有完全看懂内文, 就准确地判断出这篇论文中是否有值得你进一步参考的内容, 以便快速地把需要仔细读完的论文从数百篇降低到廿, 卅篇? 这考验着你从事资料筛选的能力.
(3)期刊论文的阅读能力:期刊论文和大学部的课本截然不同. 大学部的课本是寻次渐进地从最基本的知识背景逐步交代出整套有系统的知识, 中间没有任何的跳跃, 只要你逐页读下去, 就可以整本都读懂, 不需要在去别的地方找参考数据. 但是期刊论文是没头没尾的十几页文献, 只交代最核心的创意, 并援引许多其它论文的研究成果(但只注明文献出处, 而完全没有交代其内容). 因此, 要读懂一篇论文, 一定要同时读懂数篇或十数篇被援引的其它论文. 偏偏, 这十几篇被援引的论文又各自援引十数篇其它论文. 因此, 相对于大学部的教科书而言, 期刊论文是一个极端没有系统的知识, 必须要靠读者自己从几十篇论文中撷取出相关的片段, 自己组织成一个有系统的知识, 然后才有办法开始阅读与吸收. 要培养出这种自己组织知识的能力, 需要在学校靠着大量而持续的时间去摸索, 体会, 而不可能只利用业余的零星时间去培养. 因此, 一个大学毕业后就不再念研究所的学生, 不管他在大学部有多优秀, 都很难在工业界利用业余的时间去培养出这种能力. 所以, 硕士毕业生和大学毕业生最大的差别, 就是:学士只学习过吸收系统知识的能力(也就是读别人整理, 组织好的知识, 典型的就是课本); 但硕士则学习过自己从无组织的知识中检索,
筛选, 组织知识的能力.
(4)期刊论文的分析能力:为了确定你的学位论文研究成果确实比所有相关的学术期刊论文都更适合处理你所拟定的应用场域, 首先你必须要有能力逐篇分析出所有相关期刊论文的优点与缺点, 以及自己的研究成果的优点与缺点, 然后再拿他们来做比较, 总结出你的论文的优点和缺点(限制). 但是, 好的期刊论文往往是国外著名学府的名师和一流的博士生共同的研究成果, 假如你要在锁定的应用场域上「打败」他们, 突出自己的优点, 这基本上是一个极端困难的挑战. 即使只是要找出他们的缺点, 都已经是一个相当困难的工作了. 一个大学毕业生, 四年下来都是假定「课本是对的」这样地学下来的, 从来没有学习如何分析课本知识的优缺点, 也就是「只有理解的能力, 而没有批判的能力」. 硕士生则必须要有「对一切既有进行精确批判」的能力. 但是, 这个批判并非个人好恶或情绪化的批判, 而是真的找得到充分理由去支持的批判. 这个批判的能力, 让你有能力自己找到自己的优, 缺点, 因此也有机会自己精益求精. 所以, 一个大学毕业生在业界做事的时候, 需要有人指导他(从事批判性检验), 帮他找出缺点和建议改进的可能性. 但是, 一个严格训练过的合格硕士, 他做事的时候应该是不需要有人在背后替他做检证, 他自己就应该要有能力分析自己的优, 缺点, 主动向上级或平行单位要求支持. 其实, 至少要能够完成这个能力, 才勉强可以说你是有「独立自主的判断能力」.
(5)创新的能力:许多大学毕业的工程师也能创新, 但是硕士的创新是和全世界同一个学术团体内所有的名师和博士生挑战. 因此, 两者是站在不同的比较基础上在进行的:前者往往是一个企业内部的「闭门造车」, 后者是一个全球的开放性竞争. 其次, 工程师的创新往往是无法加以明确证明其适用条件, 但是学术的创新却必须要能够在创新的同时厘清这个创新的有效条件. 因此, 大学毕业生的主要能力是吸收既有知识, 但硕士毕业生却应该要有能力创造知识. 此外, 台湾历年来工业产品的价位偏低, 这一部分是因为国际大厂的打压以及国际消费者的信任不易建立. 但是, 另一方面, 这是因为台湾的产品在质量上无法控制, 因此只好被当作最粗糙的商品来贩卖. 台湾的产品之所以无法有稳定的质量, 背后的技术原因就是:各种创新都是只凭一时偶然的巧思, 却没有办法进一步有系统地厘清这些巧思背后可以成立的条件. 但是, 创新其实是可以有一套「有迹可寻」的程序的, 这是我最得意的心得, 也是我最想教的.
三. 为什么要坚持培养阅读与分析期刊论文的能力我所以一直坚持要训练研究生阅读与分析期刊论文的能力, 主要是为了学生毕业后中长期的竞争力着想.
台湾从来都只生产国外已经有的产品, 而不事创新. 假如国外企业界比国外学术的技术落后三年, 而台湾的技术比国外技术落后五年, 则台湾业界所需要的所有技术都可以在国外学术期刊上找到主要的理论依据和技术核心构想(除了一些技术的细节和know how之外). 因此, 阅读期刊的能力是台湾想要保持领先大陆技术的必备条件. 此外,
只要能够充分掌握阅读与分析期刊论文的技巧, 就可以水到渠成地轻松进行「创新」的工作. 所以, 只要深入掌握到阅读与分析期刊论文的技巧, 就可以掌握到大学生不曾研习过的三种能力:(1)自己从无组织的知识中检索, 筛选, 组织知识的能力,(2)对一切既有知识进行精确批判的独立自主判断能力,(3)创造新知识的能力. 创新的能力在台湾一直很少被需要(因为台湾只会从国外买整套设备, 制程和设计与制造的技术). 但是, 大陆已经成为全球廉价品制造中心, 而台商为了降低成本也主动带技术到大陆设厂(包括现在的晶元代工), 因此整个不具关键性技术的制造业都会持续往大陆移动; 甚至IC 的设计(尤其数字的部分) 也无可避免地会迅速朝向「台湾开系统规格, 进行系统整合, 大陆在前述架构下开发特定数位模块」的设计代工发展. 因此, 未来台湾将必然会被逼着朝愈来愈创意密集的创意中心走(包括商务创意, 经营创意, 产品创意, 与技术创新). 因此, 不能因为今天台湾的业界不需要创新的能力, 就误以为自己一辈子都不需要拥有创新的能力. 我在协助民间企业发展技术研发的过程中, 碰到过一位三十多岁的厂长. 他很聪明, 但从小家穷, 被环境逼着去念高工, 然后上夜校读完工专. 和动态性能(bandwidth,response speed 等) 无关的技术他都很深入, 也因为产品升级的需要而认真向我求教有关动态性能的基本观念. 但是, 怎么教他都不懂, 就只因为他不懂工程数学. 偏偏, 工程数学不是可以在工厂里靠自修读会的. 一个那么聪明的人, 只因为不懂工数, 就注定从三十岁以后一辈子无法在专业上继续成长! 他高工毕业后没几年, 廿多岁就当课长, 家人与师长都以他为荣; 卅岁当厂长, 公司还给他技术股, 前途无量; 谁想得到他会在卅岁以后被逼着「或者升级, 或者去大陆, 或者失业」? 每次想起这位厂长, 看着迫不急待地要到台积电去「七年赚两千万退休金」的学生, 或者只想学现成可用的技术而不想学研究方法的学生, 我总忍禁不住地要想:十年后, 我教过的学生里, 会不会有一堆人就只因为不会读期刊论文而被逼提前退休? 再者, 技术的创新并不是全靠聪明. 我熟谙一套技术创新的方法, 只要学会分析期刊论文的优缺点, 就可拿这套方法分析竞争对手产品的优缺点; 而且, 只要再稍微加工, 就可以从这套优缺点的清单里找到突破瓶颈所需的关键性创意. 这套创新程序, 可以把「创新」变成不需要太多天分便可以完成的事, 从而减轻创意的不定性与风险性. 因此, 只要会分析论文, 几乎就可以轻易地组合出你所需要的绝大部分创意. 聪明是不可能教的, 但这套技巧却是可以教的; 而且只要用心, 绝大部分硕士生都可以学会. 就是因为这个原因, 我的实验室整个训练的重心只有一个:通过每周一次的group meeting,培养学生深入掌握阅读与分析期刊论文的技巧, 进而培养他们在关键问题上突破与创新的能力.
四. 期刊论文的分析技巧与程序
一般来讲, 好的期刊论文有较多的创意. 虽然读起来较累, 但收获较多而深入, 因此比较值得花心思去分析. 读论文之前, 参考SCI Impact Factor 及学长的意见是必要的.
一篇期刊论文, 主要分成四个部分.
(1)Abstract:
说明这篇论文的主要贡献, 方法特色与主要内容. 最慢硕二上学期必须要学会只看Abstract 和Introduction 便可以判断出这篇论文的重点和你的研究有没有直接关连, 从而决定要不要把它给读完. 假如你有能力每三十篇论文只根据摘要和简介便能筛选出其中最密切相关的五篇论文, 你就比别人的效率高五倍以上. 以后不管是做事或做学术研究, 都比别人有能力从更广泛的文献中挑出最值得参考的资料.
(2)Introduction:
Introduction 的功能是介绍问题的背景和起源, 交代前人在这个题目上已经有过的主要贡献, 说清楚前人留下来的未解问题, 以及在这个背景下这篇论文的想解决的问题和它的重要性. 对初学的学生而言, 从这里可以了解以前研究的概况. 通常我会建议初学的学生, 对你的题目不熟时, 先把跟你题目可能相关的论文收集个30~40篇, 每篇都只读Abstract 和Introduction, 而不要读Main Body(本文), 只在必要时稍微参考一下后面的Illustrative examples和Conclusions, 直到你能回答下面这三个问题:(2A)在这领域内最常被引述的方法有哪些?(2B)这些方法可以分成哪些主要派别(2C)每个派别的主要特色(含优点和缺点) 是什么? 问题是, 你怎么去找到这最初的30~40篇论文? 有一种期刊论文叫做「review paper」, 专门在一个题目下面整理出所有相关的论文, 并且做简单的回顾. 你可以在搜寻Compendiix 时在keywords 中加一个「review 」而筛选出这类论文. 然后从相关的数篇review paper 开始, 从中根据title 与Abstract 找出你认为跟你研究题目较相关的30~40篇论文. 通常只要你反复读过该领域内30~40篇论文的Abstract 和Introduction, 你就应该可以从Introduction 的评论中回答(2A)和(2B)这两个问题. 尤其要记得, 当你阅读的目的是要回答(2A)和(2B)这两个问题时, 你一定要先挑那些Introduction 写得比较有观念的论文念(很多论文的Introduction 写得像流水帐, 没有观念, 这种论文刚开始时不要去读它). 假如你读过假如30~40篇论文的Abstract 和Introduction 之后, 还是回答不了 2C),先做下述的工作. 你先根据(2A)的答案, 把这领域内最常被引述的论文找齐, 再把他们根据(2B)的答案分成派别, 每个派别按日期先后次序排好. 然后, 你每次只重新读一派的Abstract 和Introduction(必要时简略参考内文, 但目的只是读懂Introduction 内与这派有关的陈述, 而不需要真的看懂所有内文), 照日期先后读, 读的时候只企图回答一个问题:这一派的创意与主要诉求是什么? 这样, 你逐派逐派地把每一派的Abstract 和Introduction 给读完, 总结出这一派主要的诉求, 方法特色和优点(每一篇论文都会说出自己的优点, 仔细读就不会漏掉). 其次, 你再把这些论文拿出来, 但是只读Introduction, 认真回答下述问题「每篇论:文对其它派别有什么批评? 」然后你把读到的重点逐一记录到各派别的「缺点」栏内.
通过以上程序, 你就应该可以掌握到(2A),(2B),和(2C)三个问题的答案. 这时你对该领域内主要方法, 文献之间的关系算是相当熟捻了, 但是你还是只仔细读完Abstract 和Introduction 而已, 内文则只是笼统读过. 这时候, 你已经
掌握到这领域主要的论文, 你可以用这些论文测试看看你用来搜寻这领域论文的keywords 到底恰不恰当, 并且用修正过的keywords 再搜寻一次论文, 把这领域的主要文献补齐, 也把原来30~40篇论文中后来发现关系较远的论文给筛选掉, 只保留大概20篇左右确定跟你关系较近的文献. 如果有把握, 可以甚至删除一两个你不想用的派别(要有充分的理由), 只保留两, 三个派别(也要有充分的理由) 继续做完以下工作. 然后你应该利用(2C)的答案, 再进一步回答一个问题(2D):「这个领域内大家认为重要的关键问题有哪些? 有哪些特性是大家重视的优点? 有哪些特性是大家在意的缺点? 这些优点与缺点通常在哪些应用场合时会比较被重视? 在哪些应用场合时比较不会被重视? 」然后, 你就可以整理出这个领域(研究题目) 主要的应用场合, 以及这些应用场合上该注意的事项.
最后, 在你真正开始念论文的main body之前, 你应该要先根据(2A)和(2C)的答案, 把各派别内的论文整理在同一个档案夹里, 并照时间先后次序排好. 然后依照这些派别与你的研究方向的关系远近, 一个派别一个派别地逐一把各派一次念完一派的main bodies.
(3)Main body(含simulation and/or experimental examples):
在你第一次有系统地念某派别的论文main bodies时, 你只需要念懂:(3A)这篇论文的主要假设是什么(在什么条件下它是有效的), 并且评估一下这些假设在现实条件下有多容易(或多难) 成立. 愈难成立的假设, 愈不好用, 参考价值也愈低.(3B)在这些假设下, 这篇论文主要有什么好处.(3C)这些好处主要表现在哪些公式的哪些项目的简化上. 至于整篇论文详细的推导过程, 你不需要懂. 除了三, 五个关键的公式(最后在应用上要使用的公式, 你可以从这里评估出这个方法使用上的方便程度或计算效率, 以及在非理想情境下这些公式使用起来的可靠度或稳定性) 之外, 其它公式都不懂也没关系, 公式之间的恒等式推导过程可以完全略过去. 假如你要看公式, 重点是看公式推导过程中引入的假设条件, 而不是恒等式的转换. 但是, 在你开始根据前述问题念论文之前, 你应该先把这派别所有的论文都拿出来, 逐篇粗略地浏览过去(不要勉强自己每篇或每行都弄到懂, 而是轻松地读, 能懂就懂, 不懂就不懂), 从中挑出容易念懂的papers, 以及经常被引述的论文. 然后把这些论文照时间先后次序依序念下去. 记得:你念的时候只要回答(3A),(3B)(3C)三个问题就好, 不要念太细. 这样念完以后, 你应该把这一派的主要发展过程, 主要假设, 主要理论依据, 以及主要的成果做一个完整的整理. 其次, 你还要在根据(2D)的答案以及这一派的主要假设, 进一步回答下一个问题:(3D)这一派主要的缺点有哪些. 最后, 根据(3A),(3B),(3C),(3D)的答案综合整理出:这一派最适合什么时候使用, 最不适合什么场合使用. 记住:回答完这些问题时, 你还是不应该知道恒等式是怎么导出来的! 当你是生手的时候, 你要评估一个方法的优缺点时, 往往必须要参考它的Examples. 但是, 要记得:老练的论文写作高手会故意只 present 成功的案例而遮掩失败的案例. 所以,simulation examples and/or experiments很棒不一定表示这方法真的很好. 你必须要回到这个方法的基本假设上去, 以及他在应用时所使用的主要公式(resultant equations)去, 凭自己的思考能力, 并且参考(2C)和(2D)的答案, 自己问问看:当某某假设在某些实用场合上无法成立时, 这个
方法会不会出什么状况? 猜一猜, 预测一下这个方法应该会在哪些条件下(应用场合) 表现优异, 又会在哪些条件下(应用场合) 出状况? 根据这个猜测再检验一次simulation examples and/or experiments,看它的长处与短处是不是确实在这些examples 中充分被检验, 且充分表现出来. 那么, 你什么时候才需要弄懂一篇论文所有的恒等式推导过程, 或者把整篇论文细细读完?NEVER! 你只需要把确定会用到的部分给完全搞懂就好, 不确定会不会用到的部分, 只需要了解它主要的点子就够了.
硕士生和大学生最主要的差别:大学生读什么都必须要从头到尾都懂, 硕士生只需要懂他用得着的部分就好了! 大学生因为面对的知识是有固定的范围, 所以他那样念. 硕士生面对的知识是没有范围的, 因此他只需要懂他所需要的细腻度就够了. 硕士生必须学会选择性的阅读, 而且必须锻炼出他选择时的准确度以及选择的速度, 不要浪费时间在学用不着的细节知识! 多吸收「点子」比较重要, 而不是细部的知识.
图一:论文阅读流程图
五, 方法与应用场合特性表(有迹可寻的创意程序) 试着想象说你从上图中论文阅读步骤的第(4)与(5)步骤分别获得以下两张表:譬如, 当你的题目是「如何标定fiducial mark之中心位置」, 你就必须要仔细搜寻出文献上所有可能可以用来做这一个工作的方法. 或许你找到的方法一共有四种, 依序如下. 譬如(随便乱举例), 「方法一」可能表示:「以面积形心标定fiducial mark之中心位置」, 「方法二」可能表示「以Hugh transform标定fiducial mark之中心位置」, 「方法三」可能表示:「以局部弧形matching 的方法标定fiducial mark之中心位置」, 「方法四」可能表示:「以ring code标定fiducial mark之中心位置」. 这些方法各有它的特色(优缺点), 譬如(随便乱举例), 特性1可能表示「计算速度」(因此, 根据上表左边第一个row, 可以发现:方法一的计算速度很快, 方法二与方法三的计算速度很慢, 而方法四的计算速度普通. 其次, 特性2可能代表「光源亮度不稳定时计算位置的误差大小」, 特性3可能代表「噪声对计算出的位置干扰多大」, 特性4可能代表「图形边缘有破损时计算的可靠度」, 特性5可能代表「对象有彼此的遮蔽时方法的适用性」等等. 所以, 以上左图中第五个row 为例, 可以发现:当对象有彼此的遮蔽时, 除方法二之外其它三个方法的适用性都很好. 但是, 同样一个方法可能有许多不同的应用场合, 而不同应用场合可能会对适用(或最佳) 的方法有不同要求. 所以, 让我们来看右边的「问题特性分析表」. 譬如(随便乱举例), 应用甲可能是「标定fiducial mark之中心位置方法在「电路插件组装(SMT)里的应用, 应用乙可能是「标定fiducial mark 之中心位置」的方法在「生物检验自动化影像处理」里的应用, 而应用丙则可能是「标定fiducial mark之中心位置」的方法在「巡乂飞弹目标搜寻」里的应用. 这三种应用场合更有其关注的特性. 譬如, 根据上面右表第二个row 的资料, 三种应用场合对特性2(光源亮度不稳定时计算位置的误差大小) 都很在意. 再譬如, 根据上面右表第四个row 的数据, 三种应用场合中除了应用甲(电路插件组装(SMT))之外, 其它两种应用场合对特性4(图形边缘有破损时计算的可靠度) 都很在意.
那么, 四个方法中哪个方法最好? 你可能会回答说:「方法二! 因为它的优点最多, 缺点最少. 」但是, 这样的回答是错的! 一个方法只有优缺点, 而没有好坏. 当它被用在一个适合表现其优点而不在乎其缺点的场合里, 它就显得很好; 但是, 当它被用在一个不适合表现其优点而很在乎其缺点的场合里, 它就显得很糟. 譬如, 方法二在应用场合乙, 它的表现会非常出色(因为所有的优点刚好那个应用场合都在意, 而所有的缺点刚好那个应用场合都不在意); 但是, 方法二在应用场合甲里它的表现却会非常糟糕(它所有的缺点刚好那个应用场合都很在意, 而它大部分的优点刚好那个应用场合却都不在意). 所以, 必须要学会的第一件是就是:方法没有好坏, 只有相对优缺点点; 只有当方法的特性与应用场合的特性不合时, 才能下结论说这方法「不适用」; 二当当方法的特性与应用场合的特性吻合时, 则下结论说这方法「很适用」. 因此, 一定要同时有方法特性表与应用场合特性分析表放在一起后, 才能判断一个方法的适用性.
更重要的是:上面的方法与问题分析对照表还可以用来把「突破瓶颈所需的创意」简化成一种「有迹可寻」的工作. 譬如, 假定我们要针对应用甲发展一套适用的方法, 首先我们要先从上右表中标定这个应用场合关心哪些问题特性. 根据上右表第一个column, 甲应用场合只关心四个特性:特性1,2,3,5(即「计算速度」, 「光源亮度不稳定时计算位置的误差大小」, 「噪声对计算出的位置的干扰」, 「对象有彼此的遮蔽时方法的适用性」). 那么, 哪个方法最适用呢? 看起来是方法一, 它除了特性2表现普通之外, 其它三个特性的表现都很出色. 但是, 假如我们对方法一的表现仍不够满意, 怎么去改善它? 最简单的办法就是从上左表找现成的方法和方法一结合, 产生出一个更适用的方法. 因为方法一只有在特性2上面表现不够令人满意, 所以我们就优先针对在特性2上面表现出色的其它方法加以研究. 根据上左表, 在特性2上面表现出色的方法有方法二和方法四, 所以我们就去研究这两个方法和方法一结合的可能性. 或许(随便举例) 方法四的创意刚好可以被结合进方法一而改善方法一在特性2上面的表现, 那么, 我们就可以因此轻易地获得一个方法一的改良, 从而突破甲应用场合没有适用方法的瓶颈.
有没有可能说单纯常识结合既有方法优点仍无法突破技术瓶颈的状况? 可能有. 这时候真的需要完全新颖的创意了. 但是, 这种时候很罕见. 多半时候只要应用上一段的分析技巧就可以产生足以解决实用问题的创意了. 至少, 要产生出一篇学术期刊论文并非那么困难.
六. 论文阅读的补充说明
硕士生开始学读期刊论文时, 就容易犯的毛病就是戒除不掉大学部的习惯:(1)老是想逐行读懂, 有一行读不懂就受不了.(2)不敢发挥自己的想象, 读论文像在读教科书, 论文没写的就不会, 瘫痪在那里; 被我逼着去自己猜测或想象时, 老怕弄错作者的意思, 神经绷紧, 脑筋根本动不了.
大学毕业后(不管是念硕, 博士或工作), 可以参考的数据都没有秩序地交错成一团, 而且永远都读不完. 用大学生的心态读书, 结果一定时间永远不够用. 因此, 每次读论文都一定要带着问题去读, 每次读的时候都只是图回答你要回答的问题. 因此, 一定是选择性地阅读, 一定要逐渐由粗而细地一层一层去了解. 上面所规划的读论文的次序, 就是由粗而细, 每读完一轮, 你对这问题的知识就增加一层. 根据这一层知识就可以问出下一层更细致的问题, 再根据这些更细致的问题去重读, 就可以理解到更多的内容. 因此, 一定是一整批一起读懂到某个层次, 而不是逐篇逐篇地整篇一次读懂.
这样读还有一个好处:第一轮读完后, 可以根据第一轮所获得的知识判断出哪些论文与你的议题不相关, 不相关的就不需要再读下去了. 这样才可以从广泛的论文里逐层准确地筛选出你真正非懂不可的部分. 不要读不会用到的东西, 白费的力气必须被极小化! 其实, 绝大部分论文都只需要了解它的主要观念(这往往比较容易), 而不需要了解它的详细推导过程(这反而比较费时).
其次, 一整批一起读还有一个好处:同一派的观念, 有的作者说得较易懂, 有的说得不清楚. 整批读略过一次之后, 就可以规划出一个你以为比较容易懂的阅读次序, 而不要硬碰硬地在那里撞墙壁. 你可以从甲论文帮你弄懂以论文的一个段落, 没人说读懂甲论文只能靠甲论文的信息. 所以, 整批阅读很像在玩跳棋, 你要去规划出你自己阅读时的「最省力路径」.
大学部学生读东西一定要循规蹈矩, 你还没修过机械视觉相关课程之前可能也只好循规蹈矩地逐行去念. 但是一旦修过机械视觉相关课程, 许多论文中没被交代的段落你也已经可
以有一些属于你的想象(虽然有可能猜错, 尤其刚开始时经常猜错, 但没关系, 下面详述). 这些想象往往补足论文跳跃处最快速的解决方案. 其实, 一个大学毕业生所学已经很多了, 对许多是都可以有一个不太离谱的想象能力. 但是大部分学生却根本不敢去想象.
我读论文远比学生快, 分析远比学生深入, 主要的是我敢想象与猜测, 而且多年训练下来想象与猜测的准确度很高. 所以, 许多论文我根本不是「读懂」的, 而是「猜对」了!
假如猜错了怎么办? 不用怕! 猜完一后要根据你的猜测在论文里找证据, 用以判断你的猜测对不对. 猜对了, 就用你的猜测(其实是你的推理架构) 去吸收作者的信息与创意(这会比从头硬生生地去迁就作者的思路轻松而容易); 猜错了, 论文理会有一些信息告诉你说你错了, 而且因为猜错所以你读到对的答案时反而印象更深刻.
捌, 论文报告的要求与技巧
报告一篇论文, 我要求做到以下部分(依报告次序排列):
(1) 投影片第一页必须列出论文的题目, 作者, 论文出处与年份.
(2) 以下每一页投影片只能讲一个观念, 不可以在一张投影片里讲两个观念.
(3) 说明这篇论文所研究的问题的重点, 以及这个问题可能和工业界的哪些应用相关.
(4) 清楚交代这篇论文的主要假设, 主要公式, 与主要应用方式(以及应用上可能的解题流程).
(5) 说明这篇论文的范例(simulation examples and/or experiments),预测这个方法在不同场合时可能会有的准确度或好用的程度
(6) 你个人的分析, 评价与批评, 包括:(6A)这篇论文最主要的创意是什么?(6B)这些创意在应用上有什么好处?(6C)这些创意和应用上的好处是在哪些条件下才能成立?(6D)这篇论文最主要的缺点或局限是什么?(6E)这些缺点或局限在应用上有什么坏处?(6F)这些缺点和应用上的坏处是因为哪些因素而引入的?(6G)你建议学长学弟什么时候参考这篇论文的哪些部分(点子)?
一般来讲, 刚开始报告论文(硕一上学期) 时只要做到能把前四项要素说清楚就好了, 但是硕一结束后(暑假开始) 必须要设法做到六项要素都能触及. 硕二下学期开始的时候, 必须要做到六项都能说清楚.
注意:读论文和报告论文时, 最重要的是它的创意和观念架构, 而不是数学上恒等式推导过程的细节(顶多只要抓出关键的equation 去弩懂以及说明清楚即可). 你报告观念与分析创意, 别人容易听懂又觉得有趣; 你讲恒等式, 大家不耐烦又浪费时间.
摘自贝勒中国学生学者联谊会
这个题目下的文章应该永远标记为" 未完待续", 因为任何一个人的经验都不可能完全涵盖BAYLOR QUALIFYING EXAM的全部. 我只是抛砖引玉, 希望身为过来人的每一位能积极参与到这一群策群力的经验总结中来, 为正在和将要翻越此雄关的师弟师妹们点一盏航灯.
BCM 的QUALIFYING EXAM一般分为三个阶段,ABSTRACT--->PROPOSAL--->DEFENSE.ABSTRACT一定会被COMMITTEE 审阅, 而PROPOSAL 的审阅与否各个系尚不相同. 因此我这篇帖子就分成ABSTRACT 和PROPOSAL 两个阶段, 大体目录如下可能会有修改)
ABSTRACT
1. SELECT TOPIC
2. HYPOTHESIS
3. DESIGNING SPECIFIC AIMS
4. FINISHING UP AN ABSTRACT
PROPOSAL AND DEFENSE
1. GENERAL ORGANIZATION
2. EXPERIMENT DESIGN
3. FINISHING UP A PROPOSAL
4. FROM PROPOSAL TO DEFENSE
1. SELECT TOPIC
这是一切的开端, 是QUALIFYING EXAM中你唯一的机会, 你的选择使今后的四个月可能会轻松愉快而充满激情, 可能会荆棘遍布举步维艰, 更可能会将你引向一条死胡同. 选择TOPIC 的重要性因此不言而喻. 而选择TOPIC 根本没有秘诀可言, 说到底, 只是COMMON SENSE而已.
a. 选择你喜爱的课题
QUALIFYING EXAM是我们博士生涯的最大ACADEMIC 挑战, 可是它却不一定会成为我们真正意义上不堪重负的负担, 前提是你需要能够享受你所研究的课题. 选择一个你真正关心且感兴趣的课题, 价值正在于此------如果你能饶有兴趣地阅读文献, 带着激情设计你的课题和实验, 即使是QUALIFYING EXAM的四个月也会阳光明媚. 而这一切都由你选择.
b. 扬长避短
“隔行如隔山”这句名言的用处无所不在, 即使同为生物工作者, 我们也有各自的强项短处. 而你对你所要研究的领域的熟悉与否, 将直接决定你整个QUALIFYING EXAM中的工作量. 我知道大家都是科研精英, 即使踏入一个自己一无所知的领域也能迅速进入角色, 可是将更多的时间从恶补基础知识中抽出来, 放到课题设计上来, 岂不更好吗?
c. HYPOTHESIS决定一切
下一篇将会提到,HYPOTHESIS 是QUALIFYING EXAM的灵魂, 也是决定你课题的最大客观因素. 课题设计容易
进入的一个误区, 是对某一领域爱不释手, 以致锲而不舍地钻营, 却因为找不出HYPOTHESIS 而迷失方向. 当断必须断, 否则深陷泥潭进退两难就糟了. 这一点在下一篇中会更多提及. 一般来说, 三天之内如果没有明确的方向, 就应该严肃考虑转向.
d. 做最严格的把关人
这应该是贯穿整个QUALIFYING EXAM的真理. 没错,ABSTRACT,PROPOSAL……教授们会一道一道地替你把关, 让你相对安全地踏上最后DEFENSE 的讲坛, 然而, 最后胜利通过考试, 安全系数更主要地是由你自己把握. 早在ABSTRACT 期间, 你就应该将整个QUALIFYING EXAM中可能出现的问题尽可能多地都考虑到. 不止是Hypothesis 的有效性, 也应当包括到你实验计划的可行性, 以及相对关键步骤的必行性. 不要将任何可能毁掉整个PROPOSAL 的不安全因素留到第二阶段, 尽量避免出现你设计实验的时候发现关键实验中某种细胞根本无法被TRANSFORM 或者某个KNOCKOUT 会致死而你却想不出办法补救的乌龙事件.
总结之, 客观和主观因素都会影响到你的课题设计, 但是必须指出的是, 你并不需要在客观和主观因素中做出痛苦的抉择, 因为科研领域的广阔, 使得你一定能够找到你喜爱并擅长的, 并且能够给你HYPOTHESIS 的课题. 因此, 根据你的兴趣和知识开拓方向, 并由HYPOTHESIS 果断决定取舍, 是个人推荐的课题选择之路.
Baylor 绝大多数系的Qualifying Exam中, 衡量Proposal 的首要标准是:Hypothesis-Driven,因此没有hypothesis 就没有proposal.“What is your hypothesis”这个问题将会成为Qualifying Exam最早, 同样也是最首要的问题. 如上文提到的, 在Abstract 阶段, 任何一个找不到Hypothesis 的方向都是死胡同, 而找到一个完善的Hypothesis 则基本是完成Abstract 的充分条件. 此后叙述Background 和设计Aim 则是为了支持和验证Hypothesis, 一切都是围绕Hypothesis 展开的:
首先必须要弄清:什么是hypothesis? 辞典中hypothesis 的大致意思是“假设”.然而,Research 中对Hypothesis 更有诸多要求, 并非“假设”二字所能涵盖的. 因此需要在开头就明确指出Hypothesis 的定义和标准.
定义:Hypothesis是具有已知实验结果支持, 并能通过实验手段证实的科学推测.
可以看出, 这个定义包括了两个方面, 可概括为承上/启下.
1). 承上:Hypothesis必须具有已知实验结果支持.
没有 preliminary data就没有hypothesis. 科学是通过不断的数据积累向前发展, 过去的数据作为证据, 指导后来人的研究方向.Hypothesis 正是通过整合以往的发现用来向未知领域做合理开拓. 只有基于Preliminary data的推
测才能够方向明确而有可预知的成果, 才是合格的Hypothesis. 反之, 如果没有或者缺少preliminary data,则方向是难测的, 道路是曲折的, 希望是渺茫的, Hypothesis也就是不合格的. 这里乱入提一下科学词汇里Speculation 和Hypothesis 的区别. 两者都是科学推测, 区别仅在于是否有Preliminary Data支持而已. 而刚开始设计Proposal 的同学很经常犯的一个错误便是将推测基于自己的奇思异想上------大胆的Speculation 的确是推动科学向前发展的动力, 却并不能作为一篇Proposal 的基础.
没有“preliminary data”是设计Hypothesis 最大的误区,Faculty 经常挂在嘴边的Proposal 设计两大通病都是这方面的表现, 稍微深入谈一下.
其一.Interdependence:你的某些aim 需要其他aim 的结果作为支持才能继续进行. 其后果是你一个aim 的失败会导致相关实验无法进行. 比如说, 例1:你Propose 一个Kinase A通过磷酸化protein B, 因而将protein B translocate到nucleus 中, 从而在signal transduction pathway中发挥作用. 你propose 第一个aim:验证protein B是不是kinase A 的substrate. 第二个aim, 验证kinase A磷酸化protein B之后能不能使protein B转到核里面去. 这里大家看得比较清楚, 第一个aim 如果fail 了, 那第二个aim 也就没有立足之地.Interdependence 的根源在于已知Preliminary data 不足以支持Hypothesis, 而需要追加未知试验数据才行------归根是属于preliminary data不足. 必须指出的是,Interdependence 通常能够通过对Hypothesis 的小规模调整来加以矫正, 下文会有提及.
其二.Fishing Experiment:算是经典了, 大概Faculty 会老生常谈, 警钟长鸣, 我也相信不太会有同学走进这个误区, 不过作为Preliminary data缺乏的一个极端特例, 还是在这里提一下.Fishing Experiment就是你propose 在细胞中某一个功能必须有一个基因来完成, 而这个基因现在没有被找到, 于是你决定用screening 挖地三尺把这个基因挖出来研究之. 你的首要实验正是这个从基因组中“钓”出这个基因的screen, 因此才得“fishing”这一美名. 比如说, 例2:你发现被Dicer 切过的siRNA 需要两头被5’端磷酸化才能介导RNAi, 而目前还没有已知的kinase 来催化这个反应, 你于是决定做一个突变筛选来挖出这个基因来研究之……问题在于, 最重要的priliminary data------你这个基因都不知在何方. 同interdependence 一样,screen 一旦失败, 整个proposal 都完了. 同通常的interdependence 不同的是, 这是一条绝路.
然而, 必须提一下,Screen 不等同于Fishing Experiment,在Proposal 中设计Screen 作为Aim 是完全可行的, 而最根本的区别是在于不能让Screen 的未知结果作为整个Proposal 或是其他Aim 的研究对象.
2). 启下: Hypothesis必须是能够通过实验方法证明.
事实上,“Testability”正是科学同宗教或哲学之间的区别所在. 而课题设计的主干正是设计实验来验证Hypothesis
以期达到结论. 设计Hypothesis 的最初就应该考虑到”Testability”,否则在此后的Abstract 阶段便会一头撞进死胡同. 这同样是Abstract 阶段Faculty 通常枪毙Abstract 的主要原因之一.Hypothesis 的Untestability 可以来源于很多方面, 譬如上一篇提到的某细胞不能被transform 或者某基因knockout 会导致lethal 等等. 在Abstract 时期并没有必要面面俱到地考虑到所有方面, 因为Abstract 阶段,Faculty 注重“承上”多于“启下”.但必要的功课还是需要的, 如:
1. 合理挑选生物模型. 我听说过有人试图拿butterfly 做molecular biology,不是在开玩笑-_-
2. 找到相关实验的Reference. 这是事半功倍的捷径, 一篇合适的Reference 中通常已经替你把Material,Construct,Assay 都已经准备好了.
3. 确认一些至关重要的实验, 譬如说一个关键的Knockout 或者Truncation.
通过上面对Hypothesis 的大段叙述, 大家应该对Hypothesis 如何扩展成整个Abstract 或者Proposal 有一个大致的了解了.Hypothesis 是Proposal 的基石, 确认Hypothesis 之后, 向上通过“承上”,来叙述你的Preliminary Data,以此引导完成“Introduction/Background”;向下通过”启下”,设计你的Aim 和实验, 用以回答你在Hypothesis 中提出的问题, 完成整个课题设计. 所有的枝繁叶茂, 都从Hypothesis 开始. 具体事项会在“Finishing up an abstract”一节中提及.
特别提一下,Abstract 阶段重在“承上”,而Proposal 阶段重在“启下”.依此合理安排你的时间.
经过最初的概述, 关于hypothesis 的下一篇将结合实例加以分析.
Hypothesis (2)
这一篇以及下一篇将着重于Hypothesis 的形成过程, 并结合实例分析.
起点:从Article vs Review说起
在漫漫书海中起航, 究竟哪里才是合适的起点? 我个人一直主张从Original Article出发, 而这一点是我同不少同学有歧见之处――――诚然, 主张从Review 定大方向的同学不在少数. 溯源到Topic Hunting的起点, 我想先表述一下对这个问题的看法. 由上所述,Hypothesis 的关键在于preliminary data,因此hypothesis 的形成过程就是寻找和积累preliminary data的过程, 而当问及Preliminary data源自何方之时, 毫无疑问只能是最初的Article. 这也是我主张从Original Article出发的原因. 然而,Review 作为对某一领域多方面的概括和总结, 其在背景知识积累方面的作用是不可否认的. 因此, 简而言之, 这是一个“厚积”vs“薄发”的过程.
Review 的优缺点:
优点1. Review能最有效地使读者熟悉相关领域的科研背景和最新进展.
优点2. Review会对将来方向做细致的阐述, 在确定方向上经常能替读者代劳.
优点3. Review能使读者带着某些方向和目的去研读Original Article,而不是在黑暗中起路.
缺点1. Review中没有Preliminary Data,想以三两句话总结一篇论文是几乎不可能的.
缺点2. 你无法预测Review 中的预测究竟能作为Hypothesis 抑或只是Speculation, 直到你深入到Original Article当中去.
缺点3. Review的时效性不及Original Article,因为任何一项科学发现, 总是先出现在Original Article中, 其后在Review 里姗姗来迟的.
尤其是Review 的第二个缺点, 因为这是从Review Article开始的同学通常进入的误区(我本人去年也有惨痛经历).Review Article中因为没有原数据, 代之以加上作者个人的解释和筛选, 因此其中的猜测是具有强烈主观色彩的――――也就是说, 你根本没法从Review 中得知相关猜测究竟是Hypothesis 还是Speculation----而上文提到的, 两者的根本区别在于有没有Preliminary Data.其结果是你还是要去找Original Article来做出判断. 这本身其实并不能说是Review 的缺失, 相反, 这还可以说是Review 的一大作用――――使人带着方向和目的去读Article. 我想说的误区在于下一步:如果在查找原论著之后, 发现这只是Speculation, 那其后怎么办? 正确的做法是, 立即转向. 而不少人却会选择霸王硬上弓, 结果在一棵树上攀死.
说说我去年的经历吧:我的第二篇Abstract 是从一篇关于线粒体在细胞凋亡中的作用的Review 开始的. 综述中, 一个方向是Bax 和tBid 如何导致线粒体的permeabilization 和cytochrome C的释放. 作者详述了两个Model: Bax Oligomer Channel Model和PTP Model.然后非常神秘地提了一句:It remains to be determined which model is correct. 然后我一头扎进相关Article 中狂翻, 这两个Model 到底是怎么一回事. 结果是, 双方都振振有辞, 证据凿凿, 也就是说, 没有Preliminary Data来Favor 任何一个Model. 如上文说的, 我当时其实应该立刻转向了, 而如果我这么做的话, 损失的时间其实一天也不到. 但是, 我的选择正是在这个死胡同里面继续钻下去. 结果可想而知, 我牵强附会地设计了三个aim 来测究竟哪个model 是正确的. Faculty的评论让我汗颜无地, 原文大意如下:
“The weakness of this abstract is that it is too safe. Both models should be correct under some circumstances, and it does not promote current understanding by showing that both are correct.”
这就是Review 如双刃剑的一面. 它给你一个希望, 让你满怀憧憬地去Article 里寻找你梦寐以求的Preliminary Data, 却在希望破灭之后使你难下决心撒手. 它总是在不远的前方留下些许光亮, 让你在荆棘遍地中摸索前行, 却最终发现自己的目标可望而不可及.Speculation 给人留下的先入为主的印象通常太难以抗拒了. 如果你是一位相信从Review 之中确立方向的人, 一定要对此有足够的准备――――足够当断立断的准备和决心.
Review 中, 更糟糕的是――――绝大多数的猜测只是Speculation, 更有甚者, 有些Review Article中对未来的展望无法令你找出任何方向. 其结果是, 你无法Narrow Down,而在一个大方向中陷入迷茫. 无法Narrow Down,是另一个Review 开始的常见通病. 纵然你对这一领域的了解和积累到达冰冻三尺的境界, 只要你没有Hypothesis, 就没有一切.
接下来, 便说到Original Article了.Article 的优缺点有哪些呢?
优点1. 客观翔实――――Preliminary Data只有往Original Article当中去找. 其对未来方向的预测也是完全基于Preliminary Data的, 黑白经纬分明, 任何Speculation 都会在其面前无处遁形. 可以有效避免被误导.
优点2. 承前启后――――这其实只针对某些Original Article,如Cell, Genes&Dev等等. 这些文章都有非常详尽的背景和讨论, 其具体性不亚于Review. 因此, 背景资料不止来源于Review, 这些作品的背景资料能使你理解相关科研项目毫无障碍. 这些杂志的论文也是我之后将提到的, 寻找Topic 的绝佳起点.
优点3. 精确遴选――――方向性和针对性是Original Article的一大优势.Original Article的背景阐述同Review 不同, 并非面面俱到, 而是会遴选和浓缩相关课题的信息. 阅读Original Article能在很大程度上避免Narrow Down的难题.
优点4. 一击中的――――完全有可能从单独的一篇Article 中出Hypothesis. 我去年的第三篇Abstract 正是如此形成的, 乃至于事后有得来全不费功夫的感觉.
这里乱入一下, 说说我去年Qualifying Exam第三篇Abstract 的形成过程. 正如提到的, 其来源是一击中的. 那是一篇Cell 文章, 研究的是致癌基因Ras 导致细胞衰老的机理. 文章发现, 给细胞加Ras 能导致Telomere-independent senescence. 当探究机理的时候, 他们发现了两方面的现象. 首先, 细胞核里呈现异染色体化; 其次, 细胞衰老过程需要p16-Rb 的参与. 进一步研究Rb 为什么必不可少, 他们发现,Rb 在细胞衰老的时候结合到E2F promoter上面去, 并且promoter region出现显著的组蛋白H3甲基化和HP1结合, 再进一步,Histone Methyl Transferase (HMT)也被证明是senescence 必须的. 然后, 他们在讨论中提到, 因为Rb 具有结合HMT 的功能, 因此很可能是Rb 先结合到E2F promoter 上面去, 然后招来HMT, 甲基化组蛋白, 最后导致异染色体化. 当我读到这一猜测的时候, 从preliminary data 中我立刻判断出这可以成为Hypothesis, 因为这是一个典型的因果关系论证:A同时导致B 和C,B 又有导致C 的可能, 因此可以推测B 为因而C 为果, A通过B 导致C. Hypothesis就是: Rb induces Senescence-associated heterochromatin formation by nucleating heterochromatin at E2F sites.在因果论证确立之后, 设计aim 也就顺理成章了:
AIM1: 验证先因而后果. 通过Time-lapse Imaging和ChIP 来观察是不是Rb 结合先于异染色体化发生.
AIM2: 验证无果仍有因. 研究破坏异染色体化, 如破坏HMT 同Rb 的结合, 或者破坏HP1同甲基化组蛋白的结合, 是
否会影响Rb 的结合.
AIM3: 验证无因便无果. 研究破坏Rb 结合是否会破坏PROMOTER 甲基化和异染色体化. 再加一个充分性试验研究HMT 同E2F SITE的ARTIFICIAL 结合是否可以BYPASS 对RB 的需求.
那次我是晚上十点钟读的文, 半夜里就出了头绪, 此后的数天只不过是找资料确认实验的可行性而已. 归根截底, 是因为读到的猜测有原数据白纸黑字的支持, 因此坚如磐石般地确立了.Review 是无法达到这种效果的.
最后, 提到Original Article的一个最显著的缺点, 那就是你通常是两眼一摸黑地钻进去的. 不像你在Review 的指导下有方向地研读, 直接进Original Article的话, 你根本不知道方向会是什么, 直到你读完Article 之后才能理出个头绪. 然而, 我认为这并不能抹煞Article 作为起点的优点, 因为你开读第一篇Review 的时候也同样是两眼一摸黑, 更会因为缺少preliminary data把你带进一条Speculation 的不归路. 况且, 可以通过有选择性地读你所熟悉的领域内的原著来弥补这一缺点.
说到这里, 我想重提一下第一篇中强调的Topic Hunting通则之一, 那就是, 没有Hypothesis 必须果断转向, 没有Preliminary Data必须必须果断转向! 我的经验是, 读一篇没有方向的Review 等于没读, 读一篇没有方向的Article 等于没读, 当你确认你的方向出不了Hypothesis 的话, 那先前关于这个方向的所有工作等于没做, 你只积累到了背景知识, 但这个用处是非常有限的.
因此! 千万不要不舍得放弃!
在这种情况下, 你重新开工, 工作量并不显著大于你在死胡同里钻营下去, 而大多数时间都是浪费在霸王硬上弓上头的. 事实上, 那天我一晚上在图书馆里读文, 都是看了一篇, 丢开, 再看下一篇, 看了三篇完全不相关的文章, 随后便顺利地找到了猎物. 虽然白读了两篇, 但相比起霸王硬上弓浪费的时间实在算不了什么了. 况且, 转向并不代表你完全放弃你研究的领域, 在同一个领域里也可以转向――――前提是什么?PRELIMINARY DATA决定一切――――这个应该已经很清楚了.
总而言之,Review 和Original Article各有千秋, 从Review vs Original Article这一话题说开去, 我其实仍然在重复强调Preliminary Data的至高无上性. 同Preliminary Data更短的距离是我更看好Original Article的原因, 但合理利用Review 可以为Preliminary Data的寻找指明方向. 然而, 这么做的前提是, 对于Review 中的预测和方向, 必须时刻有一种“革命尚未成功, 同志还需努力”的谨慎和保留. 如果这些预测和方向在Preliminary Data铁铸的事实面前败下阵来了, 那么需要有随时转向的勇气和准备. 在Original Article和Review 之间其实可以选择一条两全其美的
中间道路, 那就是, 选择研读方向性和针对性强的Short Review,以及研读背景资料翔实, 讨论深入彻底的Long Article. 前者通常出现在“Trends in”这一系列中. 后者则在“Cell”系列和“Genes and Development”这一系列中出现. 这样可以避免花太多时间阅读Review 中过于博杂和无关的信息, 也可以在读Article 的时候有更多的背景资料支持.
下一篇将讲述Hypothesis 形成的一些成功和失败定式.
吹尽狂沙始得金――――Hypothesis 的形成过程
Hypothesis 的形成过程是Preliminary Data积累的过程. 这个过程通常表现为积少成多, 终至量变到质变, 看到胜利的曙光. 然而, 在曙光尚未跃入眼帘之前, 这个过程常常充满了迷茫和未知, 而你会感到自己在伸手不见五指的黑暗中摸索一般孤独和无助. 上一篇说的是如何通过合理选择起点使自己在决定上路之前先行确认前方的曙光, 从而避免在死胡同中耗费时光和精力. 而这一篇则会介绍捕获曙光的经验――――Hypothesis 形成的常见定式, 以及在寻找Hypothesis 的过程中可能陷入的误区.
定式1:转变系统
敏锐捕捉这一定式通常能够达到一击中的的效果. 所谓“转变系统”,是指作者研究基因在A 系统中导致某一生理作用的分子机理, 而为了方便起见而把这一机理搬到更简单的B 系统中进行分析. 这种情况下,Hypothesis 就是验证在B 系统中发现的分子机理是否正是在A 系统中导致该生理效果的机理. 这是极为简洁明了的, 有例为证:
基因C 是在蜗牛神经元中导致Long term potential生成必须的. 该基因的已知作用是通过结合mRNA 的Poly A Tail 促进蛋白翻译. 为了研究该基因的作用机理, 作者发现该基因有Prion Motif.将基因C 表达在酵母中, 发现该蛋白可以存在为不溶的Prion 形式, 而只有在其Prion 状态下该蛋白才能结合Poly A Tail以及促进蛋白翻译.Hypothesis 立刻得到, 就是, 验证该基因C 是否也通过其Prion 状态在蜗牛神经元中介导Long term potential.(大意转自MCB2003级某Abstract)
这一定式离Hypothesis 的唯一距离就是验证是否能在A 系统中做B 系统中所做的机理研究. 比如说, 当这位同学验证了能在蜗牛神经元中执行Transformation 和Knock-out 操作之后, 最后实验技术上的障碍也就被排除而大功告成了.
值得一提, 所谓“转变系统”,不止限于在两种生物系统之间转换.“in vitro”和“in vivo”的切换也在其列. 如果有论文只做了in vitro而不放到in vivo当中测一下, 那也是给了你出Hypothesis 的绝佳机会, 不过这种论文越来越少了.
另外乱入一下, 我本人课题的一部分就是属于这个定式的. 我们实验室在酵母中发现某肿瘤抑制基因的分子机理是调控Proteasome Function,于是当场出一Proposal 验证同样的机理是否也发生在人体细胞中. 这一proposal 为我骗到一个DOD(Department of Defense)奖学金, 这次回国签证大概派得上用场了……汗……扯远了.
定式2: 特殊性的决定
这也是一击中的的好素材:)作者发现, 同属一个Family 的某一新基因, 被发现同其他member 有着截然不同甚至相反的作用. 作者于是会在讨论中预测其特殊性是源自何方. 通过仔细分析该作者的讨论可能会立刻出Hypothesis, 那就是, 研究导致其特殊功能的分子机理. 这也是相当清晰的, 有例为证:
我去年的第一个Abstract. 读了一篇Cell 论文, 研究和脂肪代谢有关的PPAR FAMILY NUCLEAR RECEPTOR的一员:PPAR SIGMA.论文发现,PPAR SIGMA同前人研究的PPAR GAMMA功能截然相反. 两者一个可以促进脂肪分解代谢, 一个促进脂肪贮存; 一个使Mouse 变瘦, 一个使Mouse 变胖. 在讨论中, 作者提到, 两个核受体具有同样的DNA BINDING DOMAIN,于是, 我立刻出HYPOTHESIS, 就是ACTIVATION DOMAIN决定特殊性, 并很可能是通过招募不同的CO-ACTIVATOR.
这一定式的要求是必须对分子结构, 结构域和结构-功能关系有非常清楚的认识, 这正是这一定式出HYPOTHESIS 必不可少的Preliminary Data.少了这些数据, 就没有东西好HYPOTHESIZE 了.
定式3: 因果关系论证
一个典型例子是我去年的第三篇Abstract, 前一篇中已有提及. 这里将就这个定式深入讨论一下, 因为绝大多数的Hypothesis 其实都是因果关系论证来的. 大家的Hypothesis 不外乎都是验证是否事件A 导致事件B, 或者分子A 导致功能B, 或者分子A 通过机理B 导致功能C, 等等.
因果关系论证, 在我的例子中表现为:A同时导致B 和C, B又有导致C 的可能, 推测即:B为因而C 为果. 这个逻辑推理中, 关键是什么? 正是: B有导致C 的可能. 这是一切因果关系论证最重要的Preliminary Data.如果B 和C 是风马牛不相及, 任何关于因果关系的推测立刻降格为Speculation.
除了上述例子之外, 因果关系论证还可以有其他表现形式. 比如说, 颠倒上文一例中的形式, 因果关系论证可表现为: “A可以导致C,B 也可以导致C; 而A 能够导致B,Hypothesis 即为:在A 导致C 的机理中, B是必须的. 关键的Data 是:A能够导致B.”
举例:巨噬细胞在吞噬过程中形成伪足需要某一个ADP-ribose 结合蛋白Arf6, 该蛋白能促进细胞膜运输, 从而生成
伪足. 同时, 另一篇文章发现, 在巨噬细胞生成伪足过程中, 蛋白AP-1结合到伪足. 而蛋白AP-1是Clathrin 结合蛋白, 同膜泡运输有关. 总结这些数据,Arf6可以导致细胞膜运输, 而AP-1又可以作为Clathrin 结合蛋白促进膜泡运输. 这种情况下, 是不是可以Hypothesize:Arf6介导的细胞膜运输需要AP-1-clathrin 的膜泡机理呢? 如上面说的, 关键的Data 是A 和B 两个原因之间的关系, 也就是Arf6和AP1之间的关系.Okay, 找到了, 有证据表示Arf6能把AP1 recruit到伪足上去, 现在大功告成, 该因果关系论证成立.
再进一步, 因果关系论证几乎无处不在. 在第一个形式中,B 和C 不一定都是现象或功能,B 和C 可以是具有不同性质的――――例如,B 是一个结构域,C 是一个功能. 形式即为:“C生物功能需要A 蛋白,A 蛋白具有B 结构域, 而B 结构域在其他相关蛋白中被证实是和C 生物功能密切相关的.Hypothesis 就是,A 通过B 结构域的分子机理介导C 生物功能.”因此, 在产生想法的时候, 需要随时分析你的Hypothesis 究竟研究的是什么因果关系, 什么是你propose 的因, 而什么是你propose 的果? 是什么导致你认定其一为因而其二为果? 为什么不是反其道而行之? 等等
举一个失败例:
有科研发现,Schwann 神经细胞的髓鞘形成需要NF-kB 的作用, 而独立的研究发现, 许多髓鞘蛋白的表达需要Transcription Factor Krox-20.于是, 作者hypothesize: NF-kB通过激活Krox-20来促进髓鞘蛋白表达以及髓鞘形成. 这个Hypothesis 的问题出在哪里? 正是在于没有任何preliminary data证实Krox-20和NF-kB 有任何关系, 因此没有足够的preliminary data支持这个Hypothesis. 解决方法在哪里呢? 很简单, 去搜一下Krox-20的上游promoter region,看看有没有NF-kB 的element, 如果有的话, 因果关系就被支持了, 否则这就只是个Speculation 而已.
定式4: 类比
一个完全类比的形式是:有两个系统, 各有一对事件A 和B. 在系统1中,A1导致B1. 而A1类似于A2,B1类似于B2. 于是推测为:在系统2中,A2导致B2. 之所以说这个形式不常见, 是在于, 需要太多的Preliminary Data,你必须证明系统1和系统2的类似,A1和A2的类似, 以及B1和B2的类似. 缺一则不可, 因此这并不是一个非常好的Hypothesis 起点――――半途夭折的可能性太大了. 这里只举一个例子.
PDGF 和EGF 的信号传导必需Focal Adhesion Kinase (FAK). FAK在PDGF 和EGF 的激活下结合到PDGFR 和EGFR 上去, 这个作用需要FAK 同INTEGRIN 结合, 并且需要一个完整的Actin Cytoskeleton.在另一个Pathway: TNF 信号传导中, FAK也在TNF 激活下结合到TNFR 上去, 并且FAK 是TNF 信号传导必需的. 因此形成一个完整的类比: 1).PDGF-EGF pathway类似于TNF pathway. 2).PDGF/EGF的激活类似于TNF 的激活. 3). FAK结合到相关膜受体以及激活也是类似的. 因此Hypothesis 就是, TNF导致的FAK 结合与激活需要完整的actin cytoskeleton
以及FAK 同integrin 的结合.
通过介绍以上四种常见定式, 应该对Preliminary Data在形成Hypothesis 中的核心作用, 以及如何通过阅读和思考指导自己寻求Preliminary Data有了进一步的认识. 我必须指出, Hypothesis其实不应该有定式, 也不仅仅限于我所列举的堪堪四种形式, 只是其中的逻辑思考方式, 以及用Preliminary Data来维系逻辑推理的观念, 是形成Hypothesis 的必由之路. 其实, 以上四种定式, 彼此之间也是互通的. 因果关系论证可能是通过转换系统来完成的, 类比和转换系统也有一定的相关性.
最后, 在结束对Hypothesis 的讨论之前, 列举以下问题: 每当你有某种想法的时候, 问自己这三个问题, 会有助于发现自己Hypothesis 的潜在缺陷和找寻可能失落的preliminary data:
Question #1: In your hypothesis, what is the possibility you are going to test?
Question #2: What are the other possibilities that you are trying to rule out?
Question #3: What leads you to favor the possibility you are currently testing, not others?
21
清大彭明辉教授的研究生手册
看来这是一帖解药, 专治学术知识焦虑症, 尤其针对所谓的期刊论文特别有效喔!
做Research 的人参考看看吧~~
一. 论文的要求
我对硕士论文的基本要求是:(1)论文的主要内容, 是叙述一套方法在一个特定场合中的应用.(2)这套方法必须要有所创新或突破, 并因而对学术界有所贡献. 因此, 它或者是解决既有问题的新方法, 或者是既有方法的新应用, 或者是以一个新的方法开启一整片新 的应用领域.(3)在论文中, 你必须要有能力提出足够的证据来让读者信服说:针对这个应用场合, 你所提出来的方法确实有比文献中一切既有方法更优越之处.(4)此外, 你必 须要能清楚指出这个方法在应用上的限制, 并且提出充分证据来说服读者:任何应用场合, 只要能够满足你所提出来的假设(前提) 条件, 你的方法就一定适用, 而且你所描述的 优点就一定会存在.(5)你还必须要在论文中清楚指出这个方法的限制和可能的缺点(相对于其它文献上的既有方法, 或者在其它应用场合里). 假如这个方法有任何重大缺点, 在口试时才被口试委员指出来, 其后果有可能是论文无法通过.(6)行文风格上, 它是一 篇论证严谨, 逻辑关系清晰, 而且结构有条理的专业论述. 也就是说, 在叙述你的方法的过程, 你必须要清清楚楚地交代这个方法的应用程序以及所有仿真或实验结果的过程, 使 得这个专业领域内的任何读者, 都有办法根据你的描述, 在他的实验室下复制出你的研究 成果, 以便确定你的结论确实是可以「在任何时间, 任何地点, 任何人」都具有可重复性(可重复性是「科学」的根本要求).(7)而且, 你对这个方法的每一个步骤都必须要提供充分的理由说明「为什么非如此不可」.(8)最后, 你的论文必须要在适当位置清楚注明所有和你所研究之题目相关的文献. 而且, 你必须要记得:只要是和你所研究的问题相关的学术文献(尤其是学术期刊论文), 你都有必要全部找出来(如果漏掉就是你的过失), 仔细读过. 假如你在学位论文口试时, 有口试委员指出有一篇既有文献, 在你所讨论的问题中处理得比你的方法还好, 这就构成你论文无法及格的充分理由.(9)第(2)款所谓「对学术界的贡献」, 指的是:把你的所有研究成果扣除掉学术界已经发表过的所有成果(不管你实际上有没有参考过, 没有参考过也算是你的重大过失), 剩下的就是你的贡献. 假如这个贡献太少, 也构成你论文无法及格的充分理由.
上面所叙述的九款要件中, 除第(2)款之外, 通通都是必须要做到的, 因此没有好坏之分. 一篇硕士论文的好坏(以及成绩的评定标准), 主要是看第(2)款所谓「对学术界的贡献」的多寡与重要性而定. 假如你要申请国外的博士班, 最重要的也是看你的硕士论文有什么「贡献」而定(这往往比TOFEL,GRE,GPA 还重要). 一个判断硕士论文的好坏有一个粗浅办法:假如你的研究成果可以在国外著名学术期刊(journals,而非magazines) 上发表, 通常就比一篇只能在国外学术会议(conferences)上发表的硕士论文贡献多; 一篇国外学术会议的论文又通常比无法发表的论文贡献多; 在国际顶尖学术期刊上发表的论文通常比一篇二流的学术期刊论文贡献多.SCI 有一种叫做Impact
Factor 的指数, 统计一个期刊每篇论文被引述的次数. 通常这个次数(或指数) 愈高, 对学术界的影响力就愈大. 以机械视觉相关领域的期刊而言,Impact Factor在1.0以上的期刊, 都算是顶尖的期刊. 这些期刊论文的作者, 通常是国外顶尖学府的著名教授指导全球一流的博士生做出来的研究成果.
二. 完成硕士论文所需要的能力
从前面的叙述可以归纳出来, 完成硕士论文所需要的能力包括以下数项, 依它们的培养先后次序逐项讨论.
(1)数据检索的能力:在给定(或自己拟定) 的题目范围内, 你必须有能力利用数据检索 系统(尤其是教育部「博硕士论文检索系统」,Compendex 和SCI 这三套论文数据索引系统), 查出所有相关的论文, 而无任何遗漏(否则你可能在论文口试时才发现同一个题目已经有人发表过了). 你到底要用什么样的关键词和查所程序去保证你已经找出所有相关的文献? 这是第一个大的挑战. 每一组关键词(包含联集与交集) 代表一个论文所构成的集合, 假如你用的关键词不恰当, 你可能找到的集合太小, 没有涵盖所有的相关文献; 假如你用的关键词太一般化(譬如「image 」), 通常你找到的集合会太大, 除了所有相关文献之外还加上好几十倍的毫不相关的文献.
(2)资料筛选的能力:即使你使用了恰当的搜寻策略, 通常找到的文献集合都还是明显地比你所需要的集合大, 而且通常文献比数大概在一两百篇或数百篇之间, 而其中会和你的 的研究子题直接且密切相关的论文, 通常只有廿, 卅篇左右. 你如何可以只读论文的题目, 摘要, 简介和结论, 而还没有完全看懂内文, 就准确地判断出这篇论文中是否有值得你进一步参考的内容, 以便快速地把需要仔细读完的论文从数百篇降低到廿, 卅篇? 这考验着你从事资料筛选的能力.
(3)期刊论文的阅读能力:期刊论文和大学部的课本截然不同. 大学部的课本是寻次渐进地从最基本的知识背景逐步交代出整套有系统的知识, 中间没有任何的跳跃, 只要你逐页读下去, 就可以整本都读懂, 不需要在去别的地方找参考数据. 但是期刊论文是没头没尾的十几页文献, 只交代最核心的创意, 并援引许多其它论文的研究成果(但只注明文献出处, 而完全没有交代其内容). 因此, 要读懂一篇论文, 一定要同时读懂数篇或十数篇被援引的其它论文. 偏偏, 这十几篇被援引的论文又各自援引十数篇其它论文. 因此, 相对于大学部的教科书而言, 期刊论文是一个极端没有系统的知识, 必须要靠读者自己从几十篇论文中撷取出相关的片段, 自己组织成一个有系统的知识, 然后才有办法开始阅读与吸收. 要培养出这种自己组织知识的能力, 需要在学校靠着大量而持续的时间去摸索, 体会, 而不可能只利用业余的零星时间去培养. 因此, 一个大学毕业后就不再念研究所的学生, 不管他在大学部有多优秀, 都很难在工业界利用业余的时间去培养出这种能力. 所以, 硕士毕业生和大学毕业生最大的差别, 就是:学士只学习过吸收系统知识的能力(也就是读别人整理, 组织好的知识, 典型的就是课本); 但硕士则学习过自己从无组织的知识中检索,
筛选, 组织知识的能力.
(4)期刊论文的分析能力:为了确定你的学位论文研究成果确实比所有相关的学术期刊论文都更适合处理你所拟定的应用场域, 首先你必须要有能力逐篇分析出所有相关期刊论文的优点与缺点, 以及自己的研究成果的优点与缺点, 然后再拿他们来做比较, 总结出你的论文的优点和缺点(限制). 但是, 好的期刊论文往往是国外著名学府的名师和一流的博士生共同的研究成果, 假如你要在锁定的应用场域上「打败」他们, 突出自己的优点, 这基本上是一个极端困难的挑战. 即使只是要找出他们的缺点, 都已经是一个相当困难的工作了. 一个大学毕业生, 四年下来都是假定「课本是对的」这样地学下来的, 从来没有学习如何分析课本知识的优缺点, 也就是「只有理解的能力, 而没有批判的能力」. 硕士生则必须要有「对一切既有进行精确批判」的能力. 但是, 这个批判并非个人好恶或情绪化的批判, 而是真的找得到充分理由去支持的批判. 这个批判的能力, 让你有能力自己找到自己的优, 缺点, 因此也有机会自己精益求精. 所以, 一个大学毕业生在业界做事的时候, 需要有人指导他(从事批判性检验), 帮他找出缺点和建议改进的可能性. 但是, 一个严格训练过的合格硕士, 他做事的时候应该是不需要有人在背后替他做检证, 他自己就应该要有能力分析自己的优, 缺点, 主动向上级或平行单位要求支持. 其实, 至少要能够完成这个能力, 才勉强可以说你是有「独立自主的判断能力」.
(5)创新的能力:许多大学毕业的工程师也能创新, 但是硕士的创新是和全世界同一个学术团体内所有的名师和博士生挑战. 因此, 两者是站在不同的比较基础上在进行的:前者往往是一个企业内部的「闭门造车」, 后者是一个全球的开放性竞争. 其次, 工程师的创新往往是无法加以明确证明其适用条件, 但是学术的创新却必须要能够在创新的同时厘清这个创新的有效条件. 因此, 大学毕业生的主要能力是吸收既有知识, 但硕士毕业生却应该要有能力创造知识. 此外, 台湾历年来工业产品的价位偏低, 这一部分是因为国际大厂的打压以及国际消费者的信任不易建立. 但是, 另一方面, 这是因为台湾的产品在质量上无法控制, 因此只好被当作最粗糙的商品来贩卖. 台湾的产品之所以无法有稳定的质量, 背后的技术原因就是:各种创新都是只凭一时偶然的巧思, 却没有办法进一步有系统地厘清这些巧思背后可以成立的条件. 但是, 创新其实是可以有一套「有迹可寻」的程序的, 这是我最得意的心得, 也是我最想教的.
三. 为什么要坚持培养阅读与分析期刊论文的能力我所以一直坚持要训练研究生阅读与分析期刊论文的能力, 主要是为了学生毕业后中长期的竞争力着想.
台湾从来都只生产国外已经有的产品, 而不事创新. 假如国外企业界比国外学术的技术落后三年, 而台湾的技术比国外技术落后五年, 则台湾业界所需要的所有技术都可以在国外学术期刊上找到主要的理论依据和技术核心构想(除了一些技术的细节和know how之外). 因此, 阅读期刊的能力是台湾想要保持领先大陆技术的必备条件. 此外,
只要能够充分掌握阅读与分析期刊论文的技巧, 就可以水到渠成地轻松进行「创新」的工作. 所以, 只要深入掌握到阅读与分析期刊论文的技巧, 就可以掌握到大学生不曾研习过的三种能力:(1)自己从无组织的知识中检索, 筛选, 组织知识的能力,(2)对一切既有知识进行精确批判的独立自主判断能力,(3)创造新知识的能力. 创新的能力在台湾一直很少被需要(因为台湾只会从国外买整套设备, 制程和设计与制造的技术). 但是, 大陆已经成为全球廉价品制造中心, 而台商为了降低成本也主动带技术到大陆设厂(包括现在的晶元代工), 因此整个不具关键性技术的制造业都会持续往大陆移动; 甚至IC 的设计(尤其数字的部分) 也无可避免地会迅速朝向「台湾开系统规格, 进行系统整合, 大陆在前述架构下开发特定数位模块」的设计代工发展. 因此, 未来台湾将必然会被逼着朝愈来愈创意密集的创意中心走(包括商务创意, 经营创意, 产品创意, 与技术创新). 因此, 不能因为今天台湾的业界不需要创新的能力, 就误以为自己一辈子都不需要拥有创新的能力. 我在协助民间企业发展技术研发的过程中, 碰到过一位三十多岁的厂长. 他很聪明, 但从小家穷, 被环境逼着去念高工, 然后上夜校读完工专. 和动态性能(bandwidth,response speed 等) 无关的技术他都很深入, 也因为产品升级的需要而认真向我求教有关动态性能的基本观念. 但是, 怎么教他都不懂, 就只因为他不懂工程数学. 偏偏, 工程数学不是可以在工厂里靠自修读会的. 一个那么聪明的人, 只因为不懂工数, 就注定从三十岁以后一辈子无法在专业上继续成长! 他高工毕业后没几年, 廿多岁就当课长, 家人与师长都以他为荣; 卅岁当厂长, 公司还给他技术股, 前途无量; 谁想得到他会在卅岁以后被逼着「或者升级, 或者去大陆, 或者失业」? 每次想起这位厂长, 看着迫不急待地要到台积电去「七年赚两千万退休金」的学生, 或者只想学现成可用的技术而不想学研究方法的学生, 我总忍禁不住地要想:十年后, 我教过的学生里, 会不会有一堆人就只因为不会读期刊论文而被逼提前退休? 再者, 技术的创新并不是全靠聪明. 我熟谙一套技术创新的方法, 只要学会分析期刊论文的优缺点, 就可拿这套方法分析竞争对手产品的优缺点; 而且, 只要再稍微加工, 就可以从这套优缺点的清单里找到突破瓶颈所需的关键性创意. 这套创新程序, 可以把「创新」变成不需要太多天分便可以完成的事, 从而减轻创意的不定性与风险性. 因此, 只要会分析论文, 几乎就可以轻易地组合出你所需要的绝大部分创意. 聪明是不可能教的, 但这套技巧却是可以教的; 而且只要用心, 绝大部分硕士生都可以学会. 就是因为这个原因, 我的实验室整个训练的重心只有一个:通过每周一次的group meeting,培养学生深入掌握阅读与分析期刊论文的技巧, 进而培养他们在关键问题上突破与创新的能力.
四. 期刊论文的分析技巧与程序
一般来讲, 好的期刊论文有较多的创意. 虽然读起来较累, 但收获较多而深入, 因此比较值得花心思去分析. 读论文之前, 参考SCI Impact Factor 及学长的意见是必要的.
一篇期刊论文, 主要分成四个部分.
(1)Abstract:
说明这篇论文的主要贡献, 方法特色与主要内容. 最慢硕二上学期必须要学会只看Abstract 和Introduction 便可以判断出这篇论文的重点和你的研究有没有直接关连, 从而决定要不要把它给读完. 假如你有能力每三十篇论文只根据摘要和简介便能筛选出其中最密切相关的五篇论文, 你就比别人的效率高五倍以上. 以后不管是做事或做学术研究, 都比别人有能力从更广泛的文献中挑出最值得参考的资料.
(2)Introduction:
Introduction 的功能是介绍问题的背景和起源, 交代前人在这个题目上已经有过的主要贡献, 说清楚前人留下来的未解问题, 以及在这个背景下这篇论文的想解决的问题和它的重要性. 对初学的学生而言, 从这里可以了解以前研究的概况. 通常我会建议初学的学生, 对你的题目不熟时, 先把跟你题目可能相关的论文收集个30~40篇, 每篇都只读Abstract 和Introduction, 而不要读Main Body(本文), 只在必要时稍微参考一下后面的Illustrative examples和Conclusions, 直到你能回答下面这三个问题:(2A)在这领域内最常被引述的方法有哪些?(2B)这些方法可以分成哪些主要派别(2C)每个派别的主要特色(含优点和缺点) 是什么? 问题是, 你怎么去找到这最初的30~40篇论文? 有一种期刊论文叫做「review paper」, 专门在一个题目下面整理出所有相关的论文, 并且做简单的回顾. 你可以在搜寻Compendiix 时在keywords 中加一个「review 」而筛选出这类论文. 然后从相关的数篇review paper 开始, 从中根据title 与Abstract 找出你认为跟你研究题目较相关的30~40篇论文. 通常只要你反复读过该领域内30~40篇论文的Abstract 和Introduction, 你就应该可以从Introduction 的评论中回答(2A)和(2B)这两个问题. 尤其要记得, 当你阅读的目的是要回答(2A)和(2B)这两个问题时, 你一定要先挑那些Introduction 写得比较有观念的论文念(很多论文的Introduction 写得像流水帐, 没有观念, 这种论文刚开始时不要去读它). 假如你读过假如30~40篇论文的Abstract 和Introduction 之后, 还是回答不了 2C),先做下述的工作. 你先根据(2A)的答案, 把这领域内最常被引述的论文找齐, 再把他们根据(2B)的答案分成派别, 每个派别按日期先后次序排好. 然后, 你每次只重新读一派的Abstract 和Introduction(必要时简略参考内文, 但目的只是读懂Introduction 内与这派有关的陈述, 而不需要真的看懂所有内文), 照日期先后读, 读的时候只企图回答一个问题:这一派的创意与主要诉求是什么? 这样, 你逐派逐派地把每一派的Abstract 和Introduction 给读完, 总结出这一派主要的诉求, 方法特色和优点(每一篇论文都会说出自己的优点, 仔细读就不会漏掉). 其次, 你再把这些论文拿出来, 但是只读Introduction, 认真回答下述问题「每篇论:文对其它派别有什么批评? 」然后你把读到的重点逐一记录到各派别的「缺点」栏内.
通过以上程序, 你就应该可以掌握到(2A),(2B),和(2C)三个问题的答案. 这时你对该领域内主要方法, 文献之间的关系算是相当熟捻了, 但是你还是只仔细读完Abstract 和Introduction 而已, 内文则只是笼统读过. 这时候, 你已经
掌握到这领域主要的论文, 你可以用这些论文测试看看你用来搜寻这领域论文的keywords 到底恰不恰当, 并且用修正过的keywords 再搜寻一次论文, 把这领域的主要文献补齐, 也把原来30~40篇论文中后来发现关系较远的论文给筛选掉, 只保留大概20篇左右确定跟你关系较近的文献. 如果有把握, 可以甚至删除一两个你不想用的派别(要有充分的理由), 只保留两, 三个派别(也要有充分的理由) 继续做完以下工作. 然后你应该利用(2C)的答案, 再进一步回答一个问题(2D):「这个领域内大家认为重要的关键问题有哪些? 有哪些特性是大家重视的优点? 有哪些特性是大家在意的缺点? 这些优点与缺点通常在哪些应用场合时会比较被重视? 在哪些应用场合时比较不会被重视? 」然后, 你就可以整理出这个领域(研究题目) 主要的应用场合, 以及这些应用场合上该注意的事项.
最后, 在你真正开始念论文的main body之前, 你应该要先根据(2A)和(2C)的答案, 把各派别内的论文整理在同一个档案夹里, 并照时间先后次序排好. 然后依照这些派别与你的研究方向的关系远近, 一个派别一个派别地逐一把各派一次念完一派的main bodies.
(3)Main body(含simulation and/or experimental examples):
在你第一次有系统地念某派别的论文main bodies时, 你只需要念懂:(3A)这篇论文的主要假设是什么(在什么条件下它是有效的), 并且评估一下这些假设在现实条件下有多容易(或多难) 成立. 愈难成立的假设, 愈不好用, 参考价值也愈低.(3B)在这些假设下, 这篇论文主要有什么好处.(3C)这些好处主要表现在哪些公式的哪些项目的简化上. 至于整篇论文详细的推导过程, 你不需要懂. 除了三, 五个关键的公式(最后在应用上要使用的公式, 你可以从这里评估出这个方法使用上的方便程度或计算效率, 以及在非理想情境下这些公式使用起来的可靠度或稳定性) 之外, 其它公式都不懂也没关系, 公式之间的恒等式推导过程可以完全略过去. 假如你要看公式, 重点是看公式推导过程中引入的假设条件, 而不是恒等式的转换. 但是, 在你开始根据前述问题念论文之前, 你应该先把这派别所有的论文都拿出来, 逐篇粗略地浏览过去(不要勉强自己每篇或每行都弄到懂, 而是轻松地读, 能懂就懂, 不懂就不懂), 从中挑出容易念懂的papers, 以及经常被引述的论文. 然后把这些论文照时间先后次序依序念下去. 记得:你念的时候只要回答(3A),(3B)(3C)三个问题就好, 不要念太细. 这样念完以后, 你应该把这一派的主要发展过程, 主要假设, 主要理论依据, 以及主要的成果做一个完整的整理. 其次, 你还要在根据(2D)的答案以及这一派的主要假设, 进一步回答下一个问题:(3D)这一派主要的缺点有哪些. 最后, 根据(3A),(3B),(3C),(3D)的答案综合整理出:这一派最适合什么时候使用, 最不适合什么场合使用. 记住:回答完这些问题时, 你还是不应该知道恒等式是怎么导出来的! 当你是生手的时候, 你要评估一个方法的优缺点时, 往往必须要参考它的Examples. 但是, 要记得:老练的论文写作高手会故意只 present 成功的案例而遮掩失败的案例. 所以,simulation examples and/or experiments很棒不一定表示这方法真的很好. 你必须要回到这个方法的基本假设上去, 以及他在应用时所使用的主要公式(resultant equations)去, 凭自己的思考能力, 并且参考(2C)和(2D)的答案, 自己问问看:当某某假设在某些实用场合上无法成立时, 这个
方法会不会出什么状况? 猜一猜, 预测一下这个方法应该会在哪些条件下(应用场合) 表现优异, 又会在哪些条件下(应用场合) 出状况? 根据这个猜测再检验一次simulation examples and/or experiments,看它的长处与短处是不是确实在这些examples 中充分被检验, 且充分表现出来. 那么, 你什么时候才需要弄懂一篇论文所有的恒等式推导过程, 或者把整篇论文细细读完?NEVER! 你只需要把确定会用到的部分给完全搞懂就好, 不确定会不会用到的部分, 只需要了解它主要的点子就够了.
硕士生和大学生最主要的差别:大学生读什么都必须要从头到尾都懂, 硕士生只需要懂他用得着的部分就好了! 大学生因为面对的知识是有固定的范围, 所以他那样念. 硕士生面对的知识是没有范围的, 因此他只需要懂他所需要的细腻度就够了. 硕士生必须学会选择性的阅读, 而且必须锻炼出他选择时的准确度以及选择的速度, 不要浪费时间在学用不着的细节知识! 多吸收「点子」比较重要, 而不是细部的知识.
图一:论文阅读流程图
五, 方法与应用场合特性表(有迹可寻的创意程序) 试着想象说你从上图中论文阅读步骤的第(4)与(5)步骤分别获得以下两张表:譬如, 当你的题目是「如何标定fiducial mark之中心位置」, 你就必须要仔细搜寻出文献上所有可能可以用来做这一个工作的方法. 或许你找到的方法一共有四种, 依序如下. 譬如(随便乱举例), 「方法一」可能表示:「以面积形心标定fiducial mark之中心位置」, 「方法二」可能表示「以Hugh transform标定fiducial mark之中心位置」, 「方法三」可能表示:「以局部弧形matching 的方法标定fiducial mark之中心位置」, 「方法四」可能表示:「以ring code标定fiducial mark之中心位置」. 这些方法各有它的特色(优缺点), 譬如(随便乱举例), 特性1可能表示「计算速度」(因此, 根据上表左边第一个row, 可以发现:方法一的计算速度很快, 方法二与方法三的计算速度很慢, 而方法四的计算速度普通. 其次, 特性2可能代表「光源亮度不稳定时计算位置的误差大小」, 特性3可能代表「噪声对计算出的位置干扰多大」, 特性4可能代表「图形边缘有破损时计算的可靠度」, 特性5可能代表「对象有彼此的遮蔽时方法的适用性」等等. 所以, 以上左图中第五个row 为例, 可以发现:当对象有彼此的遮蔽时, 除方法二之外其它三个方法的适用性都很好. 但是, 同样一个方法可能有许多不同的应用场合, 而不同应用场合可能会对适用(或最佳) 的方法有不同要求. 所以, 让我们来看右边的「问题特性分析表」. 譬如(随便乱举例), 应用甲可能是「标定fiducial mark之中心位置方法在「电路插件组装(SMT)里的应用, 应用乙可能是「标定fiducial mark 之中心位置」的方法在「生物检验自动化影像处理」里的应用, 而应用丙则可能是「标定fiducial mark之中心位置」的方法在「巡乂飞弹目标搜寻」里的应用. 这三种应用场合更有其关注的特性. 譬如, 根据上面右表第二个row 的资料, 三种应用场合对特性2(光源亮度不稳定时计算位置的误差大小) 都很在意. 再譬如, 根据上面右表第四个row 的数据, 三种应用场合中除了应用甲(电路插件组装(SMT))之外, 其它两种应用场合对特性4(图形边缘有破损时计算的可靠度) 都很在意.
那么, 四个方法中哪个方法最好? 你可能会回答说:「方法二! 因为它的优点最多, 缺点最少. 」但是, 这样的回答是错的! 一个方法只有优缺点, 而没有好坏. 当它被用在一个适合表现其优点而不在乎其缺点的场合里, 它就显得很好; 但是, 当它被用在一个不适合表现其优点而很在乎其缺点的场合里, 它就显得很糟. 譬如, 方法二在应用场合乙, 它的表现会非常出色(因为所有的优点刚好那个应用场合都在意, 而所有的缺点刚好那个应用场合都不在意); 但是, 方法二在应用场合甲里它的表现却会非常糟糕(它所有的缺点刚好那个应用场合都很在意, 而它大部分的优点刚好那个应用场合却都不在意). 所以, 必须要学会的第一件是就是:方法没有好坏, 只有相对优缺点点; 只有当方法的特性与应用场合的特性不合时, 才能下结论说这方法「不适用」; 二当当方法的特性与应用场合的特性吻合时, 则下结论说这方法「很适用」. 因此, 一定要同时有方法特性表与应用场合特性分析表放在一起后, 才能判断一个方法的适用性.
更重要的是:上面的方法与问题分析对照表还可以用来把「突破瓶颈所需的创意」简化成一种「有迹可寻」的工作. 譬如, 假定我们要针对应用甲发展一套适用的方法, 首先我们要先从上右表中标定这个应用场合关心哪些问题特性. 根据上右表第一个column, 甲应用场合只关心四个特性:特性1,2,3,5(即「计算速度」, 「光源亮度不稳定时计算位置的误差大小」, 「噪声对计算出的位置的干扰」, 「对象有彼此的遮蔽时方法的适用性」). 那么, 哪个方法最适用呢? 看起来是方法一, 它除了特性2表现普通之外, 其它三个特性的表现都很出色. 但是, 假如我们对方法一的表现仍不够满意, 怎么去改善它? 最简单的办法就是从上左表找现成的方法和方法一结合, 产生出一个更适用的方法. 因为方法一只有在特性2上面表现不够令人满意, 所以我们就优先针对在特性2上面表现出色的其它方法加以研究. 根据上左表, 在特性2上面表现出色的方法有方法二和方法四, 所以我们就去研究这两个方法和方法一结合的可能性. 或许(随便举例) 方法四的创意刚好可以被结合进方法一而改善方法一在特性2上面的表现, 那么, 我们就可以因此轻易地获得一个方法一的改良, 从而突破甲应用场合没有适用方法的瓶颈.
有没有可能说单纯常识结合既有方法优点仍无法突破技术瓶颈的状况? 可能有. 这时候真的需要完全新颖的创意了. 但是, 这种时候很罕见. 多半时候只要应用上一段的分析技巧就可以产生足以解决实用问题的创意了. 至少, 要产生出一篇学术期刊论文并非那么困难.
六. 论文阅读的补充说明
硕士生开始学读期刊论文时, 就容易犯的毛病就是戒除不掉大学部的习惯:(1)老是想逐行读懂, 有一行读不懂就受不了.(2)不敢发挥自己的想象, 读论文像在读教科书, 论文没写的就不会, 瘫痪在那里; 被我逼着去自己猜测或想象时, 老怕弄错作者的意思, 神经绷紧, 脑筋根本动不了.
大学毕业后(不管是念硕, 博士或工作), 可以参考的数据都没有秩序地交错成一团, 而且永远都读不完. 用大学生的心态读书, 结果一定时间永远不够用. 因此, 每次读论文都一定要带着问题去读, 每次读的时候都只是图回答你要回答的问题. 因此, 一定是选择性地阅读, 一定要逐渐由粗而细地一层一层去了解. 上面所规划的读论文的次序, 就是由粗而细, 每读完一轮, 你对这问题的知识就增加一层. 根据这一层知识就可以问出下一层更细致的问题, 再根据这些更细致的问题去重读, 就可以理解到更多的内容. 因此, 一定是一整批一起读懂到某个层次, 而不是逐篇逐篇地整篇一次读懂.
这样读还有一个好处:第一轮读完后, 可以根据第一轮所获得的知识判断出哪些论文与你的议题不相关, 不相关的就不需要再读下去了. 这样才可以从广泛的论文里逐层准确地筛选出你真正非懂不可的部分. 不要读不会用到的东西, 白费的力气必须被极小化! 其实, 绝大部分论文都只需要了解它的主要观念(这往往比较容易), 而不需要了解它的详细推导过程(这反而比较费时).
其次, 一整批一起读还有一个好处:同一派的观念, 有的作者说得较易懂, 有的说得不清楚. 整批读略过一次之后, 就可以规划出一个你以为比较容易懂的阅读次序, 而不要硬碰硬地在那里撞墙壁. 你可以从甲论文帮你弄懂以论文的一个段落, 没人说读懂甲论文只能靠甲论文的信息. 所以, 整批阅读很像在玩跳棋, 你要去规划出你自己阅读时的「最省力路径」.
大学部学生读东西一定要循规蹈矩, 你还没修过机械视觉相关课程之前可能也只好循规蹈矩地逐行去念. 但是一旦修过机械视觉相关课程, 许多论文中没被交代的段落你也已经可
以有一些属于你的想象(虽然有可能猜错, 尤其刚开始时经常猜错, 但没关系, 下面详述). 这些想象往往补足论文跳跃处最快速的解决方案. 其实, 一个大学毕业生所学已经很多了, 对许多是都可以有一个不太离谱的想象能力. 但是大部分学生却根本不敢去想象.
我读论文远比学生快, 分析远比学生深入, 主要的是我敢想象与猜测, 而且多年训练下来想象与猜测的准确度很高. 所以, 许多论文我根本不是「读懂」的, 而是「猜对」了!
假如猜错了怎么办? 不用怕! 猜完一后要根据你的猜测在论文里找证据, 用以判断你的猜测对不对. 猜对了, 就用你的猜测(其实是你的推理架构) 去吸收作者的信息与创意(这会比从头硬生生地去迁就作者的思路轻松而容易); 猜错了, 论文理会有一些信息告诉你说你错了, 而且因为猜错所以你读到对的答案时反而印象更深刻.
捌, 论文报告的要求与技巧
报告一篇论文, 我要求做到以下部分(依报告次序排列):
(1) 投影片第一页必须列出论文的题目, 作者, 论文出处与年份.
(2) 以下每一页投影片只能讲一个观念, 不可以在一张投影片里讲两个观念.
(3) 说明这篇论文所研究的问题的重点, 以及这个问题可能和工业界的哪些应用相关.
(4) 清楚交代这篇论文的主要假设, 主要公式, 与主要应用方式(以及应用上可能的解题流程).
(5) 说明这篇论文的范例(simulation examples and/or experiments),预测这个方法在不同场合时可能会有的准确度或好用的程度
(6) 你个人的分析, 评价与批评, 包括:(6A)这篇论文最主要的创意是什么?(6B)这些创意在应用上有什么好处?(6C)这些创意和应用上的好处是在哪些条件下才能成立?(6D)这篇论文最主要的缺点或局限是什么?(6E)这些缺点或局限在应用上有什么坏处?(6F)这些缺点和应用上的坏处是因为哪些因素而引入的?(6G)你建议学长学弟什么时候参考这篇论文的哪些部分(点子)?
一般来讲, 刚开始报告论文(硕一上学期) 时只要做到能把前四项要素说清楚就好了, 但是硕一结束后(暑假开始) 必须要设法做到六项要素都能触及. 硕二下学期开始的时候, 必须要做到六项都能说清楚.
注意:读论文和报告论文时, 最重要的是它的创意和观念架构, 而不是数学上恒等式推导过程的细节(顶多只要抓出关键的equation 去弩懂以及说明清楚即可). 你报告观念与分析创意, 别人容易听懂又觉得有趣; 你讲恒等式, 大家不耐烦又浪费时间.
摘自贝勒中国学生学者联谊会
这个题目下的文章应该永远标记为" 未完待续", 因为任何一个人的经验都不可能完全涵盖BAYLOR QUALIFYING EXAM的全部. 我只是抛砖引玉, 希望身为过来人的每一位能积极参与到这一群策群力的经验总结中来, 为正在和将要翻越此雄关的师弟师妹们点一盏航灯.
BCM 的QUALIFYING EXAM一般分为三个阶段,ABSTRACT--->PROPOSAL--->DEFENSE.ABSTRACT一定会被COMMITTEE 审阅, 而PROPOSAL 的审阅与否各个系尚不相同. 因此我这篇帖子就分成ABSTRACT 和PROPOSAL 两个阶段, 大体目录如下可能会有修改)
ABSTRACT
1. SELECT TOPIC
2. HYPOTHESIS
3. DESIGNING SPECIFIC AIMS
4. FINISHING UP AN ABSTRACT
PROPOSAL AND DEFENSE
1. GENERAL ORGANIZATION
2. EXPERIMENT DESIGN
3. FINISHING UP A PROPOSAL
4. FROM PROPOSAL TO DEFENSE
1. SELECT TOPIC
这是一切的开端, 是QUALIFYING EXAM中你唯一的机会, 你的选择使今后的四个月可能会轻松愉快而充满激情, 可能会荆棘遍布举步维艰, 更可能会将你引向一条死胡同. 选择TOPIC 的重要性因此不言而喻. 而选择TOPIC 根本没有秘诀可言, 说到底, 只是COMMON SENSE而已.
a. 选择你喜爱的课题
QUALIFYING EXAM是我们博士生涯的最大ACADEMIC 挑战, 可是它却不一定会成为我们真正意义上不堪重负的负担, 前提是你需要能够享受你所研究的课题. 选择一个你真正关心且感兴趣的课题, 价值正在于此------如果你能饶有兴趣地阅读文献, 带着激情设计你的课题和实验, 即使是QUALIFYING EXAM的四个月也会阳光明媚. 而这一切都由你选择.
b. 扬长避短
“隔行如隔山”这句名言的用处无所不在, 即使同为生物工作者, 我们也有各自的强项短处. 而你对你所要研究的领域的熟悉与否, 将直接决定你整个QUALIFYING EXAM中的工作量. 我知道大家都是科研精英, 即使踏入一个自己一无所知的领域也能迅速进入角色, 可是将更多的时间从恶补基础知识中抽出来, 放到课题设计上来, 岂不更好吗?
c. HYPOTHESIS决定一切
下一篇将会提到,HYPOTHESIS 是QUALIFYING EXAM的灵魂, 也是决定你课题的最大客观因素. 课题设计容易
进入的一个误区, 是对某一领域爱不释手, 以致锲而不舍地钻营, 却因为找不出HYPOTHESIS 而迷失方向. 当断必须断, 否则深陷泥潭进退两难就糟了. 这一点在下一篇中会更多提及. 一般来说, 三天之内如果没有明确的方向, 就应该严肃考虑转向.
d. 做最严格的把关人
这应该是贯穿整个QUALIFYING EXAM的真理. 没错,ABSTRACT,PROPOSAL……教授们会一道一道地替你把关, 让你相对安全地踏上最后DEFENSE 的讲坛, 然而, 最后胜利通过考试, 安全系数更主要地是由你自己把握. 早在ABSTRACT 期间, 你就应该将整个QUALIFYING EXAM中可能出现的问题尽可能多地都考虑到. 不止是Hypothesis 的有效性, 也应当包括到你实验计划的可行性, 以及相对关键步骤的必行性. 不要将任何可能毁掉整个PROPOSAL 的不安全因素留到第二阶段, 尽量避免出现你设计实验的时候发现关键实验中某种细胞根本无法被TRANSFORM 或者某个KNOCKOUT 会致死而你却想不出办法补救的乌龙事件.
总结之, 客观和主观因素都会影响到你的课题设计, 但是必须指出的是, 你并不需要在客观和主观因素中做出痛苦的抉择, 因为科研领域的广阔, 使得你一定能够找到你喜爱并擅长的, 并且能够给你HYPOTHESIS 的课题. 因此, 根据你的兴趣和知识开拓方向, 并由HYPOTHESIS 果断决定取舍, 是个人推荐的课题选择之路.
Baylor 绝大多数系的Qualifying Exam中, 衡量Proposal 的首要标准是:Hypothesis-Driven,因此没有hypothesis 就没有proposal.“What is your hypothesis”这个问题将会成为Qualifying Exam最早, 同样也是最首要的问题. 如上文提到的, 在Abstract 阶段, 任何一个找不到Hypothesis 的方向都是死胡同, 而找到一个完善的Hypothesis 则基本是完成Abstract 的充分条件. 此后叙述Background 和设计Aim 则是为了支持和验证Hypothesis, 一切都是围绕Hypothesis 展开的:
首先必须要弄清:什么是hypothesis? 辞典中hypothesis 的大致意思是“假设”.然而,Research 中对Hypothesis 更有诸多要求, 并非“假设”二字所能涵盖的. 因此需要在开头就明确指出Hypothesis 的定义和标准.
定义:Hypothesis是具有已知实验结果支持, 并能通过实验手段证实的科学推测.
可以看出, 这个定义包括了两个方面, 可概括为承上/启下.
1). 承上:Hypothesis必须具有已知实验结果支持.
没有 preliminary data就没有hypothesis. 科学是通过不断的数据积累向前发展, 过去的数据作为证据, 指导后来人的研究方向.Hypothesis 正是通过整合以往的发现用来向未知领域做合理开拓. 只有基于Preliminary data的推
测才能够方向明确而有可预知的成果, 才是合格的Hypothesis. 反之, 如果没有或者缺少preliminary data,则方向是难测的, 道路是曲折的, 希望是渺茫的, Hypothesis也就是不合格的. 这里乱入提一下科学词汇里Speculation 和Hypothesis 的区别. 两者都是科学推测, 区别仅在于是否有Preliminary Data支持而已. 而刚开始设计Proposal 的同学很经常犯的一个错误便是将推测基于自己的奇思异想上------大胆的Speculation 的确是推动科学向前发展的动力, 却并不能作为一篇Proposal 的基础.
没有“preliminary data”是设计Hypothesis 最大的误区,Faculty 经常挂在嘴边的Proposal 设计两大通病都是这方面的表现, 稍微深入谈一下.
其一.Interdependence:你的某些aim 需要其他aim 的结果作为支持才能继续进行. 其后果是你一个aim 的失败会导致相关实验无法进行. 比如说, 例1:你Propose 一个Kinase A通过磷酸化protein B, 因而将protein B translocate到nucleus 中, 从而在signal transduction pathway中发挥作用. 你propose 第一个aim:验证protein B是不是kinase A 的substrate. 第二个aim, 验证kinase A磷酸化protein B之后能不能使protein B转到核里面去. 这里大家看得比较清楚, 第一个aim 如果fail 了, 那第二个aim 也就没有立足之地.Interdependence 的根源在于已知Preliminary data 不足以支持Hypothesis, 而需要追加未知试验数据才行------归根是属于preliminary data不足. 必须指出的是,Interdependence 通常能够通过对Hypothesis 的小规模调整来加以矫正, 下文会有提及.
其二.Fishing Experiment:算是经典了, 大概Faculty 会老生常谈, 警钟长鸣, 我也相信不太会有同学走进这个误区, 不过作为Preliminary data缺乏的一个极端特例, 还是在这里提一下.Fishing Experiment就是你propose 在细胞中某一个功能必须有一个基因来完成, 而这个基因现在没有被找到, 于是你决定用screening 挖地三尺把这个基因挖出来研究之. 你的首要实验正是这个从基因组中“钓”出这个基因的screen, 因此才得“fishing”这一美名. 比如说, 例2:你发现被Dicer 切过的siRNA 需要两头被5’端磷酸化才能介导RNAi, 而目前还没有已知的kinase 来催化这个反应, 你于是决定做一个突变筛选来挖出这个基因来研究之……问题在于, 最重要的priliminary data------你这个基因都不知在何方. 同interdependence 一样,screen 一旦失败, 整个proposal 都完了. 同通常的interdependence 不同的是, 这是一条绝路.
然而, 必须提一下,Screen 不等同于Fishing Experiment,在Proposal 中设计Screen 作为Aim 是完全可行的, 而最根本的区别是在于不能让Screen 的未知结果作为整个Proposal 或是其他Aim 的研究对象.
2). 启下: Hypothesis必须是能够通过实验方法证明.
事实上,“Testability”正是科学同宗教或哲学之间的区别所在. 而课题设计的主干正是设计实验来验证Hypothesis
以期达到结论. 设计Hypothesis 的最初就应该考虑到”Testability”,否则在此后的Abstract 阶段便会一头撞进死胡同. 这同样是Abstract 阶段Faculty 通常枪毙Abstract 的主要原因之一.Hypothesis 的Untestability 可以来源于很多方面, 譬如上一篇提到的某细胞不能被transform 或者某基因knockout 会导致lethal 等等. 在Abstract 时期并没有必要面面俱到地考虑到所有方面, 因为Abstract 阶段,Faculty 注重“承上”多于“启下”.但必要的功课还是需要的, 如:
1. 合理挑选生物模型. 我听说过有人试图拿butterfly 做molecular biology,不是在开玩笑-_-
2. 找到相关实验的Reference. 这是事半功倍的捷径, 一篇合适的Reference 中通常已经替你把Material,Construct,Assay 都已经准备好了.
3. 确认一些至关重要的实验, 譬如说一个关键的Knockout 或者Truncation.
通过上面对Hypothesis 的大段叙述, 大家应该对Hypothesis 如何扩展成整个Abstract 或者Proposal 有一个大致的了解了.Hypothesis 是Proposal 的基石, 确认Hypothesis 之后, 向上通过“承上”,来叙述你的Preliminary Data,以此引导完成“Introduction/Background”;向下通过”启下”,设计你的Aim 和实验, 用以回答你在Hypothesis 中提出的问题, 完成整个课题设计. 所有的枝繁叶茂, 都从Hypothesis 开始. 具体事项会在“Finishing up an abstract”一节中提及.
特别提一下,Abstract 阶段重在“承上”,而Proposal 阶段重在“启下”.依此合理安排你的时间.
经过最初的概述, 关于hypothesis 的下一篇将结合实例加以分析.
Hypothesis (2)
这一篇以及下一篇将着重于Hypothesis 的形成过程, 并结合实例分析.
起点:从Article vs Review说起
在漫漫书海中起航, 究竟哪里才是合适的起点? 我个人一直主张从Original Article出发, 而这一点是我同不少同学有歧见之处――――诚然, 主张从Review 定大方向的同学不在少数. 溯源到Topic Hunting的起点, 我想先表述一下对这个问题的看法. 由上所述,Hypothesis 的关键在于preliminary data,因此hypothesis 的形成过程就是寻找和积累preliminary data的过程, 而当问及Preliminary data源自何方之时, 毫无疑问只能是最初的Article. 这也是我主张从Original Article出发的原因. 然而,Review 作为对某一领域多方面的概括和总结, 其在背景知识积累方面的作用是不可否认的. 因此, 简而言之, 这是一个“厚积”vs“薄发”的过程.
Review 的优缺点:
优点1. Review能最有效地使读者熟悉相关领域的科研背景和最新进展.
优点2. Review会对将来方向做细致的阐述, 在确定方向上经常能替读者代劳.
优点3. Review能使读者带着某些方向和目的去研读Original Article,而不是在黑暗中起路.
缺点1. Review中没有Preliminary Data,想以三两句话总结一篇论文是几乎不可能的.
缺点2. 你无法预测Review 中的预测究竟能作为Hypothesis 抑或只是Speculation, 直到你深入到Original Article当中去.
缺点3. Review的时效性不及Original Article,因为任何一项科学发现, 总是先出现在Original Article中, 其后在Review 里姗姗来迟的.
尤其是Review 的第二个缺点, 因为这是从Review Article开始的同学通常进入的误区(我本人去年也有惨痛经历).Review Article中因为没有原数据, 代之以加上作者个人的解释和筛选, 因此其中的猜测是具有强烈主观色彩的――――也就是说, 你根本没法从Review 中得知相关猜测究竟是Hypothesis 还是Speculation----而上文提到的, 两者的根本区别在于有没有Preliminary Data.其结果是你还是要去找Original Article来做出判断. 这本身其实并不能说是Review 的缺失, 相反, 这还可以说是Review 的一大作用――――使人带着方向和目的去读Article. 我想说的误区在于下一步:如果在查找原论著之后, 发现这只是Speculation, 那其后怎么办? 正确的做法是, 立即转向. 而不少人却会选择霸王硬上弓, 结果在一棵树上攀死.
说说我去年的经历吧:我的第二篇Abstract 是从一篇关于线粒体在细胞凋亡中的作用的Review 开始的. 综述中, 一个方向是Bax 和tBid 如何导致线粒体的permeabilization 和cytochrome C的释放. 作者详述了两个Model: Bax Oligomer Channel Model和PTP Model.然后非常神秘地提了一句:It remains to be determined which model is correct. 然后我一头扎进相关Article 中狂翻, 这两个Model 到底是怎么一回事. 结果是, 双方都振振有辞, 证据凿凿, 也就是说, 没有Preliminary Data来Favor 任何一个Model. 如上文说的, 我当时其实应该立刻转向了, 而如果我这么做的话, 损失的时间其实一天也不到. 但是, 我的选择正是在这个死胡同里面继续钻下去. 结果可想而知, 我牵强附会地设计了三个aim 来测究竟哪个model 是正确的. Faculty的评论让我汗颜无地, 原文大意如下:
“The weakness of this abstract is that it is too safe. Both models should be correct under some circumstances, and it does not promote current understanding by showing that both are correct.”
这就是Review 如双刃剑的一面. 它给你一个希望, 让你满怀憧憬地去Article 里寻找你梦寐以求的Preliminary Data, 却在希望破灭之后使你难下决心撒手. 它总是在不远的前方留下些许光亮, 让你在荆棘遍地中摸索前行, 却最终发现自己的目标可望而不可及.Speculation 给人留下的先入为主的印象通常太难以抗拒了. 如果你是一位相信从Review 之中确立方向的人, 一定要对此有足够的准备――――足够当断立断的准备和决心.
Review 中, 更糟糕的是――――绝大多数的猜测只是Speculation, 更有甚者, 有些Review Article中对未来的展望无法令你找出任何方向. 其结果是, 你无法Narrow Down,而在一个大方向中陷入迷茫. 无法Narrow Down,是另一个Review 开始的常见通病. 纵然你对这一领域的了解和积累到达冰冻三尺的境界, 只要你没有Hypothesis, 就没有一切.
接下来, 便说到Original Article了.Article 的优缺点有哪些呢?
优点1. 客观翔实――――Preliminary Data只有往Original Article当中去找. 其对未来方向的预测也是完全基于Preliminary Data的, 黑白经纬分明, 任何Speculation 都会在其面前无处遁形. 可以有效避免被误导.
优点2. 承前启后――――这其实只针对某些Original Article,如Cell, Genes&Dev等等. 这些文章都有非常详尽的背景和讨论, 其具体性不亚于Review. 因此, 背景资料不止来源于Review, 这些作品的背景资料能使你理解相关科研项目毫无障碍. 这些杂志的论文也是我之后将提到的, 寻找Topic 的绝佳起点.
优点3. 精确遴选――――方向性和针对性是Original Article的一大优势.Original Article的背景阐述同Review 不同, 并非面面俱到, 而是会遴选和浓缩相关课题的信息. 阅读Original Article能在很大程度上避免Narrow Down的难题.
优点4. 一击中的――――完全有可能从单独的一篇Article 中出Hypothesis. 我去年的第三篇Abstract 正是如此形成的, 乃至于事后有得来全不费功夫的感觉.
这里乱入一下, 说说我去年Qualifying Exam第三篇Abstract 的形成过程. 正如提到的, 其来源是一击中的. 那是一篇Cell 文章, 研究的是致癌基因Ras 导致细胞衰老的机理. 文章发现, 给细胞加Ras 能导致Telomere-independent senescence. 当探究机理的时候, 他们发现了两方面的现象. 首先, 细胞核里呈现异染色体化; 其次, 细胞衰老过程需要p16-Rb 的参与. 进一步研究Rb 为什么必不可少, 他们发现,Rb 在细胞衰老的时候结合到E2F promoter上面去, 并且promoter region出现显著的组蛋白H3甲基化和HP1结合, 再进一步,Histone Methyl Transferase (HMT)也被证明是senescence 必须的. 然后, 他们在讨论中提到, 因为Rb 具有结合HMT 的功能, 因此很可能是Rb 先结合到E2F promoter 上面去, 然后招来HMT, 甲基化组蛋白, 最后导致异染色体化. 当我读到这一猜测的时候, 从preliminary data 中我立刻判断出这可以成为Hypothesis, 因为这是一个典型的因果关系论证:A同时导致B 和C,B 又有导致C 的可能, 因此可以推测B 为因而C 为果, A通过B 导致C. Hypothesis就是: Rb induces Senescence-associated heterochromatin formation by nucleating heterochromatin at E2F sites.在因果论证确立之后, 设计aim 也就顺理成章了:
AIM1: 验证先因而后果. 通过Time-lapse Imaging和ChIP 来观察是不是Rb 结合先于异染色体化发生.
AIM2: 验证无果仍有因. 研究破坏异染色体化, 如破坏HMT 同Rb 的结合, 或者破坏HP1同甲基化组蛋白的结合, 是
否会影响Rb 的结合.
AIM3: 验证无因便无果. 研究破坏Rb 结合是否会破坏PROMOTER 甲基化和异染色体化. 再加一个充分性试验研究HMT 同E2F SITE的ARTIFICIAL 结合是否可以BYPASS 对RB 的需求.
那次我是晚上十点钟读的文, 半夜里就出了头绪, 此后的数天只不过是找资料确认实验的可行性而已. 归根截底, 是因为读到的猜测有原数据白纸黑字的支持, 因此坚如磐石般地确立了.Review 是无法达到这种效果的.
最后, 提到Original Article的一个最显著的缺点, 那就是你通常是两眼一摸黑地钻进去的. 不像你在Review 的指导下有方向地研读, 直接进Original Article的话, 你根本不知道方向会是什么, 直到你读完Article 之后才能理出个头绪. 然而, 我认为这并不能抹煞Article 作为起点的优点, 因为你开读第一篇Review 的时候也同样是两眼一摸黑, 更会因为缺少preliminary data把你带进一条Speculation 的不归路. 况且, 可以通过有选择性地读你所熟悉的领域内的原著来弥补这一缺点.
说到这里, 我想重提一下第一篇中强调的Topic Hunting通则之一, 那就是, 没有Hypothesis 必须果断转向, 没有Preliminary Data必须必须果断转向! 我的经验是, 读一篇没有方向的Review 等于没读, 读一篇没有方向的Article 等于没读, 当你确认你的方向出不了Hypothesis 的话, 那先前关于这个方向的所有工作等于没做, 你只积累到了背景知识, 但这个用处是非常有限的.
因此! 千万不要不舍得放弃!
在这种情况下, 你重新开工, 工作量并不显著大于你在死胡同里钻营下去, 而大多数时间都是浪费在霸王硬上弓上头的. 事实上, 那天我一晚上在图书馆里读文, 都是看了一篇, 丢开, 再看下一篇, 看了三篇完全不相关的文章, 随后便顺利地找到了猎物. 虽然白读了两篇, 但相比起霸王硬上弓浪费的时间实在算不了什么了. 况且, 转向并不代表你完全放弃你研究的领域, 在同一个领域里也可以转向――――前提是什么?PRELIMINARY DATA决定一切――――这个应该已经很清楚了.
总而言之,Review 和Original Article各有千秋, 从Review vs Original Article这一话题说开去, 我其实仍然在重复强调Preliminary Data的至高无上性. 同Preliminary Data更短的距离是我更看好Original Article的原因, 但合理利用Review 可以为Preliminary Data的寻找指明方向. 然而, 这么做的前提是, 对于Review 中的预测和方向, 必须时刻有一种“革命尚未成功, 同志还需努力”的谨慎和保留. 如果这些预测和方向在Preliminary Data铁铸的事实面前败下阵来了, 那么需要有随时转向的勇气和准备. 在Original Article和Review 之间其实可以选择一条两全其美的
中间道路, 那就是, 选择研读方向性和针对性强的Short Review,以及研读背景资料翔实, 讨论深入彻底的Long Article. 前者通常出现在“Trends in”这一系列中. 后者则在“Cell”系列和“Genes and Development”这一系列中出现. 这样可以避免花太多时间阅读Review 中过于博杂和无关的信息, 也可以在读Article 的时候有更多的背景资料支持.
下一篇将讲述Hypothesis 形成的一些成功和失败定式.
吹尽狂沙始得金――――Hypothesis 的形成过程
Hypothesis 的形成过程是Preliminary Data积累的过程. 这个过程通常表现为积少成多, 终至量变到质变, 看到胜利的曙光. 然而, 在曙光尚未跃入眼帘之前, 这个过程常常充满了迷茫和未知, 而你会感到自己在伸手不见五指的黑暗中摸索一般孤独和无助. 上一篇说的是如何通过合理选择起点使自己在决定上路之前先行确认前方的曙光, 从而避免在死胡同中耗费时光和精力. 而这一篇则会介绍捕获曙光的经验――――Hypothesis 形成的常见定式, 以及在寻找Hypothesis 的过程中可能陷入的误区.
定式1:转变系统
敏锐捕捉这一定式通常能够达到一击中的的效果. 所谓“转变系统”,是指作者研究基因在A 系统中导致某一生理作用的分子机理, 而为了方便起见而把这一机理搬到更简单的B 系统中进行分析. 这种情况下,Hypothesis 就是验证在B 系统中发现的分子机理是否正是在A 系统中导致该生理效果的机理. 这是极为简洁明了的, 有例为证:
基因C 是在蜗牛神经元中导致Long term potential生成必须的. 该基因的已知作用是通过结合mRNA 的Poly A Tail 促进蛋白翻译. 为了研究该基因的作用机理, 作者发现该基因有Prion Motif.将基因C 表达在酵母中, 发现该蛋白可以存在为不溶的Prion 形式, 而只有在其Prion 状态下该蛋白才能结合Poly A Tail以及促进蛋白翻译.Hypothesis 立刻得到, 就是, 验证该基因C 是否也通过其Prion 状态在蜗牛神经元中介导Long term potential.(大意转自MCB2003级某Abstract)
这一定式离Hypothesis 的唯一距离就是验证是否能在A 系统中做B 系统中所做的机理研究. 比如说, 当这位同学验证了能在蜗牛神经元中执行Transformation 和Knock-out 操作之后, 最后实验技术上的障碍也就被排除而大功告成了.
值得一提, 所谓“转变系统”,不止限于在两种生物系统之间转换.“in vitro”和“in vivo”的切换也在其列. 如果有论文只做了in vitro而不放到in vivo当中测一下, 那也是给了你出Hypothesis 的绝佳机会, 不过这种论文越来越少了.
另外乱入一下, 我本人课题的一部分就是属于这个定式的. 我们实验室在酵母中发现某肿瘤抑制基因的分子机理是调控Proteasome Function,于是当场出一Proposal 验证同样的机理是否也发生在人体细胞中. 这一proposal 为我骗到一个DOD(Department of Defense)奖学金, 这次回国签证大概派得上用场了……汗……扯远了.
定式2: 特殊性的决定
这也是一击中的的好素材:)作者发现, 同属一个Family 的某一新基因, 被发现同其他member 有着截然不同甚至相反的作用. 作者于是会在讨论中预测其特殊性是源自何方. 通过仔细分析该作者的讨论可能会立刻出Hypothesis, 那就是, 研究导致其特殊功能的分子机理. 这也是相当清晰的, 有例为证:
我去年的第一个Abstract. 读了一篇Cell 论文, 研究和脂肪代谢有关的PPAR FAMILY NUCLEAR RECEPTOR的一员:PPAR SIGMA.论文发现,PPAR SIGMA同前人研究的PPAR GAMMA功能截然相反. 两者一个可以促进脂肪分解代谢, 一个促进脂肪贮存; 一个使Mouse 变瘦, 一个使Mouse 变胖. 在讨论中, 作者提到, 两个核受体具有同样的DNA BINDING DOMAIN,于是, 我立刻出HYPOTHESIS, 就是ACTIVATION DOMAIN决定特殊性, 并很可能是通过招募不同的CO-ACTIVATOR.
这一定式的要求是必须对分子结构, 结构域和结构-功能关系有非常清楚的认识, 这正是这一定式出HYPOTHESIS 必不可少的Preliminary Data.少了这些数据, 就没有东西好HYPOTHESIZE 了.
定式3: 因果关系论证
一个典型例子是我去年的第三篇Abstract, 前一篇中已有提及. 这里将就这个定式深入讨论一下, 因为绝大多数的Hypothesis 其实都是因果关系论证来的. 大家的Hypothesis 不外乎都是验证是否事件A 导致事件B, 或者分子A 导致功能B, 或者分子A 通过机理B 导致功能C, 等等.
因果关系论证, 在我的例子中表现为:A同时导致B 和C, B又有导致C 的可能, 推测即:B为因而C 为果. 这个逻辑推理中, 关键是什么? 正是: B有导致C 的可能. 这是一切因果关系论证最重要的Preliminary Data.如果B 和C 是风马牛不相及, 任何关于因果关系的推测立刻降格为Speculation.
除了上述例子之外, 因果关系论证还可以有其他表现形式. 比如说, 颠倒上文一例中的形式, 因果关系论证可表现为: “A可以导致C,B 也可以导致C; 而A 能够导致B,Hypothesis 即为:在A 导致C 的机理中, B是必须的. 关键的Data 是:A能够导致B.”
举例:巨噬细胞在吞噬过程中形成伪足需要某一个ADP-ribose 结合蛋白Arf6, 该蛋白能促进细胞膜运输, 从而生成
伪足. 同时, 另一篇文章发现, 在巨噬细胞生成伪足过程中, 蛋白AP-1结合到伪足. 而蛋白AP-1是Clathrin 结合蛋白, 同膜泡运输有关. 总结这些数据,Arf6可以导致细胞膜运输, 而AP-1又可以作为Clathrin 结合蛋白促进膜泡运输. 这种情况下, 是不是可以Hypothesize:Arf6介导的细胞膜运输需要AP-1-clathrin 的膜泡机理呢? 如上面说的, 关键的Data 是A 和B 两个原因之间的关系, 也就是Arf6和AP1之间的关系.Okay, 找到了, 有证据表示Arf6能把AP1 recruit到伪足上去, 现在大功告成, 该因果关系论证成立.
再进一步, 因果关系论证几乎无处不在. 在第一个形式中,B 和C 不一定都是现象或功能,B 和C 可以是具有不同性质的――――例如,B 是一个结构域,C 是一个功能. 形式即为:“C生物功能需要A 蛋白,A 蛋白具有B 结构域, 而B 结构域在其他相关蛋白中被证实是和C 生物功能密切相关的.Hypothesis 就是,A 通过B 结构域的分子机理介导C 生物功能.”因此, 在产生想法的时候, 需要随时分析你的Hypothesis 究竟研究的是什么因果关系, 什么是你propose 的因, 而什么是你propose 的果? 是什么导致你认定其一为因而其二为果? 为什么不是反其道而行之? 等等
举一个失败例:
有科研发现,Schwann 神经细胞的髓鞘形成需要NF-kB 的作用, 而独立的研究发现, 许多髓鞘蛋白的表达需要Transcription Factor Krox-20.于是, 作者hypothesize: NF-kB通过激活Krox-20来促进髓鞘蛋白表达以及髓鞘形成. 这个Hypothesis 的问题出在哪里? 正是在于没有任何preliminary data证实Krox-20和NF-kB 有任何关系, 因此没有足够的preliminary data支持这个Hypothesis. 解决方法在哪里呢? 很简单, 去搜一下Krox-20的上游promoter region,看看有没有NF-kB 的element, 如果有的话, 因果关系就被支持了, 否则这就只是个Speculation 而已.
定式4: 类比
一个完全类比的形式是:有两个系统, 各有一对事件A 和B. 在系统1中,A1导致B1. 而A1类似于A2,B1类似于B2. 于是推测为:在系统2中,A2导致B2. 之所以说这个形式不常见, 是在于, 需要太多的Preliminary Data,你必须证明系统1和系统2的类似,A1和A2的类似, 以及B1和B2的类似. 缺一则不可, 因此这并不是一个非常好的Hypothesis 起点――――半途夭折的可能性太大了. 这里只举一个例子.
PDGF 和EGF 的信号传导必需Focal Adhesion Kinase (FAK). FAK在PDGF 和EGF 的激活下结合到PDGFR 和EGFR 上去, 这个作用需要FAK 同INTEGRIN 结合, 并且需要一个完整的Actin Cytoskeleton.在另一个Pathway: TNF 信号传导中, FAK也在TNF 激活下结合到TNFR 上去, 并且FAK 是TNF 信号传导必需的. 因此形成一个完整的类比: 1).PDGF-EGF pathway类似于TNF pathway. 2).PDGF/EGF的激活类似于TNF 的激活. 3). FAK结合到相关膜受体以及激活也是类似的. 因此Hypothesis 就是, TNF导致的FAK 结合与激活需要完整的actin cytoskeleton
以及FAK 同integrin 的结合.
通过介绍以上四种常见定式, 应该对Preliminary Data在形成Hypothesis 中的核心作用, 以及如何通过阅读和思考指导自己寻求Preliminary Data有了进一步的认识. 我必须指出, Hypothesis其实不应该有定式, 也不仅仅限于我所列举的堪堪四种形式, 只是其中的逻辑思考方式, 以及用Preliminary Data来维系逻辑推理的观念, 是形成Hypothesis 的必由之路. 其实, 以上四种定式, 彼此之间也是互通的. 因果关系论证可能是通过转换系统来完成的, 类比和转换系统也有一定的相关性.
最后, 在结束对Hypothesis 的讨论之前, 列举以下问题: 每当你有某种想法的时候, 问自己这三个问题, 会有助于发现自己Hypothesis 的潜在缺陷和找寻可能失落的preliminary data:
Question #1: In your hypothesis, what is the possibility you are going to test?
Question #2: What are the other possibilities that you are trying to rule out?
Question #3: What leads you to favor the possibility you are currently testing, not others?
21