一切才刚刚开始
最近主要做的事情就是过了信科的夏令营,拿到优秀营员资格,之后又出了 EMNLP 的 review 意见。我大约在大二的时候下定决心要努力成为一名 NLPer,如今应该算是走在了正确的道路上,最近也算是取得了一些成果,所以过程记下来,希望以后自己丧气的时候,再看看,找回自己的初心。
信科夏令营游记
Day 1
第一天就是报道,并且办理入住手续,因为我在中关村提前租了房子,所以没有去安排的酒店 check in,听去的同学说条件还不错,北大还是很厚道的,相比什么都不给报的复旦,发了 100 块饭卡,应该够吃。
上午有个简短的开营仪式,听老师吹北大,焦点就在和隔壁较劲,想必这就是爱情吧。
下午就是各个方向老师来介绍实验室,晚上有 POJ 的模拟机试,提前适应环境,需要联系的朋友可以在OpenJudge上找往年题。模拟做的是去年的题,A 了三题,rank 30% 左右,我以为这样就很稳了,结果第二天果然被打脸 2333。
模拟上机之前先溜到孙栩老师办公室,找他聊天,发现正好在,就和他进行了亲切的交谈,并嘱咐我第二天机试好好表现。提醒同学们,能尽早勾搭老师就勾搭老师!
Day 2
第二天上午依旧是各个组老师介绍方向,我感兴趣的主要是计算语言所,是王厚峰老师来做介绍,但王老师和其他实验室不一样,不是在宣传组里的工作,更多好像是在科普自然语言处理,让我有一种自然语言处理没人做的错觉。
下午就是各个组的座谈,可以提前和老师们聊聊,毛遂自荐一下。我去到的就是计算语言所,穗志方老师主持了这个环节。收获还是很大的,一方面是能和老师们面对面的聊天,问一些可能很蠢的问题,但老师也都会很耐心地解答。我问了一个问题:在算力为王的时代,学校里怎么做研究?有个似乎是来自所外的老师胡俊峰,回答说学校里做的应该是类似公理一样的工作,让业界去 cite;侧重的是提出想法,系统地验证 idea,至于好不好用,交给时间去评判。这个老师还有个观点很有意思:如果我们和同学讨论的时间有 50% 是花在讨论上,例如 LSTM 的 gate 到底是怎么其作用的? ,而不是 focus 在调参上,才是真正的 deep learning。穗志方老师则说,NLP 是可上可下的,能做的很深,也能做一些 incremental 的工作,其中需要我们好好地取舍。之后,各个老师介绍了一下自己做的方向。总而言之, 收获还是很大的。
晚上就是机试了,难度相比去年来说应该是小了一些,但是有一题月历打印题卡了我很久最后还是没过,心态有点崩。最后过了三题,rank 50%,算是中规中矩吧。第三天果然老师问了这个问题,我就把这个原因说了下,老师也没怎么深究。
Day 3
先是出乎意料的笔试题,第一题是古文数学题,断句后回答:
三角几何共计九角三角三角几何几何
一开始看了半天没看懂,还以为是和180°有关,后来突然灵光一闪,感觉这就是两个东西卖9毛钱,一个三毛问你剩下的多少钱,我断成了 三角几何/共计九角/三角三角/几何几何。后来知道是三角和几何是两本书名,应该要用书名号框起来,算是对了一半吧。
还有一道题考察对信息熵的理解,以及一道简单的几何题(我似乎做错了?)还有英译汉,一篇关于检索式QA的文章,难度不大,时间 40 分钟,翻译的篇幅还是挺长的,我平时基本有看 Paper,所以没怎么难住我。
主要就是面试了,第二天早上到计算语言所门口看面试顺序名单,按姓氏拼音排序的,我在第四个。等待的时候碰到了 ypc 学长,他给我打了气,让我好好表现。问了下前面面完的同学说没有用英文自我介绍,结果我一进去穗老师就让英文自我介绍并且介绍工作。当时一下子脑子有点懵,把准备的自我介绍说完之后开始介绍工作,一开始有点卡,后来说着说着稍微好了点。
介绍完了之后还问了一下为什么读研究生,以后的安排,英语怎么样,数学课最喜欢哪个,有没有打过 ACM 为什么没有打?看得出来,老师还是比较侧重编程能力、英语和数学,我觉得没毛病,这就是一个信息学科的基本三要素。
优秀营员
等了几天,9 号出了优秀营员名单,等待时候还是满煎熬的。看到自己拿到 offer 之后就给复旦和南大的招生办发了邮件,一方面是他们不报车票我懒得动,还有就是也许这个机会能顺延给后面的同学呢?算是攒点 RP。之后有一点恍惚,啊,也许曾经的那个梦想,真的要实现了?
燕园一梦
只有实现了的梦想,才配拿出来和人说:我曾经有过这样一个目标。否则,那都是痴心妄想。
六年前的夏天,我从初中保送杭高,在一次新生英语 xdf 讲座上,有个互动环节问大家以后想去哪所大学,我接过话筒,说 Peking University,然后主持人问我叫什么名字,我说:Li Lei。全场爆发一阵笑声,笑的是我的名字和英语书中著名的人物李雷重名,亦或是我的无知,我无从得知。后来某人说她对我的第一印象就是讲座上我不知天高地厚的梦想,倒也挺好。在我们高中,一年也只有个位数的同学能够进入清华和北大这样所有中国人都梦寐以求的学府。我是一个普通人,普通到班主任入学的时候就跟我说:班里比你优秀的人多得多,你以后能够考一个重点大学就不错了。是啊,我们还有着地区生,其他市的前几名,清华和北大哪里轮得到我呢?
好在我们高中并不只有学习,我的高一高二都是非常快乐的,在杭高足球队和自己创建的吉他社中度过,成绩维持在中游,够上一个 211 的分,努努力也许还能上个 985。我上了大学之后时常会想,如果再过一次高中,你会有不一样的选择吗?我说不准,毕竟谁也不能回到过去,没有人能经历两次人生,我只能说不后悔。
高二下学期,我意识到了高考的重要性,于是开始勤奋地刷题,成绩也有了些许进步,大约能冲冲浙大了,并且把上海交大作为了心中的目标,只是那个人依旧不相信。我想,也许后来我的努力,很大一部分都是为了证明给她看,告诉她:你看,其实我也很棒的!其实,是想要证明给自己看,告诉那个不甘心的自己,You are more than that!
高考的前一天晚上,辗转反侧地无法入睡。我想很多人都会这样吧,毕竟一考定终身。一考定终身吗?也不一定。考完数学的晚上我知道已经血崩,但依旧怀着些微的上浙大的希望考完了所有科目。
结果出来的时候我内心毫无波澜,有一种”这就是命”的感觉。是啊,一个普通人,上一个不错的 211,你还想怎么样?毕业旅行我们去了北京,我也是第一次进到北大,在燕园里转了一圈。说实话,没什么感觉,未名湖感觉和浙大华家池差不多,甚至还小一些。像我这样的游客很多,留下来的人很少,是啊,这是属于天之骄子的地方,没有归属感是很正常的。
大二的时候到北大参加 DeeCamp,住了一个月觉得,诶,好像研究生有机会来?。然后就开始联系老师,在实习日记里写下:争取留在组里。之后也是比较的幸运,在学长指导之下,发了一篇文章,然后通过夏令营,拿到了预录取的 offer。明年九月,就可以成为一名 PKUer 了!算是圆了这个梦吧。
Still A Long Way To Go
进入北大,只是一个新的开始,而并非终点。今天 EMNLP 的 review 意见出来,我自己的惨不忍睹,而师姐的审稿意见里作者基本都是赞美之词,甚至有我没有发现这篇文章有什么明显的缺点这样的评价。同样是短文,差距就这么大。不过一个客观事实是,那篇文章投的时候比较仓促,基本是我自己独立完成的。但这样让我意识到,我距离一个能够独立开展研究的 NLPer,还有不少距离。目前来看,我希望自己在研究生的阶段能够具备以下这几个方面的能力:
- 能够感知方向,知道要做什么,能够提出问题来:简而言之就是挖坑的能力,说实话挺难,大约要博士才能够具备,希望能够多读 Paper,多和师兄师姐交流,希望自己毕业之后至少不至于两眼一抹黑。
- 有了问题之后,解决问题,验证想法:就深度学习来说,就是要利用框架能够快速 coding,并且设计实验对比出结果。这里我觉得很重要的一点是实验的设计,作者必须对提出的所有 claim 负责,并且通过理论或者实验来证明,换我做审稿人,也会是这样一个要求。所以,我觉得以后自己过不了自己 bar 的 Paper 就不要再投了,避免浪费大家时间。
- 产出东西的能力:这里会包括所有投稿需要的例如数据收集、写 Paper、画图、做 PPT。拿写 Paper 要举例子,除了语言上一些低级错误不能犯以外,文章的结构和故事都是很重要的环节。怎么把故事讲得 vivid 和 attractive,能够让读者信服,是很难也是非常重要的,而要把故事讲好,就和文章的结构安排密不可分,希望自己以后能多得到
The paper is well-written and well-organized这样的评价。 - Social:出去开会,做 Oral,但是我没有体验过,这条先放着,但总归学术圈子就这么大,与大家多多交流,保持良好的合作关系,没毛病。
这几天和组里的师兄相处下来,觉得他们都非常厉害,不仅文献的阅读量很大、覆盖面广(有个师兄甚至3天看完 NAACL 的所有文章),并且对于文章、模型也都理解的很深,我觉得我简直是个弟中弟。
今天是周日,我早上 10 点到了实验室,晚上十点多走(还是第一个走的,师兄们还在实验室讨论),回到家洗漱完就只剩下敲下这些字的时间(从这几天和组里的师兄相处 开始),真切的感受到自己的菜以及还有很多时间没有利用好。我逐渐意识到,读一个研究生,并不是为了逃避工作,而是能够沉下心去做一些自己想做的事情,为此,你所付出的精力可能比工作还要多得多。并且,相比于工作能够带来的金钱上的正反馈,读研更需要强大的自驱力来推着自己向前,如果想要做出一番成就而不是浑浑噩噩地度过研究生的几年,真的,要做好心理准备。
真心希望自己毕业的时候,能够实现自己的目标,不要虚度这宝贵的三年(actually,我觉得其实是五年了)。
鸡汤还是要熬给自己喝的:既然选择了远方,便只顾风雨兼程。