词博士的故事或AADPS到底是什么鬼

如何讲故事

如果我是我本家陈欧,我会为自己带盐,谈一谈香水、汗水、梦想和路上。但是可惜我不是,而且我确实没他长得帅。

如果我是我另一位本家陈年(有人告诉我这个是笔名……),我会说我如何越过重重障碍,寻访外国名家,用三十多道工序干出中国第一的单品。但是可惜我不是,而且我确实没他那么文艺。

如果我是雷布斯,我会搞一点B站鬼畜视频,再把我曾经作为预备实验凝聚态物理学家的老本拿出来吃一吃,谈一谈诸如“奥氏体304不锈钢”的话题。但是可惜我不是,而且我确实没他那么有钱。

如果我是老罗,我会谈一谈工匠精神,为什么只有偏执狂才能生存,以及解释一下为何剽悍的人生不需要解释。但是可惜我不是,而且我确实没他那么有情怀。

我是我,陈欣,AADPS创始人。我在这里用我的方式讲我的故事,而且在写程序这方面,以上四位都不如我。(上图为《黑客帝国》剧照)

从名字说起

世界上有很多公司,因为各种机缘巧合的原因同时从事完全不相干的业务。我们所熟知的雅马哈(ヤマハ株式会社)同时生产摩托车和电子琴。原来芬兰的诺基亚(NOKIA)同时生产子弹和手机。当然你可能也会知道韩国三星(三星그룹)在1938年创业的时候是一家卖面粉和鱼干的。

AADPS也同样属于这种情况。你可能知道IvyGate、InGenius Prep、Bon Day!、Vision Overseas、Elite Scholars of China、Due West、AIC Educaiton、Palm Drive、Wisdom Link……这些都是非常不错的留学机构的名字。但是AADPS字面上其实和留学一点关系都没有。对于留学来说,我做得很不错,比较赚钱,还很喜欢做,而且在可以预见的将来会继续做。不过如果你留心看我公司的经营范围的话,会发现有奇怪的东西混进来了……

嗯,而且我司确实还有幸入了微软的法眼,成为了为数应该不多的BizSpark项目的中国成员之一。

事实上AADPS是我当年在美国做的那家科技公司的字号,也是迄今唯一继承下来的东西。全名是叫做Advanced Algorithm Design & Prototype Service,先进 算法设计 与 软件原型 咨询服务公司。因为名字和IBM当年一样起得太中二了(作为一家卖磅秤的,自称“国际商用机器公司”),如今年纪渐长、脸皮愈薄,所以一般逢人只敢提缩写。

“生平用过的最难用的在线应用之一”

大家可能对我们“埃德普斯教育”的一面比较熟悉一些。所以我们来谈谈AADPS另外一半的业务——科技部分并不是指帮我们留学学员弄网站或者指导他们学AP计算机科学(虽然我觉得这些意义还挺大的)。如果说我半途而废的博士生涯教会我什么事的话,那就是寻找正确的问题比寻找正确的答案更加重要。在我原来那家美国公司,客户们是扔给了我不少难题的,所幸我没有让他们失望。那么我自己命运中的那个难题会是什么呢?

大家可以看,这是某个某论坛大V发的一篇专栏。


那么有多少人会因为看了他这篇文章而去用COCA呢?如果一只手不够用的话,那么两只。

我自己入留学这行的话大概是这么一个过程。一开始我觉得改留学文书这个事应该小菜一碟,直到我被坑了。然后我就开始用英汉词典,直到我又被坑了。然后我又开始用韦氏大学词典(Webster’s Collegiate Dictionary),直到我又又被坑了。在这个时候,我发现了美国现代英语语料库(Corpus of Contemporary American English, COCA)。如小标题所说的,这玩意不是一般人能用的。但是为了把留学文书修得像美国人写出来的一样,我就硬着头皮用了。不过得承认优点确实有一个,就是每一次查询都会记录在案,为了写这篇文章我特意看了一下,发现居然查过四千多次,也是醉了……1538天,算起来我第一次被弹窗烦到之后正式注册账户是在2013年7月13日。(真要说多亏了COCA,我差一点混进了纽约时报中文网,可惜打电话过来的时候已经入职某东方了。)


所以当2014年中我下定决心正式创业的时候,我已经明白这就是我一直追寻的问题。所以就在第一时间联系了这位发明COCA的美国教授。本来是说好两边联合开发的,但是教授最后一刻觉得这个事情不太靠谱(如果网上莫名其妙有个美国人给我写邮件说要和我合作,我可能也会觉得不靠谱,所以这个也好理解),就改送了我一年COCA最高级会员……


转到留学方面的话,现在可以老实告诉大家我们第一年因为没有自带干粮,所以其实很坑,就招到了四个学员。所幸后面出了一个芝加哥录取,第二年就好很多了。手上一有余钱,我就二话不说,把COCA的商业授权买下来了。

嗯,我怎么用,就是我自己的事了。然后一年之后又出了一个升级,我就再买了一次,生财有道。我最后一次用官方在线版COCA,从历史记录上看,是在2016年8月17日。

接下来的事情是,我把市面上所有可能相关的解决方案都研究学习了一遍。照理说是应该讲“奥氏体304不锈钢”的段子了。

但是事实上,我最后用烂大街的两三个开源解决方案组合起来做了一个,用了一点小学奥数技巧和高中统计知识。虽然牺牲了一些我觉得无关紧要的东西,实际性能上目前大致是COCA本体的一个数量级,在毫秒量级可以检索六亿的语言数据。因为相比我当年做的那些东西好像不是很行的样子,我就不好意思继续吹下去或者展开说了……

本来是觉得自己私下用用拉倒了,但是九月份我改了一个月的主文初稿,发现这个小玩意确实可以用得上。所以我姑且还是做了一个外壳,让大家也用着玩玩好了,看看能不能在现实世界里解决英语学习或应用的一些问题或障碍。

短期计划

嗯,我很高兴在申请高峰来临之前把开发工作全完成了。我们今年运气非常好,招到的学员学术水平达到了历届最高,所以一定得全力以赴出成果。我这边会在批文书的时候继续用。用专业术语说,我们目前拿出来的东西是一个2-gram dictionary,正常人能理解的解释是它可以向你展示当美国人看到某个单词的时候脑子里第一时间会想到什么。

月圆之夜,紫禁之巅……但是我手上的数据真的只到2015……

disfavor和distaste的区别,你绝对猜不到……

生活可以很简单,也可以很复杂……

美国人眼中的美国与美国人眼中的中国。另联合国是什么鬼……

本应用的精彩程度仅限于现代美式英语精彩程度与使用者脑洞大小之积。用的时候有啥感想或者建议可以发邮件给我admin@aadps.net。应该没有时间回复,但我保证都会认真一一过目。另以上这些广告由美图秀秀完成。

新版微信扫码或长安识别小程序码即可。

开发会在明年初规划学员完成夏校申请以后继续。

先定一个小目标

八九年前,我有幸教了一位约翰霍普金斯的、准备继承自己家跨国公司的白人小哥写中文作文,收50美元一小时。(好像把我唯一打过的黑工暴露了……)

现在,我主业算是教中国小朋友学英语。

“青出于蓝而胜于蓝。”“师夷长技以制夷。”到本世纪中叶,我希望我们公司开发的东西能教一教美国人学英语,就收他们10美元一个月或者99美元一年。到那会中华民族的伟大复兴应该也差不多了,我这也就算贡献了一份自己的微薄力量。

具体来说,实现这个目标要做到三点:

一、需要正儿八经的服务器。仅仅对于中国大陆而言,估计要用到十台以上16核、64G内存、1T SSD,加上100兆BGP带宽,可能需要附带顶配的图形加速卡。(我可能日后会和微软再商量商量,不过这种事情不会很靠谱……)

你如果好奇我们小玩意现在是跑在什么东西上的话,大致可以拍一下,这倒不算什么商业秘密了。

好像发错图了,这个是世界上独一无二的衣帽间二手办公笔记本服务器集群。因为公司所在的楼层有一位没有什么公德心的租户天天弄得总闸跳闸,还花了三百元淘宝买了一个山寨不间断电源给路由器和交换机供电外加写了一个远程掉电监控系统——幸好我们的服务器都是自带电池的。

二、需要自研底层架构把开源方案一个个换掉。主要的目的是使用更合适的数据结构优雅节约的存储语言学数据,以及利用先进的检索算法最大化的提升对诸如DDR5内存、SSD和高性能图形加速卡等现代硬件的利用率以及并行执行效率。我觉得最难的部分我会忍不住自己上,但是考虑到时间,还是需要招一些有五年以上经验的BAT程序猿给我打下手。

三、需要开发自己的美国现代英语语料库把COCA换掉。自主知识产权是一个原因。另外一个原因是COCA本身的目的是语言学研究,而我们开发语料库的目的是英语教学和应用。两边其实并不一致。比如对于语言学而言,错误的用法用得多了就成了对的。但是对于教学而言,错的就是错的,不管有多少美国人实际这么用。一个很明显的例子就是对于《纽约时报》,加州大学洛杉矶分校的缩写会是U.C.L.A.而不是UCLA,其他所有首字母缩写也是一样。

我们有诸如维基百科(Wikipedia)和谷登堡计划(Project Gutenberg)等免费的资源,但是可能需要开发专有的软件来进行分析,比如词性分析器(PoS tagger)。也可能需要请美国语言学家和美国实习生(或者至少要菲律宾的)。另外一方面有些优质资源,比如《纽约时报》一百七十多年的过刊文本,恐怕还是得老实花钱从美国人那里买了。

谈钱不伤感情

和美国教授不同,这边是没有研究经费可以来买带教育折扣的服务器或者文本数据的,也没有便宜的研究生可以招。以我们AADPS留学中介的资源,至多只能完成上面三点中的一点。剩下两点就需要大家的帮助了。中肯的估计是在五年之后,这一项目可以达到正式商用的标准。在我们目前可以免费随意使用的微信小程序里,姑且先预支一下未来吧。

今天,你只需要花15元人民币,就可以获得五年后正式商用的“词博士”中国大陆特供版的99年会员资格。特供版的定价是10元人民币每月或100元人民币每年,到时候实际发生的操作就是在账户里直接充值9,900元。不考虑通货膨胀,你可以把这个理解成一个年化收益率(annual percentage rate, APR)高达266%的投资。当然,我个人非常不推荐你注册很多账户来刷……

在正式商业化之后,以预购形式获得的账户余额是不能提现的,但是你自行转卖账户的话我没法阻止你。如果公司在99年内因为战略调整需要转型利润更高的业务,我们将如实返还所有未消费的账户余额。

当然,有大概一半的概率是我们并不能成功把“词博士”商业化……在这种情况下,我们会原价以15元将所有的预购一一退款。这样看折合的年化收益率是133%。

在预购了会员的基础上,如果你还想多帮我们一点的话,可以自愿扫码捐赠。

我们会记录所有的捐赠,在总金额达到一万元以上后也会每年公开开销账目。不保证有任何回报,原则上也不会返还,还请量力而行。

梦想还是要有的,万一实现了呢?

版权申明

本文为AADPS原创,保留著作及出版权利。欢迎非盈利性质的转载,但须保留作者和原始发布地址。

本文的原始发布地址是https://aadps.net/qnote。我们每年夏季会更新最新美国大学本科申请文书题目和权威院校指南,欢迎把网站加入浏览器收藏夹。

发表评论