“7岁了,继续奔跑。”1月15日,作业帮创始人、CEO侯建彬在朋友圈里感慨。
过去一年,作业帮发展尤其迅速,一年拿到两轮融资,给原本热闹的K12在线教育市场再添了一把火。
2015年的时候,作业帮还是一个很小的APP,团队也很小,一张照片就放得下。6年后的今天,作业帮已经成为中国唯一月活用户过亿、唯一进入全网top30的教育类APP,员工总数超过35000人。
作业帮团队.2015年
K12在线教育正身处风口。iMedia Research预计,政策利好、技术成熟的推动下,2020市场规模达4858亿元,增速202%。也是在这样的背景下,在线教育行业迎来了密集融资。网经社“电数宝”电商大数据库显示,2020年在线教育行业共发生110起融资,融资额超540亿元,其中,作业帮就占了约30%。
市场竞争激烈,人们叫得上名字的应用就有数个,但持续占据头部的不多。作为成立仅仅5年的在线教育公司,作业帮究竟凭什么能一路高歌猛进?
前特劳特中国公司高级咨询师顾均辉认为,关键就在于作业帮对拍照搜题的聚焦。“这一技术突破直接关系到用户体验,也对同类产品带来了‘降维打击’。作业帮从而一跃成为师生与家长心智中最好用的搜题品牌。”
作业帮入局前,在线教育市场竞争就已相当激烈。但通过聚焦拍照搜题,作业帮在已经相对成熟的市场中出奇制胜,成为K12在线教育市场的一匹黑马。而且,6年来,不断完备的拍搜技术体系,在作业帮的各个业务环节中发挥了“杠杆”作用,为其后续发展打下了坚实的基础。
01一个super机会
时间回到2013年,这是K12教育行业的一个转折年。
这一年,辞去世纪佳缘CEO的龚海燕创办的梯子网吸引了大众的关注,也搅起了BAT对在线教育的好奇心。
彼时,在百度内部,百度知道的负责人侯建彬发现,K12领域的提问量占到了搜索总提问量的10%。他隐约觉得,这是一个巨大的需求,可以支撑起一个独立的APP。
2014年1月,作业帮正式上线。基于百度知道的积累,作业帮首先推出以问答和圈子为主的UGC社区。但运行一段时间后,问题也开始显现,问答质量不高,时效性得不到保证,这对正在做作业的提问者来说并不方便。
龚海燕曾表示,自己做梯子网,是想要给教育资源薄弱的地方搭起一座梯子,从而改变学子的命运。梯子网选择的是做社区,吸引老师、学生入住的模式。但后来事实证明,这一模式缺乏商业支撑。
此时,K12正处于题库创业高峰期。猿题库、学霸君等在题库的基础上,根据用户的需求开始推出了拍照搜题功能。
“拍题是一个super的机会。”侯建彬判断,拍题是可以做到日活千万级以上的,而且它重新开辟了一个之前从来没有存在过的、线上的学习场景。
市面上的一些创业公司希望采用拍照搜题的方式,帮助用户解决实时性的问题,但是,由于技术的原因,此时的拍照搜题的效率和准确率都不高。
拍照捜题准确率提升的关键,在于题库的积累以及成熟的OCR(光学字符识别)技术。在这两方面,百度都有一定优势。侯建彬认为,这是作业帮的机会。
2015年1月19日,在作业帮上线一周年之际,带有拍照搜题功能的4.0版本正式上线。当天,它的活跃用户数第一次超过了100万。
作业帮的B轮投资人,GGV纪源资本投资副总裁于红说,当时市面上,K12有很多种模式,但她笃定作业帮拍照搜题是流量入口的路径是对的。
拍照搜题功能上线的同时,市场上也有很多质疑的声音,认为是在变相帮助孩子抄作业。
“最早所有人都会有这个困惑。我一开始也想,我们做拍照搜题这个东西是不是就是给人抄答案的?因为动机给人感觉不是那么的正向,都不想坚持去做。”作业帮拍照搜题的负责人王岩说,为此他们特地做了一次用户调研。
他们打了很多电话,调研用户的学习情况。结果出乎意料,他们发现,绝大部分用户都是成绩中等偏上的学生。真正成绩差的学生,他们要么不写作业,要么抄现成的,根本不会费事去使用作业帮。
“它是真正有教育价值的。对于大部分想通过教育改变人生的学生们,拍搜上的解析、视频等在线资源,是一个非常宝贵的信息来源。”王岩坚信,作业帮对于更广大希望学会知识的同学带来的益处,是远远大于其可能带来的弊端。
而为了避免学生们只是用来抄题,作业帮的拍搜也做了很多特别的设计,比如绝大多数题目都提供详细的解析,不是只能看到答案;利用智能算法对用户疑似仅仅看答案的行为,进行一些提醒和数量上的限制。
今天,很多学生在做家庭作业时,遇到不会做的题目,不用再等着“问老师”,而是打开诸如作业帮这类的App,给题目拍一张照片。数据显示,全国每10个孩子就有7个在作业帮学习。
“我自己没念过几年书,我希望我儿子不要走我的老路,能够好好读书,改变命运。”王建坤对《商业与生活》说,现在孩子上小学5年级了,老师留家庭作业他已经辅导不了了。每次孩子遇到不会的题目,都是用作业帮的拍照搜题,自己给孩子批改作业也离不开这个软件。
拍照搜题已经成为学生们的一种主要学习方式,在一定程度上给教育资源薄弱的学生搭起了一座梯子。
02“不那么性感”的改进
5年前,多个创业团队都曾杀入拍照搜题领域,也受到了学生们的追捧。但如今,这些创业团队都已经在业务上分道扬镳,沿着各自的路径越走越远,只有作业帮守住了这个优势。
目前作业帮旗下产品累计激活用户超8亿,总日活用户超过5000万,总月活用户超1.7亿,占据了中国K12在线教育流量侧75%以上的份额。作业帮APP也是中国唯一月活用户过亿、进入全网top30的教育类APP。
罗马不是一天建成的,作业帮的拍搜优势,则是靠一行行代码积累起来的。
“我在作业帮的前三个月,比我在百度4年写的代码都多。”作业帮智能技术实验室负责人王岩说。王岩主要负责作业帮拍照搜题,拍照批改,题库等一些业务的技术工作。
起初,作业帮用的还是第三方服务的OCR接口,这个接口最大的问题就是速度慢,识别一张图要10秒。
作业帮提出希望能够把识别的速度加快。但对于一家大型服务供应商而言,作业帮只是一个小项目,根本不重视它的需求。但作业帮自己清楚,识别的效率就是公司的生死线,于是决定放弃使用第三方服务,自己研发拍搜系统。
2015年4月,侯建彬提出了“攻克天王山”,要把识别的时间从10秒到3秒。当时,公司里并没有专门学过图片识别的员工,任务就被分到了王岩和程童所在的团队。
王岩坦诚,一开始,他们并不具备提升识别速度的能力。在使用第三方服务的OCR接口时,他们为了减少用户等待焦虑的问题,甚至做了一个“虚假”的进度条,第一秒就进行到90%,剩下的10%慢慢走,让用户觉得马上就能出结果了。或者故意把照片旋转的过程设计的比较慢,让用户觉得是自己手机反应慢的问题。这也是他们当时唯一能想到的办法了。
由于之前没有相关的经验,王岩的前期效率非常低,基本上每天都要把前一天写的代码全部推翻重新写。那段时间,他们做得非常辛苦,将近两个月的封闭时间,他们一周六天,每天都工作超过12个小时,一边学习一边摸索,终于做了出来。
这一飞跃给了团队极大的信心。随后,作业帮进一步成为业内第一家把识别响应优化到1秒的公司。时效和体验,一举奠定了作业帮在同类产品中拿下第一,并将这一流量优势持续到了今天。
一行行的代码,一点点的提升,这不是一个像融资,像市场推广那样有性感故事可讲的过程。这更像是一个枯燥的自我折磨。
但在侯建彬看来,就是这个看起来不那么性感的改进,起到了非常关键的作用。教育产品的增长还是要看口碑,用户在意的是服务的质量。面对激烈的市场竞争,作业帮要保证优势的唯一办法就是要做到,人无我有,人有我优。
03海平面下的技术进阶
一个典型的小学数学题,识别起来并不复杂。一个熟悉计算机视觉和深度学习的学生利用公开的资源和一些数据集,就可以搭出来一个系统。
但是,当用户上了规模,需求和场景就变得复杂,何况作业帮累计激活用户设备超过8亿。
由于人们的拍摄环境,拍摄的题目,乃至使用的设备,都是五花八门的。有的拍的模糊,有的灯光昏暗,还有的题目上已经被写满了草稿,这都给拍搜系统提出了挑战。
市面上很多同类软件,或多或少都会出现答案和所拍照片题目不一致的现象,反而浪费了学生的时间。
作业帮的拍搜系统,基于OCR和深度学习技术的结合,经过持续6年的自主研发和数据积累,目前拥有多项OCR、检索和系统专利,功能也在不断拓展,从最初拍单题,拍整页,再到猜你想拍,从搜索答案,到批改,再到打分。数据显示,其小学数学作业的批改整体准确率已经达到98%,而且最快1秒出结果。
人们看到的结果,往往只是冰山一角。海平面则是庞大的技术、数据支撑。
程童在作业帮还在百度内部孵化的时候就选择了加入,参与了作业帮拍题搜索系统从0到1的搭建过程。据他介绍,拍搜算法架构比较复杂,主要分为OCR和检索两个部分。
其中检索系统主要任务是通过识别出的文本检索答案,由上至下依次包含接入和策略层、正排系统、倒排系统和离线建库四个主要部分,整体是一个由很多模块组成的复杂系统。而OCR系统主要是将所拍照片内容识别成文本,主要是由多个策略&预处理模块,以及大量使用GPU作为运算设备的深度学习在线推理服务组成。
针对不同用户使用场景下可能出现的模糊、倾斜、低像素、干扰等等各类拍照问题,作业帮不断进行算法迭代和架构完善。现在,在一次完整的文字识别流水线里,会有超过30种不同的神经网络各司其职,运行260次以上的神经网络预测。而通过构建大规模的并行GPU集群,这样一次比较重的识别流程,平均只需要200毫秒。对于识别出的题目内容,则会在索引量超过3亿的题库搜索引擎中进行匹配,确保给到用户的信息尽可能准确。
程童说,过去六年,作业帮的拍搜系统一直都在变化。
早期,因为大家识别响应普遍都慢,谁能把响应时间缩短,谁就能够赢得用户的青睐。当快到一定程度,准确率又成了一个关键点。准确率越高越容易形成口碑传播。
当时,大家都使用CPU服务器跑算法模型,性能低耗时长。作业帮率先将GPU用于在线推理服务,预处理的部分交给CPU,深度神经网络则利用GPU强大的并行运算能力去计算,上线后就取得了10倍的加速效果,实现了“随手一拍,秒出答案”。
进入2017年前后,随着原有业务流量迅速上涨,算法模型的种类和数量的不断增加,给开发和运维上带来了更大的压力。
“业务做不起来,系统做的再漂亮也没有意义。”程童说,为了让模型快速上线,他们上线了很多临时方案,但也让他们的系统管理运维的包袱越发沉重。
虽然业务优先,但程童知道,如果任由系统退化下去,不但自己会疲于奔命到处救火,最终也会影响业务发展。所以在项目间歇期、流量低峰期,拍搜团队都会见缝插针进行系统优化,减少技术债务。比如,针对环境异构的问题,他们通过升级接入层,优化自研rpc(远程过程调用)客户端,满足多机房,多机型负载均衡以及实验分流的需求,使得流量的接入几乎可以无视机型机房的区别。
现在,随着业务相对成熟,系统成长到了一定规模,他们重新审视之前系统发展过程中的各种问题,深挖本质,最终选择了通过虚拟化的方案予以解决。迁移后,通过更细粒度的资源分配和服务混部,一些集群最多节省了50%的机器资源。而通过迁移获得的弹性伸缩能力,也让拍搜系统在应对流量高峰的时候更加游刃有余。
“我们对指标的要求一直在提高,原来是到90%,后来到95%,再到99%。难度是在于准确度不停的往前探索,我们的基础提高以后,你想再前进一步,难度会是指数级别的增加。”程童说。
04做一家教育科技公司
2015年6月,作业帮从百度正式分拆出来,新公司取名为“小船出海” 。当时,侯建彬通过各种关系终于找到了有教育背景的所晖,希望他能出任联合创始人。所晖问了他一个问题:作业帮是想做一家“教育”公司,还是“科技”公司?
“做教育科技公司”,侯建彬当斩钉截铁地回答。
谈到教育创业,也许有人认为,要想做得好,只需要打造优质师资团队就足够了。这种想法显然忽略了一个关键,在线教育与传统教育最大的不同,就在于技术的力量。
通过用户的拍照搜题内容,作业帮还会通过大数据算法来分析重点、难点和全网的学习进度。比如,他们发现山东潍坊的学生,花时间最多的是“多项式乘多项式”这个知识点,而在陕西西安,花时间最多的知识点是“平行四边形的判定”。这样一来,就可以针对不同城市的学生,提供出更加有针对性的课程或是学习工具、学习资料,集中力量解决难点,使得更多的学生受益。
而作业帮正是凭借着人工智能、直播、5G、大数据等技术的赋能,为教育创造更多可能的同时,也从一众竞争者中脱颖而出。
现在,作业帮已经做了五六年的拍照搜题了,不仅占据了在线教育最大的流量入口,也为旗下继续孵化出王牌业务在线直播课持续提供转化学员。王岩相信,基于前面的积累以及人工智能技术的不断发展,未来的解题和在线学习,一定可以走出题库,通过理解背后的知识,自动解题,甚至会生成讲解视频和课程帮助学生进步。
曾经,融资后,有人问侯建彬,你们也做了很多AI的事情,为什么都没有提到说你们是AI+教育公司。侯建彬说,“我怕大家以为我们跟那些炒概念的公司是一样的,没必要提。”
技术永远是为业务和需求场景服务的。作业帮没有刻意谈过AI,但十分看重用户第一。16亿美元的E+轮融资,也再一次证明,科学技术本身没有温度和创造力,而真正焕发无穷力量的是产品。
对作业帮而言,拍照搜题的提出,是迎合AI时代对教育的一种创新。而拍照搜题也为计算机视觉技术以及人工智能技术的落地提供了良好的落地契机,为传统教育的改革带来了新的方向。
|