字体
关灯
上一章 回目录    收藏 下一页

第十八章 语义识别的难点(1/2)

“宁总,官网流量突然大增!”

“超过预期了吗?”

“超了……五倍!”一直关注着流量的程序员大喊了出来。

这远远超过预期!

宁熙言脸上无喜无忧,在宣传效果超过预期的时候,她就知道了会有这样的结果,因此一点也不吃惊。

“很好,现在就逐步放出消息吧。”

超越时代公司官网同样也是十分简洁。

原版的官网是白色背景墙上有一个占据大半个屏幕的树影,以及一个树枝上的人影,除此之外再无他物。

这个官网是罗辑设计的,灵感来源自然是脑海中的科技树。

按照罗辑的设想,每一个枝杈都应该可以点击,并且每一个枝杈都代表是一个时代,这样才符合他脑海里的东西。

宁熙言虽然不太理解这么设计的原因,但是感觉这个方案很具有科幻感,十分符合公司的定位,也没有太多的意见。

不过由于简洁的太过分,第一次点进来的人,估计都不知道怎么浏览信息,就是额外添加了些元素。

在背景墙上添加了一些浅绿色的绿叶虚影,而人影所在的树枝的绿叶则是深绿色的。

这样就给人一种十分明显的提示,这地方是可以点击的。

“这太炫酷了!”正操作着鼠标的朱成兴奋的叫了起来,他没有在第一时间浏览信息,反而来回在树叶上点了数次。

这个主页设计的很有感觉,和国内最大化给予用户视觉饱满度的设计截然不同,在看惯了那种不放过任何空白的网站之后,这种变化让朱成有些不太适用,但是却感觉很轻松。

“就凭这个官网,我相信语音识别是这家公司做的。”作为华夏网民,最烦的就是网站在页面上设置广告,而这种设计风格明摆着不会这么干。

要是想租广告位,全部设置成模块就好了,这种浪费空间的方式该少赚多钱啊?

朱成是个苹果用户,最初在网上看到这个信息的时候是不信的,以为又是那些不良记者写来博人眼球的。

不过随着时间的推移,语音软件愈演愈烈,朱成半信半疑的下载了电脑版,然后找了个播报文录音放了起来。

让他感到不可思议的一幕出现了,在三秒钟的延迟之后,他从电脑上看到了那篇文章。

震撼!

他比其它人看的到的东西更多,这款软件不仅识别率高,并且还保证了用户的自由度。

不用按键说话,说完之后也不需要等待软件是否识别正确,这款软件的写入速度完全比跟的上说话速度。

朱成在用软件上测试了一天,感觉有些遗憾,因为这只是个样品,并且还没有苹果版的。

然后他在网上找到了原帖,然后顺藤摸瓜的找到了超越时代的官网。

再次点击一回树叶后,朱成没在继续下去,开始浏览起信息来。

点击树叶之后,出现的一根树枝的放大版。

与简单的首页不同,这个二级页面中多了很多信息。

“智能小语1.0七天后正式上线!”朱成很快就看到了顶端的信息。

“暂时推出的软件分个人版和企业版。

个人版免费使用,企业版有为期七天的试用期。”

在软件的下方还分别有个简介。

个人版对于生活方面的识别会更加精准,而企业版更注重于会议,可支持多人同时录入,抗噪音能力也更强,并且还可以选择去口语化,使会议内容更接近书面格式。

网页里面的信息不多,很快朱成就看完了。

对于七天后软件的发布十分期待,语音录入可是懒人必备的神器啊,以后估计都不用打字了。

“智能小语,也可以叫语音输入法吧?”

如果不用打字了,是不是意味着键盘也没用了?

那笔记本岂不是可以做的更薄?

不对,没了键盘不就成了平板么?

朱成想到了这一点,感觉自家的电脑城可以多进一些平板电脑了。

在外界因为语音识别而震惊的时候,罗辑所在的机房却只能听到敲键盘的声音。

尽管语音识别已经做了出来,但对于写代码而言意义不大。

真正能将罗辑从这些繁重的任务中解救出来的只有语义识别!

开发语义识别,就如同罗辑预料的那样,并不是一块好啃的骨头。

更何况是中文体系上的语义识别,这比其它语言要难上几个级别。

光是分词这一项,就能让人死掉不少脑细胞。

中文不同于单词组成的拉丁文,拉丁文单词间的空格可以大幅度减少电脑的识别难度,而中文却不行。

在中文里面,一句话就有很多意思。

别说电脑了,有时候就连人也不好分辨。

比如那句著名的“下雨天留客天天留我不留”,在没有标点符号的情况下,它至少有七种意思。

对于电脑而言,别说这种地狱级的分词,哪怕是一些人们看来再简单不过的句子也很难分辨。

比如“华科大学生前来应聘”,电脑可能会理解为“华科大学,生前,来应聘”。

中文语义识别的第一个难点,也可以说是最大的难点便在这里。

怎样的分词算法才是最完美的?

罗辑在科技树中找到了方案,一种基于统计学模型的算法,构建一个三维矩阵,选取概率最高的一个。

xy轴是任意两个词语的组合,而z轴则是场景状态,根据语气和语态选取的最佳方案。

“不过这需要联网。”罗辑琢磨了一下,这似乎是目前最好的方案,虽然他的本意是打造一个可用于线下服务的智能,但是以现在的设备存储能力想要存下大量的语料库,根本就是天方夜谭。

电脑肯定是不行的,光脑还差不多。

“联网就联网吧,在程序里预留一些常用算法,断网勉强也能用。”

解决了第一个问题之后,罗辑又陷入了瓶颈。

他蓦然想起中文还有一点很蛋疼,那就是没有和英文一样可用于区分人名地名的大小写。

要是仅仅这样也就罢了,关键是有些人的名字起就是一个词语,如果分词程序有智能的话,它一定会把这些人拖出去砍死。

比如高峰、汪洋、罗辑……

“这……还是不要砍死了,半残就好。”

罗辑马上停止了抱怨了,再困难也要解决不是?

“到底要怎么做?”

罗辑觉得自己有些天真了,一开始以为有了科技树绝对可以快速的解决问题,可事实上并非如此。

之前做无线充电器时,都要用到机械方面的知识,而难度比无线充电更大的语义识别,其交叉的学科只会更多。

“语义识别要什么?

电脑编程、统计分析、数据建模……还有语言学?”罗辑看到科技树上显示的内容完全傻眼了,前面的只要的理科内容,不管多难他都不怕,可偏偏最后一项他却没有办法。

让罗辑去看文科知识,那比杀了他还难受。

可不学语言学,怎么可能做的出语气识别?

罗辑抓破脑袋也没有想出代替方案,这似乎是唯一的解决方法。

想想也是,对语言不熟悉的人又怎么做的出语义识别?

作为社交白痴的罗辑,自己都听不太明白别人的话,又怎么让电脑也“听”的懂?

学习语言学?

罗辑硬着头皮只看了一会,就感觉头大如斗,就像熬了好几个通宵,困意如潮水般一波波涌来,怎么也挡不住。

这道是个催眠的好方法,罗辑有些哭笑不得。

“只能走一步看一步了。”罗辑决定先将这个问题搁置,等其他能解决的都解决了,再回头来考虑这个问题。

先搭建模型吧。

语义解析得到步骤和前两步很想,都需要一定量的数据支持。

好在有小音的帮助,不需要罗辑去亲自搭建语料库,不然光是这一个工程就能让开发时间延长几倍。

繁琐的数据积累永远是最费时间的,不过幸好小音的智能程度提高了,她能替罗辑执行的工作也越来越多,可以说只要语义识别完成,她就和电影里的那些黑科技差不多了。

研发的过程对于别人也许是枯燥的,但对罗辑来说却是让人兴奋不已的。

因为在拥有了科技树之后,他基本不会做无用功,任何研究都有一个明确的方向,所以他的研究每时每刻都在向目标推进。

七天后,罗辑在属于自己的机房里长出了口气。

现在上他能解决问题都解决了,自动分词系统也趋于实用,至少不会出现乌龙了。
本章未完,请翻下一页继续阅读.........
上一章 回目录    收藏 下一页
EN