~~副标题 1:我比产品经理聪明系列~~
~~副标题 2:反正产品经理不需要文凭~~
老罗原话大意是
现在讯飞语音输入的准确率是 97%,但即使提升到 99%也没有什么用,不用的用户仍然不会去用。只有 99%提升到 100%才是质变。
首先,只要语音识别仍然是基于统计模型,无论算法有多么大革命性变更,计算平台的计算能力如何提高,准确率都不会达到 100%,只会无限趋近。 其次,无论是人和人之间的声音交流,还是在 PC 上用键盘输入文字,信息传达的准确率都不是 100%的。 这说明「输入」错误本身并不是那么让人不可接受。
不妨先从数学角度看看这个问题。
假设语音输入的准确率是 a,输入正确和错误给用户带来的厌烦程度(以怒气代称,包括所有疲劳等等消极情绪)分别为 CR 和 ER。那么用户输入时的怒气值计算公式为
Rage = a * CR + (1 - a) * ER
在输入正确时假设用户产生的疲劳程度趋近于零,那么总的厌烦程度很简单,约等于错误率乘以修正错误产生的 Rage。那么从 97%提升到 99%带来的其实是 3 倍的优化,也就是将总的 Rage 减少 2/3。
因为用户的怒气值并不是随着输入线性增加的,因为用户往往是一点就炸的,因为用户并不是理性的。 比如一个 app 在手机里几个月不用也躺得好好的,突然某天推送一条通知,从此就再也见不到它了。所以上面的公式并不适用。或者说目前的 ER 无穷大,一旦出现就让用户想放弃了。
在几年前,有这么一个说法:用户宁愿在屏幕上多点十下也不愿意在浏览器地址栏输入一个字母。我当时用的是三星的 I9000,当时 Android 阵营的旗舰之一,但确实是这么感受。因为屏幕又小,浏览器又臃肿,硬件性能有差,而且即使输入完网址,网站也很少有为智能手机设计的。就是实际上不可用的状态。但实际上随着近几年天翻地覆的变化,很多网站我已经宁愿去输入网址也不想装他的 app (说的就是你,淘宝)。
其实这就是屏幕输入 ER 值大幅下降,并且退到了用户立刻骂娘的安全线之内的结果。
语音输入也是如此,去年体验了一下语音输入,我的感觉仿佛回到了 20 年前。用过 win98/XP 自带的微软拼音的同学应该明白我说的意思。 这也是为什么老罗说只有到 100%才是质变。但我的个人看法,现阶段有执行性的方向应该是如何优化用户输入错误时修正错误的体验。如果退回爆炸的「红线」之内,才是目前问题的根本所在,也是手机厂商能力的优势所在。老罗实际怎么想的不知道,但表现出来的情况来看并没有对修正操作的优化足够留意。实际上在输入正确时语音的输入体验是大幅优于键盘的,也就是公式
Rage = a * CR + (1 - a) * ER
的前半部分,a * CR。那么只要修正错误的成本降低到接近键盘输入,那么语音输入一定会普及开来的。
一句话结论:错误修正的交互才是目前语音输入的最大瓶颈。在优化好错误修正的操作后,准确率的每一点提升都会给使用体验带来飞跃的变化。
当然以上讨论仅限使用场景为个人独处,在有其他人在场的情况另当别论。
太困了,先到此为止吧,最后祝锤子手机大卖!
1
Syc 2017-05-10 06:45:23 +08:00 via Android
用三桑 I9003 的罗锅
|
2
taresky 2017-05-10 08:32:40 +08:00 via iPhone
不觉得交互是瓶颈。
瓶颈就在识别率,97% 是基于普通语言环境测试下得出的。但实际使用中,方言、各个领域专业词汇、内部笑话、奇怪的个性语言组合识别率有 50%?想象一下你和同事开会的时候,语音输入法来速记会议记录就懂了,可能专业性词汇还不到 10%,出来的什么鬼东西。 我们假设这个输入法根据你自己语言习惯来优化,达到 97%绝对能消除不安的感觉。输入一百个字,删改三个,完全可接受。 |
3
taresky 2017-05-10 08:33:16 +08:00 via iPhone
当然开罗说的也是瞎扯淡。
|
4
kokutou 2017-05-10 08:44:37 +08:00 via Android
主要矛盾是不想在公共场合对着手机讲话。。。像个傻逼。。。
只能等脑机接口成熟了。。 |
7
kokutou 2017-05-10 09:18:06 +08:00 2
@jakes #6
说实话,微信用语音的,我感觉就是个傻逼。。。 你跟别人打字,别人发来一堆语音。。。 我 TM 还要一个一个点开听。微信自带的傻逼转文字我感觉识别率 60%最多了,发语音的是完全不考虑对方体验。 跟这些人打交道,我基本不上心,能拖就拖,能当没看见就当没看见。 |
11
kokutou 2017-05-10 09:30:40 +08:00
|
12
irainsoft 2017-05-10 09:43:47 +08:00
语音确实是一个很方便传达消息的方式,话越长效率越高,但确实会受场合限制。我觉得是即使是公共场合,用微信给朋友发语音,因为你说话时会说出一句完整的话所以其实就像面对面说话一样也没有什么特别尴尬的事情(当然如果你发个语音说:“在吗”我觉得是个挺逗逼的行为),楼上几个说到的不适合语音的情景虽然是存在的但也可以避免的,比如不适合收语音时你发一条“正在上课 /开会,发文字”我觉得对方如果是正常人应该都应该不会再发语音了吧。另外微信语音也是可以选择听筒和外放两种方式的吧,即使在用电脑你手机放桌上亮着屏幕来消息时点一下也不算麻烦吧?
|
13
fish267 2017-05-10 09:46:41 +08:00 via Android
最烦微信发语音的
|
15
ivmm 2017-05-10 09:57:55 +08:00
的确 TM 讨厌发语言的,你普通话标准,手机录音效果好也就算了。
有时候一条 20s 的语音听 3 遍才知道在说什么 |
16
microget 2017-05-10 09:59:30 +08:00
没人觉得 100%的识别率就是个伪命题吗?
人之间的交流也不能保证 100%的听清并理解对方的语言啊,而且很多语言本身就有歧义的存在。 |
17
forestyuan 2017-05-10 11:09:56 +08:00
很好奇这个老罗是谁
|
18
swulling 2017-05-10 11:13:00 +08:00
语音识别都各种吹,全都是实验室环境下的数据
真实环境下,微信语音转文字就是一个例子,60%?呵呵一半都没有 |
19
QAPTEAWH 2017-05-10 11:19:27 +08:00
一般 App 都没有考虑多页面。我能同时打开 N 个 TB、知乎页面,它们的 App 却不能。
|
21
xsmdxe 2017-05-10 12:35:24 +08:00
@swulling 你知道 cortana 吗,识别率在真实环境下 99%,现在微软得语音输入法,识别率也有 95%,如果不是,他总是给我自动加标点符号,真是别触摸屏快,当然有得时候,复杂词汇,会慢一些,这么说,70%时间准确率是 99%
|
22
swulling 2017-05-10 14:44:17 +08:00
|
23
bsidb 2017-05-10 15:18:52 +08:00 via Android
现在语音输入法整理文字稿倒是很方便的。
自己先听一遍访谈录音,再念一遍用语音输入法输入电脑,速度比自己打字快多了! |
24
fengxing 2017-05-10 19:29:52 +08:00
@xsmdxe #21 微软自己都不敢说 99%,微软自己说的是错误率是 6.3%,这还是英文,而不是中文。
中文目前最屌的是讯飞,其他的一个能打的都没有。 从我日常使用来看,正确率按讯飞说的 97%完全可以达到,只有个别咬字不清晰的字才会识别错误。 使用语音输入比打字快的多得多。就算修改极个别错别字也比打字速度快 |
25
Jodal 2017-05-10 19:45:16 +08:00 via iPhone
语音输入感觉是个伪命题,脑接口才是真命题。
#瞎扯淡# |
26
ryd994 2017-05-11 07:17:18 +08:00 via Android
瞎扯
能 100%?人还有听不清的时候呢 |