全局通栏广告

爱盲论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1231|回复: 10
打印 上一主题 下一主题

技术人文丨端侧OCR与无障碍适配

[复制链接]

22

主题

1095

帖子

5213

积分

金牌会员

Rank: 5Rank: 5

积分
5213
跳转到指定楼层
楼主
发表于 2023-1-17 11:47:52 来自手机 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
楼主 talk说:
小米技术
MIUI
MIUI
2023-01-17 10:00
你有没有这个经验呢?走在路上看到有趣的招牌上写着“馫”"“赑”“犇”等生僻字,虽然一眼就能知道大概意思,但是偏偏就是念不出来,打开手机想搜索一下也不知拼音改如何输入。这时候,OCR技术恰恰就可以派上用场。
一、OCR技术
OCR (Optical Character Recognition,光学字符识别),就是用相机、扫描仪等电子设备针对印刷体字符,采用光学的方式将纸质文档中的文字转换成黑白点阵的图像文件,并经过识别软件将图像中的文字转换成文本格式,以进行文字编辑加工的技术。在日常生活中已经有了广泛的运用,像是发票的扫描录入等等。
二、端侧OCR的实现
一直以来,小米都在安全隐私领域持续耕耘,在昨天的发布会中,更是强调了MIUI14的端侧隐私,将所有计算都放在手机本地完成,不做任何的数据上传。其中MIUI14长按图片提取文字功能,就是端侧OCR计算的实现。
图片
图1.一般厂商的OCR计算路径
一般厂商的OCR计算是将图片上传至服务器识别,由云端识别完成后再进行文本下发,路径较长,隐私泄露的风险也较高,而MIUI端侧识别模型则将所有计算都在本地完成,最大程度的保证了用户的安全隐私。
图片
图2.MIUI端侧识别模型
然而,在提升了安全隐私的同时,端侧OCR算法相较于常见的云端在线识别,对算法的要求则严苛了更多。它需要利用手机上有限的算力保证算法良好的运行,不仅要求识别速度快、识别准确,还需要考虑降低手机的内存和功耗占用。因此小米的技术团队在模型、算法与工程方面都下了许多功夫。
▍轻量模型:
想要在手机端侧运行OCR算法,模型的轻量化是必不可少的步骤,为此,技术团队不仅自研了轻量级的backbone,还使用剪枝技术进一步降低模型的参数量与推理耗时;
图片
图3. 使用剪枝技术降低模型参数量与推理耗时
针对文字行宽高比过大这一常见问题,还利用了重参数的技术来改善模型对长文本检测的效果,既能学习到更多细长的文本特征,同时又不增加任何推理时间。
图片
图4.使用冲参数技术改善长文本检测效果
为了进一步增加网络的感受野和多尺度特征,同时还能尽量保证降低对内存的消耗,加快网络推理速度, 我们还将常见的并行化的ASPP模块改成串行处理。最后我们还对模型做了后量化操作,并将其部署在cDSP设备上,进一步降低了模型的大小和推理耗时。
图片
图5.改进后的APSS模块
▍算法优化:
在算法方面,技术团队以智能聚类算法和多实例预测结果融合的方式,不仅降低了计算所需的算力,提升了方向识别的速度,同时还大幅增加了方向识别准确率;并且自研了快速行抗扭曲算法和快速版面顺序算法。
快速行抗扭曲算法是先将长文字分段,对文字片段做透视变化拟合后,进行拉直识别,并且为了能够准确识别到每个文字的位置信息,还会对拉直后的文本行做逆映射,映射回原文本图像中;
快速版面顺序算法则是在文字图像的检测框输入后生成无向图进行段落聚类,基于聚类结果判断当前版面顺序,以达更快确认版面方向,输出正确的阅读顺序。
▍工程精简:
在工程方面,小米的工程师同样也做了非常多的优化工作。为了最大的提升手机设备的算力利用率, 使用了多实例单线程的部署方案;并采用解码器字频排序Early Stop, 减少了95%以上的解码搜索次数。
在模型部署方面,则将每个模型模块部署在最合适的推理设备单元中。而为了进一步降低推理的耗时和功耗,还专门针对有大量无文字的场景,研发了多级尺度推理的机制。
目前我们端侧识别能力和准确性已经超越了iOS。
图片
图6. MIUI端侧识别准确性超越iOS
三、相机预览框实时OCR
在实现端侧OCR的同时,在小米13的相机上,我们的工程师进一步推出了相机预览框的实时OCR功能,在相机中只要拍摄画面对焦到识别文字,就可以点击”文字识别“,识别文字后可以直接选取文字进行搜索、复制、翻译、分享等操作,再也不需要像以前一样还得将图片存至相册,进行多步骤的界面切换。
这个新功能对于总是需要翻拍大量书本和ppt的大学生;总有一堆纸质文件的律师;以及走在路上看到招牌上有生僻字,想查但是却无从输入的我们都很实用。
图片
图7.相机预览框的实时OCR功能
然而,要实现实时OCR功能,背后也离不开技术团队自研的意图识别算法以及显著性文字区域检测算法。在光流检测与传感器检测的搭配下,只有在手机状态稳定的情况下,才会判定用户有识别文字的需求,并开启文字区域的检测;并且结合相机的焦点框,进一步检测与确认需要识别的文字区域。如此也让识别速度更快、功耗更低,才能确保实时预览的常开。
四、OCR与无障碍
在OCR功能的开发过程中,除了考量到隐私保护与功能的便利性,技术团队还考量到了一个特别需要隐私保护但又时常被忘记的群体—障碍人士。
我们在与视障朋友相处的过程中,有时会很习惯地帮他读出信息,像是银行的信息告知书、租房的合同。但却忘了这些信息也是他的个人隐私。而既然OCR可以实现将环境中的文字信息电子化,让视障人士也能在手机上”听到‘信息,那么隐私信息不也就不用再假他人之口吗?
所以在开发的过程中,技术团队与无障碍团队还做了一系列贴合视障用户习惯的无障碍优化,让障碍人士使用起来更加直观便捷。
▍自动跳转焦点,快速开启文字检测
以往在识别画面中的文字时,视障人士因为看不到画面中的文字到底哪里,会担心无法手动将焦点框对焦到文字上,也担心找不到文字检测按钮。
为了使视障人士操作起来更无顾虑,在talkback模式下,技术团队进行了特别的优化,只要画面中检测到文字,对焦框就会自对对焦,talkback焦点框也会自动跳转到文本检测按钮,并且播报“检测到文本,点击两次即可激活”。
如此再也不需要手动对焦,更不用担心对焦之后找不到文字检测按钮。
图片
图5. talkback模式下相机预览框的实时OCR自动跳转焦点至文字检测按钮
▍文字识别后自动播报
而为了进一步减少额外的操作,提供最符合使用习惯的体验,技术人员将以往需要滑动焦点框,再单击选中文字进行播报的交互操作进行了优化,只要识别出文字之后,便会将talkback焦点框对焦于画面中第一个句子,进行自动播报,让用户可以用简洁的操作、快速直观地获得信息。
图片
图6. talkback模式下相机预览框实时OCR会自动播报
▍文字分段,信息更明确
以往的文字识别功能,通常是将一整段文字作为一个大焦点,播报与操作都是根据整段文字来进行,但这样中途一分神,就会错过信息内容,重要信息也很容易就在一长段文字中被忽略。
为此相机OCR另外实现了依据版面和标点符号进行分段的功能,如此每一个短句子都可以单独听取播报,对于不重要信息就能快速跳过,还可以双击选中,分别进行复制、翻译等操作。
图片
图7. 相机预览框实时OCR进行短句分段操作
这些细节看起来过于细微,细微到当我们询问工程师时,他们都不觉得这事值得一提。但往往障碍者体验的鸿沟,就在这些不起眼的小事儿组成。我们内心的柔软、包容,往往也都由细节构成。
五、无障碍,我们一直在努力
很多人在讲到无障碍的时候都会说:我们应该要多关爱障碍人士。然而,障碍人士最需要的其实不是关爱,而是平等的生活方式。
也因此,我们一直觉得做无障碍,不是去做一个专门为障碍人士开发的功能,而是应该在设计所有功能时,都多问自己一句“它足够包容了吗?障碍者、老年人也可以顺畅地使用吗?”很多时候,便利与不便,只有一步之遥,这一步我们看到了吗?
从2013年小米开始关注无障碍以来,我们除了持续不断地在做好无障碍功能与适配,也从产品本身,逐步扩大到建立了小米以人为本的障碍者支持体系。
图片
图8.小米以人文本的障碍者相机预览框实时OCR进行短句分段操作
在以往,障碍者很常被视为“被帮扶者”,忽视了他们所具备的调适能力、独立性和最起码的尊严与体面,一个身为成年人最起码的尊严与体面——独立,也就不复存在。也因此,我们所建立的小米以人为本的障碍者支持体系,是让障碍者能合理的辅助下,发挥自身能力,在生活、心理上独立。
从一个人获取信息的手机开始,MIUI已经从视觉,延展到听觉、肢体,提供全方面的无障碍支持,还进一步推出无障碍触感、小米闻声、小爱通话等辅助功能;并且还通过公益性捐赠和项目支持,与一加一残障人集团一起教视障人士使用智能手机,让更多障碍人士能够享受信息带来的便利;
图片
图9.小米与一加一残障人集团一起教视障人士使用智能手机
在个人的信息交流获得满足后,在日常生活层面,小米智能家居的丰富生态与联动,以及小爱同学的语音操控,让复杂、费力的操作都成为“一句话”的事,更是大大提升残障人士的生活品质;与此同时,还通过支持中途失明者生活重建项目助力视障人士学习独立出行和生活。
图片
图10.中途失明者生活重建项目
完成家庭中独立自主的同时,我们也率先为最难就业的视障、重度肢体障碍者提供人工智能领域的就业岗位。如今该就业项目已稳定运行4年,就业人数翻了六倍。
更是通过对善淘慈善商店的捐赠,支持更多致力于社会融合的公益组织,共同倡导建立更包容的社会环境。
图片
图11.小爱同学视障标注员陈晓雯
如今,小米以人为本的障碍者支持体系已经稳步运行:一部便于每个人操作,用来获取信息的手机;一套便利的智能家居,实现了独立生活的可能;一份稳定体面的工作,让障碍人士可以独立生活、出行,甚至养家,拥有一份体面和尊严的障碍人士支持体系。让障碍人士从个人,到家庭,到社会都可以获得全面独立生活。
除此之外,我们也还一直在探索新技术的无障碍场景,像是AR眼镜等在听障用户群体中的使用场景;还透过内部竞赛与合作,促使推动生态链企业、员工关注无障碍场景,激发创新产品落地;并与一加一集团、微软等合作,推出无障碍课程与数字技能培训培训,持续进行意识倡导改变大众认知,使更多企业与个人参与到障碍人士的支持体系中。
而小米以人为本的障碍者支持体系荣获了2022年向光奖年度商业向善TOP10。
图片
图12.小米以人为本的障碍人士支持体系荣获2022向光奖年度商业向善TOP10
在获得众多肯定的同时,就如小米技术向善议题召集人朱汐所说:“这不仅是对小米公司的认可,更是对这几年来参与了体系的搭建的20余名内部培训师、几百位产品、研发、设计及各业务条线的同学、500多位小米志愿者、1000余名障碍用户的认可。真正的体系搭建在每个人的心里,我们不高估改变的难度,也不低估时间的力量,不断行动,将越来越多的“局外人”变成了“局内人”。
在无障碍这条路上,我们也期待有更多的同行者,让越来越多的障碍人士看到了独立、体面、有尊严且可持续的生活。

来自:掌上乐园
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

22

主题

1095

帖子

5213

积分

金牌会员

Rank: 5Rank: 5

积分
5213
沙发
 楼主| 发表于 2023-1-17 11:49:15 来自手机 | 只看该作者
沙发 talk说:
小米值得点赞,不知道大家有没有用过这功能

来自:掌上乐园
回复 支持 反对

使用道具 举报

74

主题

1831

帖子

7374

积分

金牌会员

Rank: 5Rank: 5

积分
7374
板凳
发表于 2023-1-17 11:55:50 | 只看该作者
板凳 汪洋大海说:
从来没用过
本帖来自安卓秘书
回复 支持 反对

使用道具 举报

22

主题

1095

帖子

5213

积分

金牌会员

Rank: 5Rank: 5

积分
5213
地板
 楼主| 发表于 2023-1-17 12:03:14 来自手机 | 只看该作者
地板 talk说:
回复 板凳汪洋大海

据说是MIUII14小米13系列才能用,其他的机型等后面升级看

来自:掌上乐园
回复 支持 反对

使用道具 举报

74

主题

1831

帖子

7374

积分

金牌会员

Rank: 5Rank: 5

积分
7374
5#
发表于 2023-1-17 12:39:34 | 只看该作者
5楼 汪洋大海说:
就这个拨号上屏乱跳焦点的问题,我都跟他们反映了多少次了,到现在升级了两个系统都没解决
本帖来自安卓秘书
回复 支持 反对

使用道具 举报

20

主题

98

帖子

1217

积分

中级会员

Rank: 3Rank: 3

积分
1217
6#
发表于 2023-1-17 13:15:28 | 只看该作者
6楼 风中的诺言说:
回复 5楼 汪洋大海
很久了,都心累了,最基础的都搞不好
本楼来自 天坦百宝箱
回复 支持 反对

使用道具 举报

4

主题

77

帖子

626

积分

中级会员

Rank: 3Rank: 3

积分
626
7#
发表于 2023-1-17 16:00:22 来自手机 | 只看该作者
7楼 栖息在深夜的狼说:
小米家的功能啥都做,就是没有一个做的精细的。

来自:掌上乐园
回复 支持 反对

使用道具 举报

22

主题

1095

帖子

5213

积分

金牌会员

Rank: 5Rank: 5

积分
5213
8#
 楼主| 发表于 2023-1-17 17:38:26 来自手机 | 只看该作者
8楼 talk说:
回复 5楼 汪洋大海

请问你用的是哪个型号呢?之前我用小米10好像都没有碰到这个问题

来自:掌上乐园
回复 支持 反对

使用道具 举报

22

主题

1095

帖子

5213

积分

金牌会员

Rank: 5Rank: 5

积分
5213
9#
 楼主| 发表于 2023-1-17 17:40:26 来自手机 | 只看该作者
9楼 talk说:
回复 8楼 talk

有总比没有强吧,起码人家做出来了,虽然没做到十全十美,但是还能用

来自:掌上乐园
回复 支持 反对

使用道具 举报

9

主题

126

帖子

1986

积分

高级会员

Rank: 4

积分
1986
10#
发表于 2023-1-18 03:51:58 | 只看该作者
10楼 寻觅遇知音说:
我红米K60拨号一切正常啊。
本帖来自安卓秘书
回复 支持 反对

使用道具 举报

74

主题

1831

帖子

7374

积分

金牌会员

Rank: 5Rank: 5

积分
7374
11#
发表于 2023-1-18 06:48:56 | 只看该作者
<
11楼 汪洋大海说:回8楼talk
我用的是红米K50拨 Pro.我从13升到14,这个拨号还是不好用。
本帖来自安卓秘书
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋| 爱盲论坛  

GMT+8, 2024-11-5 19:33 , Processed in 0.412731 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表