macOS 识别图片文字的效果是不是很好?

2021-12-09 18:53:35 +08:00
 mikewang

试了一下 预览 app ,好像很多文字都能自动识别,只有一些复杂背景并且颜色反差比较小的才难以识别出来。
是不是 Windows 就不行呢?
鸿蒙呢?(狗头)


2135 次点击
所在节点    macOS
14 条回复
zhouwb
2021-12-09 19:17:17 +08:00
识别还行吧,不算特别好的,但也不差,关键是方便啊,预览能直接拷贝文字链接不要太爽,工作快捷了很多
ynyounuo
2021-12-09 19:33:42 +08:00
比较出众的是多语言混排识别,我试过中英德语混排的照片是可以比较好的分别做出识别的

目前中文识别还不支持 language correction 所以实际上效果是不如其他支持的印欧语系的语言的
AndyZhuAZ
2021-12-09 20:42:17 +08:00
mikewang
2021-12-09 21:16:55 +08:00
#2 @ynyounuo 可能和中文的分词有难度,或者特殊用法比较多有关吧。有种感觉腾讯的 OCR 有纠错功能,因为它有时识别错误还能变成另一个词组,不是无意义的单字...

#3 @AndyZhuAZ 笑死,不过官方还不支持日文吧。Google 了一下 https://s2.loli.net/2021/12/09/6lormCKL5hXZ3Af.png
AndyZhuAZ
2021-12-09 22:42:52 +08:00
@mikewang 但是它能识别出日文字形的汉字和の,我不理解
YuiTH
2021-12-10 01:41:58 +08:00
@AndyZhuAZ 一般来说,这种模型的语料都不会是“纯 X 文”的,就像英文语料里肯定会出现“Café”,中文语料里混入一些の也可以理解。
具体来说,我们做自然语言生成都用到一个词表,词表是用这个语言的语料生成的,语料可能来源于 wiki 页面啊搜索引擎爬取什么的。看这个语言里面所有的字哪些出现在一起的可能性比较高,就会变成一个词。出现频率过低的字符可能会被扔掉,所以用中文词表可能就很难识别出奇奇怪怪的阿拉伯什么的。更别提语料里完全没见过的语言。
虽然有多语言的模型,词表会相应的覆盖所有语言。但如果规定了语言,我们可能就会指定使用对应语言的词表模型来做 OCR ,效果更好一些。
所以为什么能识别の,就是因为中文语料里の最常见,比其他假名都常见,词表里有这个字符,模型也学会了这个字符的造型。
AyaFrost
2021-12-10 03:08:41 +08:00
原来不支持日文,上次提取了半天还以为姿势不对。
最需要的就是群友发日文 meme 图的时候提取出来看看到底说的什么
whusnoopy
2021-12-10 08:01:26 +08:00
跟联动帖一样,标题和立场设偏了

不是 macOS 的文字识别有多强,是苹果的 OCR 技术有多强,并且在 iOS 15 和 macOS Monterey 上用系统原生应用自带了

Windows 不确定现在系统自带原生应用识别如何,很久以前 OneNote 和 PowerPoint 就有相当可用的识别能力了

歪楼联动下,https://techcommunity.microsoft.com/t5/azure-ai-blog/azure-text-to-speech-updates-at-build-2021/ba-p/2382981 这个 TTS 语音输出能力,该算微软的,还是 Azure 的,还是 Windows 或者谁的?
xing7673
2021-12-10 10:47:05 +08:00
@whusnoopy 等 edge 出一个我就认同你这段话。现在微软算法强但是系统集成太慢了。
agagega
2021-12-10 11:44:37 +08:00
为啥我预览里没法 OCR ,要浏览器里打开图片才行
liw2756
2021-12-10 21:56:29 +08:00
一般般,看人品,有的时候网页截图都有部分识别不出来
westtide
2021-12-11 10:56:36 +08:00
楼主考哪里啊
mikewang
2021-12-11 19:33:41 +08:00
#6 @YuiTH 解释得很专业!
#10 @agagega 预览的菜单栏中要选择[工具] - [文本选择],要 OCR 的话
#12 @westtide 南京某高校,这不是重点...
YuiTH
2021-12-11 21:23:21 +08:00
@whusnoopy 微软 Windows 和 Azure 不是一个 BG ,这篇文章是 Azure AI 的 Blog 的,应该和 Windows 关系不大。至于背后模型,有可能是 Azure AI 自己的团队做的,也可能是和 MSR 的联合作品。总之肯定是微软的。

@mikewang 这毕竟是我过去一年的本职工作: ) NLP 的入门门槛确实比 CV 要高一些,在送入模型以前有各种奇奇怪怪的预处理。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/821182

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX