亚马逊的 Fire Phone 是一款什么样的智能机

亚马逊的 Fire Phone 是一款什么样的智能机

编码文章call10242025-02-01 3:58:5221A+A-

邹哥亮:

到目前为止,Fire Phone 是唯一能够满足我对“智能”的有限想像的智能手机。(多图)

这里以我有限的见识描述下Firefly 识别功能:

1、Firefly 所能识别的项目

A. Text recognizers: 泛指图像文本识别(Image Text Recognizer),有别于OCR(Optical Character Recognition),而是类似名片识别,拍照翻译等功能,其终极问题是 Google’s New Street View Image Recognition Algorithm Can Beat Most CAPTCHAs

B. Audio recognizers: 音频识别,如歌曲识别(这一领域的先驱Shazam使用户可以在任何地方通过歌曲的任何一个音轨对其进行识别),电视节目识别等;

C. Image recognizers: 图像识别,主要是基于内容的图像搜索(Content Based Image Retrival),更近一步讲是类似重复图片检测(Near-duplicate Image Detection),只要是数据库中存在的样本图像,只要查询图片是对其的重采样或编辑,总是可以找到原样本图片,这样就给人造成可以识别上亿商品的表象,说白了就是一对一的匹配,而非广义的图像识别。

这三项与小李子在KDD2012开幕式上演讲提到的九个需要解决的计算机问题的前三个OCR、语音识别、图像搜索(Nine Real Hard Problems We’d Like You to Solve [Abstract, Slides: PDF])[4]不谋(也可能是有谋)而合,尽管有所出入,但大抵是这个意思。可咱贝爷已经实现了,而且意指很明显,肯定能用它赚上钱,小李子你在忙啥,忙着跟Ng秀基情么?

文本识别和音频识别相对来讲识别对象明确些,且小生对这两块了解有限,接下来只讲图像识别这块,这边的战斗更多彩,摄像头做为移动设备的入口之一,早已成为兵家必争之地。

2、摄像头后面的头

烧不起器材的穷吊经常用“摄影不在于镜头多牛,而在于镜头后面的头” 解毒,这里我替贝爷喝句"FireFly就是摄像头后面的头",还在比像素你们真是LOW!

从摄像头捕捉到的图像中,FireFly做了这些:

二维码/条形码 识别;

电话号码/邮箱/网址 识别;

图书/CD/DVD/游戏封面,电影海报 识别;

艺术品识别;

商品识别;

听上去好像也就这样,企鹅家的微信和G家的goggles也有类似功能嘛,但是它们有巨大的区别!咱先说说贝爷为这事有多么努力骚年你们可知道呀:

2009年A9收购Snaptell[1],A9是amazon的子公司。Snaptell主要业务是手机图像检索,即通过手机摄像头抓拍到的图像搜索相关信息。官方介绍他们的算法非常之精准,可以对付遮挡,光照不均,扭曲,透视,缩放等等,总之很牛。他们的算法名字叫"highly accurate and robust

algorithm for image matching: Accumulated Signed Gradient

(ASG)"。创始人之一Rajeev Motwan在斯坦福大学指导过google创始人Larry Page 和Sergey Brin[2]。

2011年11月发布Amazon Flow应用程序,是一款增强现实的购物iPhone应用,它使用条形码和图像识别技术,让购物者直接在摄像头视图中获得信息。Flow可以识别出的书籍、DVD、CD、视频游戏和其他有包装的东西,比如一盒饼干——无论是通过扫描产品的图像还是条形码,通过识别媒介产品的封面、logo、艺术品以及其他一些独特的视觉特点来工作。Flow是亚马逊的子公司A9运营的,A9是亚马逊旗下的专注搜索和广告的部门[3]。

嗯,就是这么过来的,贝爷都这么努力了,骚年们还在晃悠什么,战斗去吧。

3、如何识别

发布会的视频中列举过一些技术名词,但多是用于图像预处理,并不体现图像识别的工作原理:

Adaptive local contrast enhancement

Adaptive noise reduction

Glare detection

Shadow removal

Underline removal

Two phase MSER scanning

Orientation normalization

Multiframe combination

Multiple OCR engines

Page layout analysis

Truncation filtering

Multiframe super-resolution

Confidence filtering

Hybrid 2-pass scanning

Adaptive scaling

Automatic cropping

所以小生并不能对其真实工作原理进行意想,要直白地描述这个过程也不是容易的事,这里给个参考:

Mobile Visual Search:

http://www.stanford.edu/~dmchen/mvs.html

http://www.slideshare.net/foerderverein/mobile-visual-search

4、情景购买:所见即所得

想象下通过手机拍照就能到达相应商品购买页面的情景,目前常用的手段是条形码和二维码,直接拍照购买的物品还局限在图书CD电影等,要扩展到全品类商品,需要海量的数据支撑。

微信已完成第一步,在第二步上,相信在其注资京东后会有所行动;百度有相关的技术,但缺乏完善的电商数据支撑,变现不那直接,百度识图只是个不是那么必要的工具;G家情况也类似,goggles沦为娱乐工具;阿里有先天优势,其定义的摄像头门户正合些题,但一淘火眼成长太慢了;所以,amazon在下一局大棋,并且有能力下好。

--------------

吕朝阳:

Amazon debuts Firefly technology上简要看了一下视频,Amazon Fire Phone 的识别并不是一个 general purpose 的方案,还是在于基于视觉和声音信息识别商品方便购买。视屏里看基本可以分从几种:

1. 条形码扫描,Firefly 配置了一个 Infrared LED,这个基本就是靠这个传感器辅助的。

2. 二维码扫描,基本功能了。

3. 商品的图像识别。Amazon 既然宣布了支持上百万种商品,应该是对已有商品在图像和文字标识上进行过训练的(bag of words)。因为发布商品的包装类型都比较固定,而且是肯定要进行入库拍照上网的,所以这个建库的过程相对于 google image 搜索这种,难度也要小很多。识别的实现可能有两种方式:

a) OCR 进行文字提取,提取商品名称或者其他字符信息作为关键字,然后进入已经训练好的图像库进行匹配。训练好的特征信息应该是云端的,考虑到上传数据的大小,大多数情况下应该是这种方式(至少视频展示出来的都可以如此进行)。

b) 没有文字的情况下直接根据特征,到图像数据库中匹配。

4. 声音信息的搜索应该类似视觉。但是个人并不做信号的研究,所以就不瞎说了。

类似于 OCR 这种功能时很实用的,但这个功能的主因应该是商品识别过程中夹带的,看起来比很多第三方应用要好很多。

至于一个 general purpose 的视觉识别方案,通过 Amazon 发布的 SDK 可能能够实现。但是总体来说,对于 machine vision 的从业人员来讲,基于 openCV 的移动版差不多都能做到这些功能,针对广泛的 android平台开发来说,这款手机在硬件上既没有 vision processor 的加速,也没有更多传感器,不见得比其他平台有什么优势。

至于更加好的 general purpose computer vision 的手机方案,大家去关注 google project Tango 吧 业内人士怎么看 Google 的 Tango 手机原型? : )

点击这里复制本文地址 以上内容由文彬编程网整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

文彬编程网 © All Rights Reserved.  蜀ICP备2024111239号-4