微信扫码识别物体的“切”“搜”手法大揭秘

terry 2年前 (2023-09-27) 阅读数 84 #数据结构与算法

微信扫码识别物体是典型的“离线写作，在线阅读”。保存公司信息和建立搜索数据库都是在离线模式下完成的。我们通过索引系统将产品图片收集到小程序的生态系统中。上传后，我们对图片进行检测和裁剪，提取搜索特征，最后构建搜索数据库并交付到Web环境。本文主要介绍这部分工作。

0什么是物物

物物以图像或视频为输入，挖掘微信生态中的产品、物品等有价值的信息。这里我们基本覆盖了微信上的全品类优质小件电商，覆盖上亿个SKU。我们从搜一搜、搜狗等微信信息中收集信息，最终合并后呈现给用户。百度看图、阿里图片淘宝也都是基于该技术开发的。

在工程工作中，物体识别的工作主要可以分为三个部分，如如图一所示：

图1

算法模型

主要关注连续检测模型的算法细化。多类别搜索模板。，识别模型必须返回图像中物体的准确位置；搜索模型必须保证同一对象的属性表达式尽可能接近。

线下策划

认可是典型的“线下写作、线上阅读活动”。公司数据的存储和搜索库的构建都是在离线环节完成的。我们通过索引系统将产品图片收集到小程序的生态系统中。上传后，我们对图片进行检测和裁剪，提取搜索特征，最后构建搜索库并交付到Web环境。本文主要介绍这部分作品。

在线部署

离线创建的算法模型和搜索数据库终于实现并可供外部服务。当用户识别一个对象时，搜索库会返回一组相似的对象，然后经过一组复杂的排序和过滤逻辑，最终返回用户看到的结果。

1挑战

数据版本

数据版本主要分为两类。一是算法模型版本。我们有10多个商业模型，平均每周有2-3个模型迭代更新。第二个是搜索库版本。当模型不迭代时，每天都会组合新的数据，即增量迭代；每次算法模型发生变化，特征表达就会发生变化，搜索库就必须根据新的特征重新构建，即全迭代。。

在版本频繁变更的情况下平衡公平性和安全性。

计算能力

目前，我们已经收集了约10亿张图像，平均每天新增1500万张。除了大量的图像之外，还有很多任务流程，比如下载如图电影、物体检测、特征提取等任务。每个任务每天都需要数千万次的数据处理运算。

如何有效处理数据，提高业务迭代效率。

复杂的流程

随着业务的发展，简单的业务流程已经无法满足我们日益复杂的业务需求。为了提升业务指标，我们可能还需要图像质量、文本语义、死链接、下架产品过滤等任务。

当进程数量增加时，如何避免整个系统的臃肿。

数据质量

离线规划是一项流程繁重的业务。数据从生成到实现要经过九个或八十一个循环。任何一个环节的错误都会导致结果出现问题。问题发现得越晚，解决问题的成本就越高，评估其对业务的影响也就越困难。

如何科学地监控和管理数据质量，使系统具有良好的可维护性。

2 数据版本

数据版本存在多个维度，如模型版本、特征版本、搜索库版本等。上游链接的版本变化会触发后续链接的变化，最终导致搜索库版本更改。

图2简化数据流图

2.1搜索数据库

在我们的业务场景中，搜索数据库的迭代是一个高频次的操作。一般情况下，每天都会逐步更新，模型变化会触发搜索库全面更新。从数据规模上来说，我们的图片总数是几亿级，划分类别之后，每个类别也是几千万级。

我们探索了主要在工业中用于搜索图像的技术，如《如图》3 所示。经过多方考虑，我们选择了faiss-ivf作为我们的索引建库算法，该算法更加灵活，内存占用也更小。

图3 图片搜索库选择

对于日常附加信息，我们每天为每个类别（10+类别）构建对应的当日数据搜索库。通过组合N天搜索库（faiss-ivf功能），创建每个类别的完整搜索库。连接2000w数据仅需4分钟。基于这样的设计，我们可以灵活选择时间窗口区域。如图3展示了与窗口2的合并方法。

这样做的好处是，如果某一天的数据有问题，只需要修正当天的数据即可进行合并；如果您需要丢弃一些数据，例如旧数据，则不能在合并过程中仅选择它。？模型。当新的搜索数据库上线时，基本上是新旧信息之间的过渡。通常，复杂的系统旨在确保新旧数据切换时的数据一致性。

2.2.1 模型变更检测

严格来说，在这个场景中我们并没有实现数据库变更时新旧数据的一致性。我们只是用一个简单的方法来做，即使新旧数据同时存在。不影响用户体验。

这主要涉及建立我们的映射关系。我们为每个观察到的结果分配一个唯一的单调递增 ID。改变模型后，同一图像的识别结果会发生变化。手术的位置可能会改变，可能会缩小不同的目标，或者可能会缩小多个目标。

如图 5表示搜索库v1只有顶部部分，对应的Search ID为1；更改检测模型后，搜索库v2可以同时检测上半部分和下半部分，对应的搜索ID为2和3。这样在线模块可以逐步更新搜索库，旧的和下半部分没有影响。新的搜索数据库同时在线存在。如果请求命中旧数据库则返回1，如果命中新数据库则返回2，但最终还是返回了正确的结果，与一致。

图5 感知模型变化

2.2.2 搜索特征模型变化

该场景下的搜索数据库变化要复杂得多。搜索存储库的属性来自搜索属性模型。改变搜索模型后，同一物体图像的特征表达完全不同，甚至维度也发生了变化，如如图6所示。

我们需要同步搜索特征模型服务和新搜索库的变更，通过双缓冲区实现新旧数据共存，并实施严格的路由协议以保证请求在同一版本的特征搜索服务和搜索库上执行。

图 6 搜索特征模型变更

2.3 数据版本控制系统

在开发过程中，算法必须将各种模型交付到离线和在线模式，离线模式下创建的搜索库也必须交付到在线模式。而数据版本迭代还必须考虑版本可逆性。为了分离多方之间的依赖关系，避免同步过程中直接访问文件带来的风险，开发了数据版本控制系统。

如如图7所示，资源发布者将资源连同相应的公司、版本号和md5一起上传到系统。资源使用者只需要了解对应公司当前的版本号，版本控制系统就会返回对应的资源文件。在线模块在实际在线使用时，定期训练特定公司对应的数据版本文件的md5与本地文件的md5是否兼容。如果不一致，则拉取最新文件。获取完成后，将检查 md5 的一致性，最后应用更新。

当业务模型或搜索库需要恢复时，只需更改配置文件并重新启动服务即可。