DeepSeek 近期推出了其革命性的“识图模式”,标志着其多模态能力实现了从简单的文字识别到深层次的图片理解飞跃。
该模式不再局限于基础的OCR,而是赋予了AI“看世界”的能力,并已向大量用户开放体验,尽管目前仍处于内测阶段。
实测数据显示,开启“识图模式”后,DeepSeek展现出惊人的多维能力。
在知识探索方面,它能充当“博物学家”,不仅能精细描述文物纹理材质,甚至能准确推断出特定时期的风格(如识别18世纪清代乾隆的“痕都斯坦风格”)。
在逻辑挑战方面,它也展现了硬核推理力:面对复杂的空间推理题,通过启用“深度思考”模式,耗时约四分钟后,成功推导出正确答案。
此外,该模型还深度融入了“网感”理解,能够精准识别合照中的人物,并解读网络表情包背后的笑点。
在生产力领域,它被升级为万能“截图转码器”,能够解析复杂的代码或UI截图,提取所有文本,并一键反向生成可交互的HTML代码,甚至能复原网页上的跳转功能。
支撑这一突破的核心是DeepSeek公开的“Thinking with Visual Primitives(以视觉原语思考)”框架。
该技术旨在克服传统多模态模型在处理密集场景时存在的“指代鸿沟”——即用模糊的自然语言描述空间关系容易导致推理链条混乱。
DeepSeek的创新在于,它将图像中的点、边界框等空间信息直接作为模型推理过程中的“思维基本单元”。
这种机制让AI能够如同“赛博手指”一样,在思考的同时精确标记目标物,从而完美解决了复杂空间布局中的逻辑难题。
更重要的是,这一高效的框架在实际运算中对算力资源非常友好。