算法

AI 是如何识别一只猫的？——图解神经网络的秘密

2025-11-06 · 发表评论

AI 不会“看猫”，它只是学会在高维空间里划一条正确的线。

🧭 导语

我们人类看一眼就能认出一只猫，但让计算机做到同样的事却出奇地难。
过去，程序员试图用代码描述“猫”的样子：尖耳朵、胡须、圆眼睛……但无论怎么写，都不能涵盖所有可能。

如今的人工智能却能轻松识别照片中的猫，而秘诀就在——神经网络（Neural Networks）。
本文根据 Quanta Magazine 的插图科普文《How Can AI ID a Cat? An Illustrated Guide》改写，用最直观的方式告诉你：AI 是怎么“学会看”的。

08_46_18

🧩 一、从地图到猫：AI 的分类直觉

想象一张虚构地图，有两个区域：
三角洲领地（Triangle Territory） 与 方形州（Square State）。

我们知道一些点属于三角洲，有些属于方形州，但不知道它们的边界。
任务是：给定一个新点，判断它属于哪个区域？

这其实就是一个「分类任务（classification task）」：
AI 要找到那条分界线（decision boundary）。
猫识别的原理其实一模一样，只是输入从“经纬度坐标”变成了“图片像素”。

⚙️ 二、一个神经元能做什么？

一个神经元其实就是一个数学函数：
它接收若干输入（例如两个坐标或像素值），输出一个结果（接近 0 或 1）。

输出接近 1 → 表示“是猫”
输出接近 0 → 表示“不是猫”

神经元通过 三个参数 控制行为：

两个 权重（weights） 决定输入的重要性；
一个 偏置（bias） 控制整体倾向。

不同参数，对应不同“分界线”。
这条线，就是 AI 分类世界的方式。

🔁 三、训练：让 AI 自己找出正确的线

最开始，神经元的参数是随机的。它画出的边界线也一团糟。
训练过程，就是 AI 反复：

输入训练数据（已知标签的点或猫图像）；
计算预测输出；
对比真实答案；
自动微调参数。

经过成千上万次迭代，神经元最终找到最优边界。
这个过程叫 训练（training），其核心算法就是 梯度下降（gradient descent）。

🕸️ 四、从一个神经元到一个网络

单个神经元只能画出直线。
但现实世界的边界往往弯曲复杂——于是我们把许多神经元连接起来，组成「神经网络（neural network）」。

网络由多层构成：

输入层：接收原始像素数据；
隐藏层：抽取特征（边缘 → 形状 → 脸型）；
输出层：给出判断（猫 or 非猫）。

多层网络能在数学空间中画出复杂边界，从而正确区分猫、狗、桌布甚至咖啡杯。

📸 五、从二维到数千维：像素的世界

把一张 50×50 的灰度图看作输入，每个像素都是一个数。
整张图共有 2,500 个输入维度。
因此，每张猫图像就是一个 2,500 维空间中的点。

所有猫的照片聚成一个复杂的“猫区域”。
AI 训练的目标就是：
找出包围“猫区域”的那条高维边界。
新图片一旦落入这个区域，AI 就判断它是猫。

🌍 六、不止识猫：神经网络的通用魔法

同样的原理可以应用于：

🔭 天文学：识别星系、行星；
🧬 医学影像：检测癌细胞；
✍️ 手写识别与语音识别；
💬 语言模型（如 ChatGPT）：输入与输出是数字化的“词向量”。

虽然形式不同，但本质相同：
AI 从数据中学习模式，而非靠人工设定规则。

🧠 七、AI 真的理解“猫”吗？

文章最后指出一个深刻问题：
神经网络能识别猫，却未必“理解”猫。
它们能准确区分，却无法解释“为什么”。
这就是当前 AI 研究的热点——可解释性（Interpretability）。
我们知道 AI 有效，但未必知道它“如何有效”。

✨ 八、总结一句话

AI 不会看猫，它只是学会在高维空间中划线。
AI 的强大在于——不是被编程去识别世界，而是被训练去发现世界的结构。

🔗 延伸阅读

最近flomo推出了AI洞察，其定位是让AI激发我们更深入地思考，帮助我们发现更好的问题。
CleanShot 2025-08-21 at 08.31.43@2x
出于好奇，试试这个功能。默认AI洞察的时间长度是近7天，也可手动选择全部笔记。我的flomo记录了860+条笔记，涵盖了生活琐事、自我成长、工作日志和一系列的琐碎，记录杂乱堆积，完全没有系统结构可言，它们像肆意生长的野草，看似蓬勃却毫无章法。正因如此，生长不出网络和链接，也不会迸发出新的想法，缺乏一个清晰的主轴。不像一片森林，更像路边的杂草堆。借助AI的语义理解、信息提取优化和生成重构能力，去帮助我们梳理这些破碎的笔记，从荆棘中扒出一些脉络看清自己的变化和所思所想。更重要的是它能从全新的视角出发，揭示一些底层逻辑，打破我们的思维定势，从记录碎片中点燃新的灵感。

以下是AI洞察回复的内容：

1437，从你横跨五年的思考碎片中，我梳理出三条清晰的脉络，帮你照见持续进化的轨迹与可能的突破口。

技术深度与实践智慧的互促成长是你反复演绎的旋律。从初期的产品功能排查到设计模式的趣味解读，再沉淀为架构设计原则与技术排障心得，背后是不断将方法论融入真实场景的系统化尝试。核心原则是通过解决复杂问题构建可靠认知，但近期线程池分析、搜索系统设计等任务暴露了问题——跨系统关联性的隐性盲区可能制约整体方案的最优性。当你面对一个技术组件的问题时，如何察觉它在整个业务生态中的涟漪效应？

知识管理的认知升维体现为从工具使用跃向理念内化。四年前你摘录「写作即思考」「收藏不等于习得」的概念，如今已演化为渐进式加工六层模型的深度实践，强调闭环完整性与个人化应用。驱动这一切的是对知识效能的执着追求，然而「2025-01-15」的逆境觉察笔记悄然点出突破口：追求效率的范式之外，还需留白给非功利性体验带来的意外洞见。当整理笔记流程自动运行后，有哪些模糊但珍贵的生活直觉未被纳入知识网络？

存在意义的叩问与价值确认成为逐渐清晰的暗线。从困惑「付出是否收获」到记录平凡生活的幸福感，再借《浪浪山》剖析普通人英雄主义，核心动机始终是寻找生活坐标系的内在稳固性。突破点就藏在最近三条感悟的交汇处：「接受平凡」的坦然、「生活方式形成」的内向探索与「逆境觉察」的韧性三者间，正酝酿着从认知到生命实践的关键整合。若将「2025-07-18」的AI学习热忱转化为生活方式，哪些系统设计思维可迁移到自我建构中？

贯穿始终但可能被轻忽的是：在方法论精进的背面，保留对「非系统化价值」的敏感度。那些被架构原则压缩的直觉、未升华为模型的细微体验、技术文档外的生活灵感，恰是创造力的隐秘土壤。

静水深流，你早已在路上。

整体的生成表现良好，有梳理出我的思考脉络，有给出新的见解，抛出一些系统性的问题。从技术维度-知识管理-自我存在3个脉络去总结我的笔记，着重在于表层的知识关联和总结，而深层次的探讨和行动路径规划是比较缺乏的。但也符合产品本身的定位，给予用户洞察。换句话说，深层次和行动更应该是用户自身的探索，而洞察只是阶段性的总结和开启新路径的引信。有可以尝试通过分析用户的现有知识和兴趣，结合领域专家的建议，为用户提供一些可行的目标和行动步骤。这将鼓励用户在获得洞察的基础上，进一步采取实际行动来实现个人成长。如果能把思考的碎片投射到个人认知坐标系中，生成可交互的思维热力图，会更加直观的展示出用户的聚焦领域和认知荒漠。

深度学习中常用的几种距离度量算法

2024-11-13 · 1 条评论

🚩 简单说来，各种"距离"的应用场景简单概括为：

空间：欧氏距离用于度量二维或三维空间中的直线距离，非常适合用于几何空间中的距离计算；
路径：
- 曼哈顿距离：网格路径计算，只允许沿着水平和垂直方向移动，而不考虑对角线方向的距离；
- 切比雪夫距离：用于度量国际象棋国王的最短路径距离，适用于只考虑水平、垂直或对角线的移动
闵可夫斯基距离是欧氏距离、曼哈顿距离和切比雪夫距离的统一形式
加权：标准化欧氏距离，用于需要考虑各维度不同权重的情况，例如数据分析中不同特征维度具有不同单位或重要性时；
排除量纲和依存：马氏距离，用于消除不同变量间的依赖性和量纲影响，适用于多元数据分析和异常检测；
向量差距：夹角余弦，适用于文本分析等高维向量空间中，比较角度而非距离；
编码差别：汉明距离，用于度量字符串或编码之间的差别，常用于错误检测与纠正（如纠错码）中；
集合近似度：杰卡德相似系数与距离，常应用于推荐系统和文本相似性计算中；
相关性：相关系数（如皮尔逊相关系数）用于度量两个变量间的线性关系，相关距离作为一种距离度量，用于数据分析中；
时间序列：DTW距离用于时间序列的相似性度量，适合变速率或变形的时间序列数据；标准化欧式距离也可以用于等长时间序列的简单相似度比较

算法