具身智能中的传感器技术45——麦克风阵列0

麦克风阵列是具身智能机器人的核心听觉系统，通过多个麦克风的协同工作实现声学感知。其核心功能包括声源定位、波束成形和回声消除三大技术，使机器人能够在复杂环境中精准识别声音方向、过滤背景噪音并实现自然交互。主流配置采用6麦环形阵列，兼顾性能与成本，要求具备3-5米远场拾音能力。当前产业中，歌尔、瑞声等中国企业主导硬件市场，科大讯飞领跑语音算法领域。作为机器人的"社交器官"，麦克风阵

Godspeed Zhao

649人浏览 · 2026-05-07 06:27:53

Godspeed Zhao · 2026-05-07 06:27:53 发布

麦克风阵列 (Microphone Array) 是具身智能机器人的“顺风耳”。

它不是简单地放一个麦克风录音，而是通过多个麦克风（2个到8个甚至更多）在空间上的规则排列，配合复杂的数字信号处理算法（DSP），让机器人拥有听声辨位、噪声过滤和远场拾音的能力。

一、核心作用：为什么要用“阵列”？

单个麦克风（全向麦）只能听到“有声音”，但不知道声音是从哪来的，也分不清人声和噪音。阵列解决了三个核心问题：

声源定位 (SSL - Sound Source Localization)：
- 原理： 就像人有两只耳朵一样。如果声音从左边来，左边的麦克风会先听到，右边的晚一点听到。算法通过计算这个时间差 (TDOA)，就能算出声音的角度。
- 具身智能价值： 当你在背后喊“Siri”，机器人能立刻转头面向你。这是交互体验的基础。
波束成形 (Beamforming)：
- 原理： 把麦克风阵列想象成一个可以聚焦的“声学手电筒”。通过调整每个麦克风信号的相位延迟，可以增强特定方向的声音（比如主人的方向），同时抑制其他方向的声音（比如电视声）。
- 具身智能价值： “鸡尾酒会效应”。即使在嘈杂的商场里，机器人也能听清你在说什么。
回声消除 (AEC) 与降噪 (NS)：
- 原理： 机器人自己有电机噪音，还会播放语音。AEC 算法能把机器人自己发出的声音从录音里减去（Barge-in）。
- 具身智能价值： 随时打断。机器人在说话或者跳舞时，你喊它停，它能听见。

二、常见阵列构型

构型	线性阵列 (Linear)	环形阵列 (Circular)	分布式阵列 (Distributed)
形状	一字排开 (2-4麦)	圆形布置 (4-8麦)	全身分散布置
安装位置	机器人额头、胸口	机器人头顶 (最主流)	全身各处
定位能力	180° 半球<br>(只能分左右，分不清前后)	360° 全向<br>(前后左右都能分清)	最强，但算法最难
适用场景	电视机、服务台机器人	人形机器人、智能音箱	特殊科研用途

三、核心技术指标

麦克风数量 (Mic Count)：
- 一般来说，麦克风越多，定位越准，降噪效果越好。
- 主流配置： 6 麦环形阵列（兼顾性能与成本）。
拾音距离 (Pickup Range)：
- 远场 (Far-field)： 具身智能通常要求 3-5米 清晰拾音。
信噪比 (SNR)：
- 麦克风硬件本身的底噪。高性能麦克风 SNR 通常 > 65dB。
AOP (Acoustic Overload Point)：
- 麦克风能承受的最大音量（不破音）。
- 机器人电机就在旁边，噪音很大，需要高 AOP（如 130dB）。

四、产业现状

硬件 (MEMS 麦克风)：
- 歌尔股份 (Goertek)、瑞声科技 (AAC)： 中国双雄，全球市场份额极高。
- 楼氏电子 (Knowles)、英飞凌 (Infineon)： 国际高端霸主。
算法 (语音前端处理)：
- 科大讯飞 (iFLYTEK)： 国内语音交互绝对的王者，提供完整的软硬一体化方案。
- 思必驰 (AISpeech)、云知声： 也是主流的语音算法供应商。
- XMOS / Synaptics： 提供专门的语音 DSP 芯片。