---
title: Psychoacoustics
summary: 心理声学完整体系——响度/临界频带/掩蔽/音高/包络/粗糙度/空间感知/音调度/声质量评价，面向汽车音效设计应用。
category: concepts
tags: [psychoacoustics, loudness, masking, pitch, timbre, sound-quality, automotive, avas, hmi]
sources: ["VW internal / Zwicker ISO 532B / Fastl & Zwicker Psychoacoustics 3rd ed."]
created: 2026-05-01
updated: 2026-06-12
provenance: created=1.0
---

# Psychoacoustics 心理声学

> 汽车音效设计师实用版——每一个概念都直接关联设计决策

## 1. 响度（Loudness）

### 核心单位

| 单位 | 定义 | 汽车应用 |
|------|------|---------|
| **Sone（宋）** | 主观响度。1 sone ≈ 40 dB SPL @ 1kHz 纯音 | HMI 触控音 5–15 sone；高速行驶 30–60 sone |
| **Phon（方）** | 等响条件下的声压级度量（1kHz 为参考） | 等响曲线绘制 |
| **Zwicker 法（ISO 532B）** | 对含脉冲/调制噪声的精确响度算法 | VW 内部标准；齿轮啸叫/风噪分析 |
| **K计权** | A计权的平方关系，接近宽频噪声感知 | EV 警示音响度评估 |

### 关键规律

- 声压每翻倍 → 响度约增加 **3 sone**（指数关系，非线性）
- 低频能量主导 → 响度大但不刺耳（引擎轰鸣型）
- 高频能量主导 → 响度较小但尖锐（刺耳）
- **谱坡度越陡（高频强）→ Sharpness（尖锐度）越高**

### 实战注意

- 车内实际响度 ≠ 扬声器消声室测量值——需叠加引擎/风噪/座椅吸声的修正
- 同一音效在怠速背景（~35 dB(A)）和高速背景（~70 dB(A)）下的**主观感知差异巨大**，本质是掩蔽效应
- **响度积累效应**：频率越高、重复频率越快，听起来越响。所以除了看表，最终一定要回到实车环境（或者模拟座舱）中，用声级计测量在背景噪声底（模拟行驶噪音）下的信噪比

---

## 2. 临界频带与频率感知（Critical Band & Bark Scale）

### Bark 尺度

- 人耳频率分辨力的心理物理单位：**0–24 Bark**（覆盖 0–16kHz）
- 低频：1 Bark ≈ 100 Hz；高频：1 Bark ≈ 20% 带宽
- **谱坡度效应**：
  - 上升谱（低频强、高频弱）→ 柔和温暖（内燃机声）
  - 下降谱（高频强、低频弱）→ 尖锐紧张（电动车科幻感）

### 设计应用

- AVAS 160Hz–5000Hz 的 1/3 倍频程法定要求，本质是临界频带设计的感知窗口
- 品牌特征音设计时，法定频段内不能出现谱空隙——否则法规测试失败

---

## 3. 掩蔽效应（Masking）

### 频域掩蔽（Simultaneous Masking）

- 强音（masker）在频域提升周围频率的听觉阈值
- 低频 masker 极易掩蔽高频；反向则弱得多
- 掩蔽阈值通常比 masker 低 **3–5 dB**
- **设计原则**：目标音在背景噪声掩蔽阈值以上 **6–10 dB**

### 时域掩蔽（Temporal Masking）

- 强音后 50–200ms 内弱音被掩蔽（后掩蔽 > 前掩蔽）
- 换挡提示音不应紧接在强引擎轰鸣后出现

### 静音区（Quiet Zone）设计

- 在目标频段**主动降低背景噪声**而非增大目标音——更自然的可察觉性提升方式

### 汽车场景典型掩蔽矩阵

| 目标音效      | 主要背景噪声  | 掩蔽风险     | 对策                    |
| --------- | ------- | -------- | --------------------- |
| AVAS 警示音  | 高速风噪/轮胎 | 高车速时完全掩蔽 | 频率避开噪声峰值区             |
| 车门锁提示音    | 引擎怠速    | 低速时弱     | 加高频成分（>2kHz）提升穿透力     |
| HMI 触控确认音 | 音乐/广播   | 中等       | 短促瞬态（<50ms）绕过掩蔽窗口     |
| 转向灯滴答     | 胎噪      | 高速时不清    | 调制深度增加，选在人耳敏感区 1–4kHz |

---

## 4. 音高与虚拟音高（Pitch & Virtual Pitch）

### 基频 vs 谐波结构

- < 500 Hz：音高判断以基频为主
- > 2 kHz：基频感知减弱，人耳根据谐波间距推断音高（**虚拟音高**）
- 谐波缺失时大脑仍能推算基频（电话语音保留旋律感的原因）

### 汽车音效设计中的音高应用

- AVAS 基频须**随车速线性偏移**（约 0.8%–1.0%/km/h）——**Pitch Shifting 是 AVAS 设计的灵魂**
- ESS（引擎声模拟）音高与电机转速/扭矩曲线联动
- 行人通过音高变化判断车辆加减速状态

---

## 5. 起始瞬态与包络（Attack & Envelope）

### 上升时间（Rise Time）对感知的影响

| 上升时间 | 感知特征 | 典型应用 |
|---------|---------|---------|
| < 5 ms | 敲击感、精准、即时 | HMI 触控确认音 |
| 5–50 ms | 清晰但不突兀 | 一般 UI 音效 |
| 50–200 ms | 柔和、豪华、渐进 | 开机启动音 |
| > 200 ms | 缓慢、模糊、可能不适 | 需避免 |

### ADSR 四要素

| 要素 | 含义 | 对感知的决定 |
|------|------|------------|
| **Attack** | 声音达到峰值的速度 | "敲击感" |
| **Decay** | 峰值到稳态的过渡 | "结实感" |
| **Sustain** | 稳态电平 | "厚重感" |
| **Release** | 声音消失的速度 | "余韵" |

### HMI 音效设计对照表

| 类型 | Attack | Decay | Sustain | Release | 总时长 |
|------|--------|-------|---------|---------|-------|
| 确认音（acknowledgement） | <10ms | 短 | 无 | 中 | <300ms |
| 警示音（warning） | 快 | 中 | 够长（确保掩蔽穿透） | 长 | 500ms–1s |
| 启动音（boot） | 慢（50–200ms） | 中 | 中 | 长 | <1.5s |

---

## 6. 调制感知：粗糙度与波动强度

### 调制频率与感知类型

| 调制频率 | 感知类型 | 单位 | 应用场景 |
|---------|---------|------|---------|
| 0.5–4 Hz | 波动强度（Fluctuation） | vacil | 转向灯滴答声 |
| 4–20 Hz | 幅度调制敏感区 | — | 人耳对缓慢晃动的感知 |
| **20–150 Hz** | **粗糙度（Roughness）** | **asper** | 引擎怠速振动、变速箱啸叫 |
| > 150 Hz | 无明显粗糙感 | — | — |

### 粗糙度（Roughness）详解

- 单位：asper；1 asper ≈ 1.7 dB 调制深度 @ 70 Hz
- **齿轮啸叫（Gear Whine）**： tonal 噪声 + 调制 → 高粗糙感 → 极度不适
- CF 滤波器：中心频率 350 Hz，带宽 150–1000 Hz
- **设计目标**：车内齿轮啸叫粗糙度 **< 0.5 asper**

### 波动强度（Fluctuation Strength）

- ~4 Hz 时最强（接近心跳频率）
- 转向灯滴答：调制频率 1–2 Hz（每次滴答 = 一个调制周期）
- 滴答频率过快（>4 Hz）→ 烦躁感

---

## 7. 空间感知与车舱声学（Spatial Perception）

### 双耳定位机制

| 维度 | 依赖因素 |
|------|---------|
| 水平面（Azimuth） | ITD（双耳时间差）+ ILD（强度差） |
| 垂直面/前后 | HRTF（头相关传输函数）的频谱特征 |
| 距离感 | 直达声/混响比（D/R）+ 熟悉度 |

### 车舱内的特殊声学问题

- 扬声器安装位置（车门/仪表台）→ HRTF 特征改变 → 声音"仪表台感"
- 玻璃高频反射强 → 高频堆积 → 尖锐感增加
- **in-head localization**（声音在头部内定位）→ 不适感，须通过 HRTF 调整避免

### AVAS 360° 方位感设计

- 行人从任意方向都须能感知 EV 警示音
- 扬声器安装位置（前保险杠/挡泥板）决定水平面覆盖
- 需测试：侧向（90°）和正后方（180°）的声压衰减

---

## 8. 音调度（Tonality）与 tonal 噪声控制

### 音调可察觉阈值（Tonal Audibility）

- 某频段 tonal energy 超出掩蔽阈值 **> 4 dB** → 人耳感知为"音调"
- 纯音比同等能量的宽带噪声**更恼人**（烦躁感高 10–15 dB）

### 汽车 tonal 噪声典型来源

| 来源 | 典型频率 | 核心问题 |
|------|---------|---------|
| 齿轮啸叫（Gear Whine） | 800–4000 Hz | tonal + 粗糙感叠加，最难容忍 |
| 电机啸叫（Motor Hum） | 200–800 Hz | 持续高音调 |
| 风扇噪声 | 500–2000 Hz | 宽带 + 弱 tonal |
| 空调压缩机 | 100–300 Hz | 低频 tonal |

### 设计原则

- tonal 成分压到掩蔽阈值以下 **4 dB**，或转成宽带噪声
- 无法消除时：用相位调制（vibrato）展宽频谱 → 降低音调度

---

## 9. 声质量（Sound Quality）主观评价体系

### 九大感知维度

| 维度 | 单位 | 舒适目标 | 警示音目标 |
|------|------|---------|-----------|
| 响度（Loudness） | sone | 5–15 sone（怠速） | 15–30 sone |
| 尖锐度（Sharpness） | acum | 1.0–2.5 acum | — |
| 粗糙度（Roughness） | asper | **< 0.5 asper** | < 1.0 asper |
| 波动强度（Fluctuation） | vacil | < 0.3 vacil | — |
| 音调度（Tonality） | dB（相对掩蔽） | **< 4 dB**（不可察觉） | < 6 dB |
| 跳动度（Impulsiveness） | dB | < 3 dB | — |
| 愉悦度（Pleasantness） | 1–10 分 | **7–8 分** | — |
| 烦躁度（Annoyance） | 1–10 分 | **< 4 分** | < 5 分 |
| 清晰度（Clarity） | % | > 85% | **> 95%** |

### 语义差异量表（SD法）

- 常用维度对：响/轻、尖/柔、稳/抖、悦/噪
- 评审者在线打分，绘制偏好曲线

### 偏好曲线（Preference Curve）

- 高响度 → 偏好平坦谱；低响度 → 偏好低频稍强的谱
- 车速越高 → 警示音所需高频能量比例越高（补偿掩蔽效应）

---

## 10. 汽车音效设计心理声学决策树

```
新音效设计需求
    │
    ├─ 是否需要法规认证？
    │   └─ AVAS → 核查 13.2（频段）+ 13.3（响度）
    │       ├─ 中国 GB/T 37153：160–5000Hz，≥2个频段
    │       ├─ 欧盟 UN R138：10–60 km/h，3个非相邻频段
    │       └─ 美国 FMVSS 141（最难）：4个非相邻频段或2个极宽频段
    │
    ├─ 是否在噪声背景下？
    │   └─ HMI → 走掩蔽分析
    │       ├─ 目标音在背景掩蔽阈值上 6–10 dB
    │       ├─ 时域掩蔽窗口 50ms 前后检查
    │       └─ 频谱避开背景噪声峰值
    │
    ├─ 感知人群是谁？
    │   ├─ 行人 → AVAS 响度 + 方位感（360°）
    │   ├─ 驾驶员 → HMI 清晰度 > 85%
    │   └─ 乘客 → 舒适度（粗糙度 < 0.5 asper）
    │
    └─ 品牌调性定位？
        ├─ 科技感 → 下降谱 + 快 Attack + 低粗糙度
        ├─ 运动感 → 谐波丰富 + Pitch 随车速变化 + 中等粗糙度
        └─ 豪华感 → 上升谱 + 慢 Attack + 无 tonal 噪声
```

---

## 11. LUFS 与心理声学响度（响度计量实战）— 承上 §1

> §1 讲的是 sone/phon 和 A/K 计权（基础概念）。本节补充 **LUFS 标尺**、**心理声学响度模型**、**多指标联合判定**（实战工具链），两节互补不重复。

### 11.1 LUFS：响度计量标尺

**定义**：Loudness Units relative to Full Scale，ITU-R BS.1770-4 国际标准。

| 单位 | 用途 |
|------|------|
| **LUFS** (Integrated) | 整段平均响度 |
| **LUFS-S** | 3 秒滑动窗口 |
| **LUFS-M** | 400 ms 滑动窗口 |
| **LRA** | 响度动态范围（EBU Tech 3342） |
| **TP** | 真实峰值（避免削波） |

**行业标准速查**

| 场景 | 目标 | True Peak |
|------|------|-----------|
| 流媒体（Spotify/YouTube） | -14 LUFS | -1 dBTP |
| Apple Music | -16 LUFS | -1 dBTP |
| 欧洲广播 EBU R128 | -23 LUFS | -1 dBTP |
| 美国广播 ATSC A/85 | -24 LKFS | -2 dBTP |
| **车内音频（OEM 常见）** | **-20 ~ -23 LUFS** | 视规范 |
| 电影（影院） | -23 LUFS | -2 dBTP |

### 11.2 ⚠️ LUFS 相同 ≠ 听起来一样响

LUFS 是 K-weighted 整体能量平均值，忽略 4 个听感关键维度：

**1. 频谱分布**（最关键）— 人耳对 **2-5 kHz** 区间最敏感。同样 -23 LUFS：
- 低频堆积（50-200 Hz）→ 闷
- 中频突出（2-4 kHz）→ 亮、穿透力强
- **设计应用**：AVAS 必须在 2.5 kHz 附近有能量才被听到

**2. 时间结构** — LUFS 平均掉瞬态。持续蜂鸣（-23 LUFS）= 响；短 Click <50ms（-23 LUFS）= 不响。HMI Click 类音容易"被吃掉"。

**3. 立体声场** — K-weighting 是单声道模型。立体声 vs 单声道同 LUFS，主观响度差 **3~6 LU**。

**4. 掩蔽效应** — 背景噪声（空调/路噪/胎噪）会改变主观响度，详见 §3。

### 11.3 心理声学响度模型（比 LUFS 准）

| 模型 | 标准 | 适用 | 备注 |
|------|------|------|------|
| **Zwicker** | ISO 532-1 | 稳态声 | 1 sone = 1 kHz @ 40 dB SPL |
| **Moore-Glasberg** | ISO 532-2/3 | 低频/宽带/瞬态 | Zwicker 改进版 |
| **Sottek** | ECMA-74 / 418-2 | **汽车行业事实标准** ✓ | VW / Bosch / Harman 用这个 |

**关键单位**：
- **Sone**（宋）：线性主观响度，+10 dB SPL ≈ ×2 sone
- **Phon**（方）：等效 1 kHz SPL 的响度级
- **N' Specific Loudness**：24 个 Bark 带的响度分布

**Bark 13-17（2-5 kHz）是听觉最敏感区**——这就是"中频突出 = 响"的根本原因，详见 §2。

### 11.4 多指标联合判定（VW 音效对比工作流）

```
1. 粗筛：LUFS Integrated（统一基准）
2. 中筛：1/3 Octave Band SPL（看 2-5 kHz 是否够亮）
3. 细筛：Sharpness（acum） + Tonality（dB）
4. 主观：MUSHRA 听音打分（ITU-R BS.1534，最终判定）
```

### 11.5 工具速查

| 工具 | 能力 | 备注 |
|------|------|------|
| **ffmpeg + ebur128** | LUFS / TP / LRA | 命令行批量，免费 |
| **mosqito (Python)** | Sottek / Zwicker / Sharpness / Roughness | `pip install mosqito`，工业级 ✓ |
| **python-loudness** | ITU-R BS.1770 | 轻量 |
| **ArtemiS SUITE (HMS)** | 全套心理声学 | 商业 NVH 标准 |
| **HEAD acoustics ACQUA** | 车载音效测试 | 商业 |
| **MUSHRA** | 主观听音 | ITU-R BS.1534 标准流程 |

**ffmpeg 快速测 LUFS**：
```bash
ffmpeg -i input.wav -af ebur128=peak=true -f null -
# 输出：I: -23 LUFS / LRA: 7 LU / Peak: -1.0 dBFS / -1.0 dBTP
```

**mosqito 快速算 Sottek 响度**：
```python
import mosqito
N, N_spec, bark_axis = mosqito.sottek_loudness(signal, fs)
print(f"响度: {N:.2f} sone")
print(f"峰值 Bark 带: {bark_axis[N_spec.argmax()]:.1f}")
```

### 11.6 在 VW 音效对比场景的应用

MM / Acose / CEA 三家交付对比时，建议**追加心理声学指标**：

| 文件 | LUFS | Sottek (sone) | Peak Bark | Sharpness |
|------|------|---------------|-----------|-----------|
| CEA_click.wav | -23 | 5.2 | 15 (2.7 kHz) | 1.8 |
| MM_click.wav | -23 | 4.1 | 8 (900 Hz) | 1.2 |

→ 同样 -23 LUFS，**CEA 响度 +27%**，因为峰值在 Bark 15（中频敏感区）—— 直接量化"为什么 CEA 听起来更响"。

---

## 相关页面

- [[avas-design-guide]] — AVAS 法规设计，频段/响度要求与心理声学直接对应
- [[hmi-overview]] — HMI 人机界面，音效设计边界与心理声学应用场景
- [[audio-glossary]] — 心理声学专业术语速查表（Sone/Bark/Asper/Vacil 等）
