语音和复杂声音序列中时间间隔的高效神经编码

root 提交于 周三, 06/03/2026 - 20:47
在复杂声音中对时间间隔进行编码面临双重挑战:它既必须精确,又必须覆盖宽广的动态范围。以语音为例,音节时长延长十毫秒即可标示重音或短语边界,然而音节时长的分布具有超过 500 毫秒的长尾特征,并且在不同说话者之间其统计特性也存在变化。在此,我们提出,听觉皮层采用高效编码来表征时间间隔。 当听者听到来自不同持续时长分布的音节序列时,时间皮层的脑磁图(MEG)反应会随音节时长而缩放,这一现象可用时间间隔反应函数来刻画。关键的是,该时间间隔反应函数符合高效编码的预测。其截距和斜率分别适应于音节时长的均值和方差,并且其始终表现出一种压缩性非线性,从而降低反应偏度,这与最大熵编码一致。一个持续更新对时长分布推断的计算模型,为这种高效编码提供了算法层面的解释;而颅内脑电图(iEEG)数据则证实,在自然语音理解过程中同样存在这些原则。综上,我们的研究揭示了一种高效的神经机制,它支持在复杂声音序列中对高度可变的时间间隔进行精确编码。

在复杂声音中对时间间隔进行编码面临双重挑战:它既必须精确,又必须覆盖宽广的动态范围。以语音为例,音节时长延长10毫秒即可标示重音或短语边界,然而音节时长分布具有超过500毫秒的长尾特性,并且其统计特征在不同说话者之间存在变化。在此,我们提出,听觉皮层采用高效编码来表征时间间隔。

当听者听到取自不同持续时间分布的音节序列时,来自颞叶皮层的脑磁图(MEG)反应会随音节时长而缩放,这一现象可通过时间间隔反应函数加以刻画。关键的是,这一时间间隔反应函数符合高效编码的预测。其截距和斜率分别适应音节时长的均值和方差,并且始终表现出一种压缩性非线性,从而降低反应偏度,这与最大熵编码一致。一个持续更新对持续时间分布推断的计算模型为这种高效编码提供了算法层面的解释,而颅内脑电图(iEEG)数据则证实,在自然语音理解过程中也遵循相同原理。总之,我们的研究结果揭示了一种高效的神经机制,支持在复杂声音序列中对高度可变的时间间隔进行精确编码。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.01.729227v1?rss=1

🏷️ 听觉皮层 时间间隔编码 高效编码 语音感知 脑磁图 计算模型