MSU-Bench: Towards Understanding the Conversational Multi-Speaker

Abstract

口语理解(Spoken Language Understanding, SLU)已经从传统的单任务方法发展到大规模音频语言模型(LALM)解决方案。然而,大多数现有语音基准测试聚焦于单说话人或单一任务,忽视了现实中常见的多说话人对话所带来的挑战。我们提出了MSU-Bench,这是一个面向说话人设计的多说话人对话理解综合评测基准。

我们的层级框架涵盖四个递进层级:单说话人静态属性理解单说话人动态属性理解多说话人背景理解,以及多说话人交互理解。该结构确保所有任务均基于以说话人为中心的语境,从基础感知到多说话人间的复杂推理。通过在 MSU-Bench 上评估当前最先进的模型,我们发现随着任务复杂度在不同层级中逐步上升,所有模型的性能均显著下降。我们还观察到开源模型与闭源商用模型之间持续存在能力差距,尤其在多说话人交互推理任务中表现明显。这些发现验证了 MSU-Bench 在评估和推动真实多说话人环境中对话理解方面的有效性。

Spoken Language Understanding (SLU) has progressed from traditional single-task methods to large audio language model (LALM) solutions. Yet, most existing speech benchmarks focus on single-speaker or isolated tasks, overlooking the challenges posed by multi-speaker conversations that are common in real-world scenarios. We introduce MSU-Bench, a comprehensive benchmark for evaluating multi-speaker conversational understanding with a speaker-centric design.

Our hierarchical framework covers four progressive tiers : single-speaker static attribute understanding, single-speaker dynamic attribute understanding, multi-speaker background understanding, and multi-speaker interaction understanding. This structure ensures all tasks are grounded in speaker-centric contexts, from basic perception to complex reasoning across multiple speakers. By evaluating state-of-the-art models on MSU-Bench, we demonstrate that as task complexity increases across the benchmark’s tiers, all models exhibit a significant performance decline. We also observe a persis tent capability gap between open-source models and closed-source commercial ones, particularly in multi-speaker interaction reasoning. These findings validate the effectiveness of MSU-Bench for assessing and advancing conversational understanding in realistic multi-speaker environments.

📎 Click Here See Full Paper (PDF)

QA Pipeline

QA Pipeline

为了构建涵盖多种以说话人为中心的音频文本任务的四层基准测试集,我们构建了一个严格的问答生成流程(将完全开源),该流程能够从涵盖多种真实场景与声学条件的多说话人对话中自动生成高质量的问答对。针对每项核心能力,我们设计了专门的提示,引导模板构建和问题设计,确保生成的问答样本与任务目标高度一致。

To construct the four-tier benchmark with diverse speaker-centric audio-text tasks, we build a rigorous QA generation pipeline(will fully open-source) that automatically produces high-quality question–answer pairs from multi-speaker dialogues spanning various real-world scenarios and acoustic conditions. For each core ability, we design dedicated prompts to guide template construction and question formulation, ensuring that the resulting QA samples are tightly aligned with task-specific objectives.

QA Statistics

QA统计图

We implement a multi-stage quality control process in which large language models perform initial filtering to eliminate substandard samples, establishing a foundation for benchmark quality. For reasoning-intensive questions, which are susceptible to annotation errors or involve complex inference processes, we conduct comprehensive review and correction to ensure evaluation accuracy and maintain benchmark integrity.After the filtering and selection process, our final benchmark comprises 25 tasks totaling 1232 questions.

Ability Stratification

Ability Hierarchy

Our framework progresses from speaker-level perception tocomplex multi-party interaction reasoning . The progression follows a natural cognitive hierarchy: Tier 1 establishes foundational recognition capabilities for static speaker attributes, Tier 2 extends to temporal dynamics analysis within individual speakers,Tier 3 advances to contextual inference and background understanding across multiple speakers, andTier 4 culminates in comprehensive multi-speaker interaction un derstanding. Models can be assessed at each tier independently, enabling precise identification of strengths and limitations across the full spectrum of multi-speaker understanding tasks.

Model Performance

模型表现图

我们展示了多个主流开源模型商业模型在基准测试上的全面评估结果。测试集从六种不同数据源中均衡抽样,覆盖广泛。25个任务的系统对比结果如上图所示,清晰展示了各模型的性能差异。

Evaluation Samples

以下为模型在多说话人识别与推理上的问答样例。

The following are sample QAs evaluating speaker recognition and reasoning abilities.

☎️ 电话语音数据

本部分数据来自 magicdata-tel-cnmagicdata-tel-en 中文和英文语料,内容为双人电话通话,通话结构清晰,语速适中。

📁 magicdata tel en

简介:magicdata-tel-en 是一个包含双人电话对话的英文语音数据集,电话信道下的日常对话,具有重叠语音、多说话人交互等真实场景特点,适用于说话人识别、对话转录、情感分析等任务。

音频 1

音频描述: 会议场景下二人关于加班的讨论,发言人为二女,日常随意对话情感较为丰富,具有抢话、重叠行为发生。

中文

任务问题答案
音色分析音频中第一个说话人语音*responsible for your action*的音高(pitch)听起来怎么样?从*shrill*, *nasal*, *deep*中选择shrill。
音色分析音频中第一个说话人语音*responsible for your action*的音质(texture)听起来怎么样?从 *silky*, *husky*, *raspy*, *guttural*, *vocal-fry*中选择silky。
音色分析音频中第一个说话人语音*responsible for your action*的音量(volume)听起来怎么样?从 *booming*, *authoritative*, *loud*, *hushed*, *soft*中选择"loud。
音色分析音频中第一个说话人语音*responsible for your action*的清晰度(clarity)听起来怎么样?从 *crisp*, *slurred*, *lisp*, *stammering*中选择crisp。
语音流畅度分析在表述*yeah its kind of weird just like, if if if it dose spark on a work day that they*时,第一个说话人有结巴吗?有,第一个说话人在表述时出现了重复和停顿
年龄段识别第一个说话人他的年龄段是什么?young adult。
年龄段识别会话中处于young adult年龄段的说话人有哪些?第一个说话人和第二个说话人。
性别识别音频中第一个说话人是男性还是女性?女性。
说话人识别谁说了“well, I feel like that, because I didnt always clear knowing that we have work on Saturday”?第二个说话人
说话人识别音频中第1个说话人都说了哪些内容?responsible for your action well, I feel like that, because I didnt always clear knowing that we have work on Saturday yeah so, but um, whatever. yup well, going to work is in whole another story
情感识别在表述“...and then after Im committed, then they tell me all these things I didnt know before”的时候,第一个说话人的情绪是什么?Happiness
情感演变第二个说话人在对话中情绪变化是怎样的?结合具体句子回答第二个说话人的情绪从最开始"responseible for your action"的Neutral,到" I didnt always clear knowing that we have work on Saturday"的Happiness,再到"yeah its kind of weird just like, if if ..."的Surprise,再到""well, going to work is in whole another story"的Happiness
表达偏好识别第一个说话人最可能是哪个年龄段?他使用了哪些年轻人常用表达/感兴趣的话题?young adult,他在会话中讨论了刚加入工作时面临的加班问题,符合年轻人关注的话题
观点变化识别第2个说话人在对话中的前后关注点有变化吗,分别是什么?第2个说话人最初关注*上级对工作要求的明确性*,后来转为讨论*对工作安排的不满*
对话背景推理本段对话更可能发生在正式办公场所还是日常生活场景?是正式、半正式还是随意交流?为什么?日常生活场景,随意交流,两个说话人就加班问题进行了讨论,多用口语化表达,有较多语气词,并且情感丰富以Happiness为主,符合日常交流特点
原因归因第一个说话人在表达"I didnt always clear knowing that we have work on Saturday"时情绪与"yeah its kind of weird just like, if ..."有什么不同,是否与第一个说话人某句发言有关?第一个说话人在"I didnt always clear knowing that we have work on Saturday"时情绪为Happiness,在"yeah its kind of weird just like, if ..."时情绪为Surprise,与第二个说话人抱怨"Im still a little upset they didnt, today"有关,带动了当前说话人的抱怨情绪
对话背景推理本段对话更可能发生在正式办公场所还是日常生活场景?是正式、半正式还是随意交流?为什么?日常生活场景,随意交流,原因:对话内容涉及工作安排和情绪表达,但语言风格随意,包含口语化表达和情绪变化(如Happiness, Surprise),且用词不严谨,有较多停顿和重复
说话人关系推理朋友关系,原因:两人在讨论工作安排时情绪多样(Happiness, Surprise),语言风格随意,有打趣和共鸣(如*yeah whatever, its OK*),互动模式平等且亲密根据语言风格和互动模式,第1个说话人和第2个说话人之间的关系是什么?从互动方式分析原因

音频 2

音频描述: 日常场景下双人关于人际关系的讨论,发言人为二男(中年),发音清晰噪声较少,有较多的轮次替换。

中文

任务问题答案
口音/方言识别音频中第二个说话人带有什么口音?第二个说话人带有北美口音。
性别识别音频中第二个说话人是男性还是女性?第二个说话人是男性。
年龄段识别会话中处于adult年龄段的说话人有哪些?会话中处于adult年龄段的说话人有第二个说话人和第一个说话人。
音色分析音频中第一个说话人语音"for for a lifetime, so I you know I could see worse where somebody ..."的音高(pitch)听起来怎么样?从*shrill*, *nasal*, *deep*中选择第一个说话人语音的音高听起来是*nasal*。
情感识别音频中第一个说话人在表述"we dont know, even which lasts longer, a monogamous relationship ..."时的情绪是什么?第一个说话人的情绪是*Sadness*。
说话人计数音频中哪位说话人发言最多?第1个说话人。
静音/重叠检测第1个说话人在表述*we dont know, even which lasts longer, a monogamous relationship or an open relationship, I really we dont know, theres not a good day to own that*之后出现了抢话的情况吗?是。
情感演变第1个说话人在对话中的情绪变化是怎样的?结合具体句子回答第1个说话人在*we dont know, even which lasts longer, a monogamous relationship or an open relationship...*时情绪是*Sadness*,之后在*those lots of anecdotes, theres examples on both sides...*处变为*Neutral*。
观点变化识别第1个说话人在对话中的前后关注点有变化吗,分别是什么?第1个说话人最初关注的是*relationship dynamics and their psychological impact*,后来转变为*the lack of scientific research on relationship satisfaction and its importance*。
语言/口音文化推理第二个说话人的口音是什么,这与他在会话中的观点有什么关系?第二个说话人的口音是北美口音。他在对话中讨论了关于生活选择和关系模式的看法,这可能反映了北美文化中对个人自由和多样性的重视。
表达偏好识别第二个说话人最可能是哪个年龄段?他使用了哪些成人常用表达/感兴趣的话题?第二个说话人最可能是成年人。他使用了*for a lifetime*和*part of our psychology right?*等表达,并讨论了生活选择和心理学相关的话题,这些都是成年人常见的兴趣点。
动机推理第2个说话人在表述*part of our psychology right? nothing kinda lasts forever*之后做出了什么行为,有无情绪或策略上的动因?第2个说话人在表述*part of our psychology right? nothing kinda lasts forever*之后保持了一定时间的沉默,原因可能是他在等待第1个说话人的回应或是在思考如何继续对话。
社交互动识别第1个说话人在表述哪些话时表达接受或肯定拉近关系?"第1个说话人在表述*yeah, relationship satisfaction is really really important to people*时表达肯定拉进关系。
对话背景推理本段对话更可能发生在正式办公场所还是日常生活场景?是正式、半正式还是随意交流?为什么?日常生活场景,随意交流,原因:对话内容涉及个人关系和心理学讨论,语言风格口语化,情绪多样且有变化。
说话人关系推理根据语言风格和互动模式,第1个说话人和第2个说话人之间的关系是什么?从互动方式分析原因朋友关系,原因:讨论内容涉及个人观点和心理学话题,互动中有情绪变化和自由表达。

音频 3

音频描述: 日常场景下二人关于自由主义的对话,发言人为二男(中年),发音清晰,出现情绪变动,有抢话和观点对抗情况的发生。

中文

任务问题答案
口音/方言识别音频中第一个说话人带有什么口音?第一个说话人带有北美口音。
性别识别音频中一共有几位男性说话?音频中一共有两位男性说话人。
年龄段识别会话中处于adult年龄段的说话人有哪些?(young adult / adult / senior adult)会话中处于adult年龄段的说话人有第一个说话人和第二个说话人。
音色分析音频中第一个说话人语音*but what work means you you prevent tourist attacks happening in the the in in that narrow narrow*的音高(pitch)听起来怎么样?从*shrill*, *nasal*, *deep*中选择第一个说话人的音高听起来是*deep*。
音色分析音频中第一个说话人语音*but what work means you you prevent tourist attacks happening in the the in in that narrow narrow*的音质(texture)听起来怎么样?从 *silky*, *husky*, *raspy*, *guttural*, *vocal-fry*中选择第一个说话人的音质听起来是*husky*。
音色分析音频中第一个说话人语音*but what work means you you prevent tourist attacks happening in the the in in that narrow narrow*的音量(volume)听起来怎么样?从 *booming*, *authoritative*, *loud*, *hushed*, *soft*中选择第一个说话人的音量听起来是*authoritative*。
音色分析音频中第一个说话人语音*but what work means you you prevent tourist attacks happening in the the in in that narrow narrow*的清晰度(clarity)听起来怎么样?从 *crisp*, *slurred*, *lisp*, *stammering*中选择第一个说话人的清晰度听起来是*crisp*和*stammering*。
语音流畅度分析在表述*well its its ah, Its ah its how many you prevent that would otherwise happened*时,第一个说话人有结巴吗?是的,第一个说话人有结巴,表现为*Word Repetition*和*Interjection*。
情感识别在表述*You once said to me and Im sure youve said it to other people that I wouldnt be a libertarian if it worked*时,第二个说话人的情绪是什么?第二个说话人的情绪是*Contempt*。
说话人计数音频中哪位说话人发言最多?第一个说话人。
静音/重叠检测第一个说话人在表述*but what work means you you prevent tourist attacks happening in the the in in that narrow narrow*之后出现了抢话的情况吗?是。
音质演变第一个说话人的音量(volume)是否从authoritative变更到booming?在哪句话中体现第一个说话人在*well I look I I, I believe that ah, I believe that ah, ah, Its, You know that ah I I believe you can be both a a libertarian, ...*时音量是authoritative,之后在*I would say a, Its its easier to see with ah with with the benefit of hindsight but I think ah, ... *处变为booming。
观点变化识别第一个说话人在对话中的前后关注点有变化吗,分别是什么?第一个说话人最初关注的是*prevent tourist attacks*,后来转变为讨论*libertarian principles and pragmatic ways*。
语言/口音文化推理第一个说话人的口音是什么,这与他在会话中的观点有什么关系?第一个说话人的口音是北美口音。在对话中,他讨论了政府工作和自由意志主义的关系,这可能反映了北美文化中对个人自由和政府角色的复杂看法。北美文化中普遍存在对政府干预的怀疑态度,这与说话人提到的*libertarian*观点相吻合。
地理位置判断谁可能是北美地区的人?依据是什么?第一个和第二个说话人都可能是北美地区的人。依据包括他们的北美口音,以及讨论的话题如政府政策、自由意志主义等,这些都是北美地区常见的政治讨论话题。此外,他们提到的*libertarian*概念在北美政治文化中尤为突出。
原因归因第1个说话人在表达*... You can still fight to work, to make it function better, and and and so theres suppose an outside and inside game*时与表达*... We have certain kinds of principles and then, and then act in and pragmatic ways and this isnt necessarily hypocrisy*时情绪分别是什么,是否与第2个说话人的某句发言有关?第1个说话人在表达*... You can still fight to work, to make it function better, and and and so theres suppose an outside and inside game*时情绪为Neutral,在表达*... We have certain kinds of principles and then, and then act in and pragmatic ways and this isnt necessarily hypocrisy*时情绪为Contempt,与第2个说话人发言*You once said to me and Im sure youve said it to other people that I wouldnt be a libertarian if it worked... ?*有关,原因可能是第2个说话人的质疑引发了第1个说话人的不满情绪。
群体意图推理简要总结每位说话人对*自由主义理念*这一议题的态度及理由第1个说话人对*自由主义理念*的观点是可以在政府内部工作以改善其运作,第2个说话人对*自由主义理念*的观点是质疑其在现实中的可行性。

📁 magicdata tel cn

简介:magicdata-tel-cn 是一个包含双人电话对话的中文语音数据集,电话信道下的日常对话,具有重叠语音、多说话人交互等真实场景特点,适用于说话人识别、对话转录、情感分析等任务。

音频 1

音频描述: 日常场景下双人关于NBA球星的对话,发言人为二男,发音清晰略有信道噪声。

中文

任务问题答案
口音/方言识别音频中第一个说话人带有什么口音?第一个说话人带有东亚口音
性别识别音频中一共有几位男性说话?"音频中有两位男性说话人
年龄段识别会话中处于young adult年龄段的说话人有哪些?第一个说话人和第二个说话人都是young adult年龄段
音色分析音频中第一个说话人语音*啊呃还有不是凌凌晨四点,那个啥*的音高(pitch)听起来怎么样?从*shrill*, *nasal*, *deep*中选择第一个说话人语音的音高是*nasal*
语音流畅度分析在表述*哦凌晨四点的洛杉矶, 他不是还有一次比赛是打,一个人一个人投了多少,四十多分的球*时,第一个说话人有结巴吗?第一个说话人在表述时有结巴,具体表现为*Block*, *Sound Repetition*
情感识别在表述*就在那时候,他俩的关系就僵持了*时,第二个说话人的情绪是什么?第二个说话人的情绪是*Sadness*
说话人识别音频中说*你见过凌晨四点的洛杉矶吗*的说话人在音频中都说了哪些内容?*你见过凌晨四点的洛杉矶吗* *对他在,他在八号位,在湖人的时候,跟,湖人的, 呃大鲨鱼, 发生过一些舆论,对奥尼尔* *因为有一场比赛,嗯人湖人得到总冠军,有场比赛就说, 是奥尼尔带领湖人队,赢得了总冠军,然后还有人说是科比带领湖人队,赢得了总冠军* *就在那时候,他俩的关系就僵持了* *也和解了,也和解了*
音质演变第一个说话人的音高(pitch)是否从nasal变更到deep?在哪句话中体现?第一个说话人在*啊呃还有不是凌凌晨四点,那个啥*时音高是nasal,之后在*哦凌晨四点的洛杉矶, 他不是还有一次比赛是打,一个人一个人投了多少,四十多分的球*处变为deep
表达偏好识别第一个说话人和第二个说话人最可能是哪个年龄段?他们使用了哪些年轻成人常用表达/感兴趣的话题?第一个说话人和第二个说话人都是年轻成人。他们讨论的话题包括篮球比赛、球员关系等,这些都是年轻成人常见的兴趣话题。他们的表达方式也较为随意,使用了*啊呃*、*嗯*等口语化表达,符合年轻成人的语言习惯。

音频 2

音频描述: 日常场景下双人关于创业的对话,发言人为一女一男,副语言信息丰富,说话人发音清晰,有部分信道噪声。

中文

任务问题答案
性别识别音频中第一个说话人是男性还是女性?女性
性别识别音频中第二个说话人是男性还是女性?男性
年龄段识别第二个说话人他的年龄段是什么?young adult
音色分析音频中第二个说话人语音*因为,我在南京那边上学,然后他, 那边的店铺的租金很贵,大概, 一万八一个月然后你是不是就必须至少要租半年*的音质(texture)听起来怎么样?从 *silky*, *husky*, *raspy*, *guttural*, *vocal-fry*中选择第二个说话人的音质听起来是 husky 和 raspy
语音流畅度分析在表述*她这个就是那叫自己那叫自己创业了*时,第一个说话人有结巴吗?是的,第一个说话人有结巴
情感识别在表述*你现在创业成功了吗?*时,第二个说话人的情绪是什么?第二个说话人的情绪是开心
语言/口音文化推理第二个说话人的口音是什么,这与他在会话中的观点有什么关系?第二个说话人的口音是东亚口音,他在对话中提到在南京上学,并讨论了南京店铺租金昂贵的问题。这与东亚地区尤其是中国大城市高租金的文化背景相关,反映了该地区商业成本高的现实情况。
表达偏好识别第一个说话人最可能是哪个年龄段?这个年龄段有什么常用表达/感兴趣的话题?第一个说话人是年轻成人,她使用了*直播啊*、*微商*等年轻成人常用的表达和话题,这些词汇和话题反映了年轻一代对新兴职业和创业方式的兴趣。

音频 3

音频描述: 日常场景下双人关于家庭的对话,发言人为一男一女,二人有明显情感/音高/音量变化,发音清晰,有部分信道噪声。

中文

任务问题答案
性别识别音频中一共有几位女性说话?音频中一共有1位女性说话人。
原因归因会话中处于adult年龄段的说话人有哪些?第二个说话人处于adult年龄段。
语音流畅度分析在表述*家里人还行嗯都挺好的,就是就是除了我自己在外边儿。*时,第二个说话人有结巴吗?有,第二个说话人在这段话中出现了Word Repetition和Interjection
情感识别在表述*那挺好的呀。*时,第一个说话人的情绪是什么?第一个说话人的情绪是Happiness。
情感识别在表述*哎呀,那怎么办呢是吧?*时,第二个说话人的情绪是什么?第二个说话人的情绪是Sadness 。
说话人识别音频中说*老顾客,老有人顾客也行。*的说话人在音频中都说了哪些内容?老顾客,老有人顾客也行。 那挺好的呀。 哎。 最近家里怎么样?家里人都挺好的吧?没什么事儿吧? 我奶奶最近呢身体也不太好。 然后每天的的早饭中午饭什么都是我给我奶奶做。 人老了就身体都不太好了。 嗯我姑姑也说要回来,我姑也说回来帮帮着照顾照顾我奶奶什么的。 或者不在不在那个。 市里了。
说话人计数这段音频中一共出现了多少个不同的说话人?2
情感演变第二个说话人在对话中的情绪变化是怎样的?结合具体句子回答第二个说话人在*对老顾客老顾客就慢慢就。*时情绪是Sadness,之后在*家里人还行嗯都挺好的*处变为Happiness
观点变化识别第二个说话人在对话中的前后关注点有变化吗,分别是什么?第二个说话人最初关注的是与老顾客的关系,后来转向谈论家庭状况和个人处境

🧑‍💼 多人会议数据

音频来自 AliMeetingCHiME6 数据集,包含自然多说话人会议场景,发言有重叠、静音、打断等复杂现象。

📁 CHiME6

简介:CHiME6 是一个包含多人会议对话的英文语音数据集,语音采集于远场麦克风,具有重叠语音、多说话人交互等真实场景特点,适用于说话人识别、对话转录、情感分析等任务。

音频 1

音频描述: 会议场景下三人关于乘坐飞机的讨论,发言人为三男,发音清晰噪声较少,具有抢话行为发生。

中文

任务问题答案
性别识别音频中一共有几位男性说话?音频中有四位男性说话人
年龄段识别会话中处于young adult年龄段的说话人有哪些?(young adult / adult / senior adult)会话中处于young adult年龄段的说话人有第一个说话人、第二个说话人、第三个说话人和第四个说话
音色分析音频中第一个说话人语音*Its a little salty but its not salty enough.*的音高(pitch)听起来怎么样?从*shrill*, *nasal*, *deep*中选择deep
音色分析音频中第一个说话人语音*Its a little salty but its not salty enough.*的音量(volume)听起来怎么样?从 *booming*, *authoritative*, *loud*, *hushed*, *soft*中选择authoritative
语音流畅度分析在表述*What what do you think the odds of them rejecting me are? At the airport.*时,第二个说话人有停顿/重复吗?有停顿和重复
情感识别在表述*What the heck, its my name though.*时,第二个说话人的情绪是什么?Surprise
音质演变第4个说话人的音量(volume)是否从*booming*变更到*authoritative*?在哪句话中体现?第4个说话人在*Unless someones having like a really bad day they shouldnt care.*时音量是*booming*,之后在*Just say this is my legal name and then just fight it.*处变为*authoritative*
原因归因第4个说话人在表达*God damn.*时与表达*What the heck, its my name though.*时情绪分别是什么,是否与第3个说话人的某句发言有关?第4个说话人在表达*God damn.*的时候情绪为Neutral,在表达*What the heck, its my name though.*时情绪变为Surprise,与第3个说话人发言*Cuz they dont like changes and whenever you do a change its like a fifty dollar fee or something.*有关,原因可能是第3个说话人的发言引发了第4个说话人的惊讶反应。
说话人关系推理根据语言风格和互动模式,第2个说话人和第3个说话人之间的关系是什么?从互动方式分析原因朋友关系,原因:对话中两人讨论个人旅行问题,语言风格随意,情绪表达自然,有打断和附和,如*Yeah*和*Not high*的互动,显示出平等和熟悉的交流模式。

音频 2

音频描述: 日常场景下三人关于朋友旅程的讨论,发言人为三男(年轻),发音清晰噪声较少,有较多的轮次替换。

中文

任务问题答案
性别识别音频中一共有几位男性说话?音频中一共有四位男性说话。
性别识别音频中第三个说话人是男性还是女性?男性
年龄段识别第一个说话人的年龄段是什么?young adult
音色分析音频中第三个说话人语音*I woke up at like one.*的音量(volume)听起来怎么样?从 *booming*, *authoritative*, *loud*, *hushed*, *soft*中选择第三个说话人的音量听起来是*loud*
语音流畅度分析在表述*Uh Im should I just drop them in the pot?*时,第一个说话人有结巴吗?第一个说话人在表述时有结巴,具体表现为*Word Repetition*和*Interjection*
语音流畅度分析第一个说话人在表达*Im not that much of I think th- this thing is is like um like its blunt now.*中出现了不自然的停顿,他为什么会停顿?"第一个说话人可能是因为思考或不确定而停顿,具体表现为*Word Repetition*和*Interjection*
情感识别在表述*That that is not an excuse.*时,第二个说话人的情绪是什么?第二个说话人的情绪是*Anger*
说话人识别音频中第1个说话人都说了哪些内容?Yeah, you didnt have any commitments today. This was your only commitment. Uh Im should I just drop them in the pot? Im not that much of I think th- this thing is is like um like its blunt now. To where? Okay, you guys are just saying random places. Where are the- where are these places? There we go Sean visiting family?
说话人计数音频中是否有只发言一次或非常少的说话人?第4个说话人
动机推理第2个说话人在表述*That that is not an excuse.*之后做出了什么行为,有无情绪或策略上的动因?第2个说话人在表述*That that is not an excuse.*之后保持了一定时间的沉默,原因有:可能是为了强调自己的观点或者等待对方的回应。
副语言交互识别第2个说话人在表达*That that is not an excuse.*时的情绪是什么?是否影响到了其他人?第1个说话人的反应是什么?第2个说话人在表达*That that is not an excuse.*时的情绪Anger影响到了其他人,第1个说话人的反应是讲话流畅度变化/音量变化/音调变化。
说话人关系推理根据语言风格和互动模式,第1个说话人和第2个说话人之间的关系是什么?从互动方式分析原因朋友关系,原因:对话中两人讨论个人日程和旅行计划,互动自然随意,有打趣和轻微争执(如*That that is not an excuse*),情绪表达丰富,符合朋友间日常交流特征。

音频 3

音频描述: 日常场景下四人关于用餐的对话,发言人为二男(中年)二女(年轻),发音清晰略有背景音,有明显抢话/重叠情况。

中文

任务问题答案
性别识别音频中一共有几位女性说话?音频中一共有2位女性说话人。
年龄段识别第一个说话人的年龄段是什么?第一个说话人的年龄段是young adult。
情感识别在表述*No. That is even more impressive man. Holy crap.*时,第一个说话人的情绪是什么?Surprise
情感识别在表述*No doubt.*时,第一个说话人的情绪是什么?Happiness
说话人识别音频中第1个说话人都说了哪些内容?I didnt have anything with egg though. Mhm I had the egg mhm I think the egg pposed to you had two egg three eggs. Nice. No. That is even more impressive man. Holy crap. No doubt. just not eat the rest of the
说话人计数这段音频中一共出现了多少个不同的说话人?4
情感演变第1个说话人在整段音频中一共出现了哪几种情绪?在哪句话有明显情绪转折?第1个说话人出现的情绪有Neutral, Surprise, Happiness, 在*I didnt have anything with egg though.*时的情绪是Neutral,之后在*I think the egg pposed to you had two egg three eggs.*处变为Surprise
音质演变第1个说话人的音高(pitch)是否从deep变更到nasal?在哪句话中体现?第1个说话人在*I didnt have anything with egg though.*时音高是deep,之后在*I think the egg pposed to you had two egg three eggs.*处变为nasal
动机推理第4个说话人在表述*Stolen.*之后做出了什么行为,有无情绪或策略上的动因?第4个说话人在表述*Stolen.*之后保持了一定时间的沉默,原因可能是为了观察第1个说话人的反应,或者是为了制造幽默效果。
副语言交互识别第1个说话人在表达*I think the egg pposed to you had two egg three eggs.*时的情绪是什么?是否影响到了其他人?第4个说话人的反应是什么?第1个说话人在表达*I think the egg pposed to you had two egg three eggs.*时的情绪Surprise影响到了其他人,第4个说话人的反应是言语回应*Stolen.*

📁 Alimeeting

简介:Alimeeting 是一个包含多人会议对话的中文语音数据集,语音采集于远场麦克风,具有重叠语音、多说话人交互等真实场景特点,适用于说话人识别、对话转录、情感分析等任务。

音频 1

音频描述: 会议场景下双人关于医保问题的讨论,发言人为一男(中年)一女(年轻),发音清晰噪声较少,一人有明显口音。

中文

任务问题答案
口音/方言识别音频中第一个说话人带有什么口音?第一个说话人带有东亚口音。
性别识别音频中第一个说话人是男性还是女性?男性
年龄段识别会话中处于young adult年龄段的说话人有哪些?(young adult / adult / senior adult)第二个说话人处于young adult年龄段。
音色分析音频中第一个说话人语音*医保这块,他们报账的话需要找我们还是怎样。比如说他有些员工*的音质(texture)听起来怎么样?从 *silky*, *husky*, *raspy*, *guttural*, *vocal-fry*中选择*husky*, *raspy*。
说话人识别音频中说医保这块,他们报账的话需要找我们还是怎样的说话人在音频中都说了哪些内容?医保这块,他们报账的话需要找我们还是怎样。比如说他有些员工,他去医院看了病之后。 需要一些报销是要通过我们报吗?还是? 呃,通过就是找国家报这块。 不找我们?对。 因为现在医院的话,我知道。 有些。 比如说他是自自己购买的话,就是医院直接报销了嘛。然后如果是。 就是。 单位代买的好像。 好像的话也需要找我们交给资料交给我们对吧?因为。 以后的话可能会有一些女员工,她比如生小孩,这些。 我觉得需要可以前期去了解一下。 那现在五险主要是他。 就是比如说养老。 失业这块的话,它是。 主要他是什么东西? 就是里面他。
说话人数量这段音频中一共出现了多少个不同的说话人?2
音质演变第1个说话人的音量(volume)是否从*authoritative*变更到*loud*?在哪句话中体现?第1个说话人在*需要一些报销是要通过我们报吗?还是?*时音量是*authoritative*,之后在*比如说他是自自己购买的话,就是医院直接报销了嘛。然后如果是。*处变为*loud*
对话转录对话中有几个人,不同说话人分别说了什么?(以spk_1: ..., spk_2: ...为格式转录完整对话)当前对话有2个说话人,对话转录:spk_1: *医保这块,他们报账的话需要找我们还是怎样。比如说他有些员工,他去医院看了病之后。* spk_1: *需要一些报销是要通过我们报吗?还是?* spk_1: *呃,通过就是找国家报这块。* spk_2: *这一块的话,他补。嗯* spk_2: *不找我们。* spk_1: *不找我们?对。* spk_2: *这个嗯,因为,这一块是他们到时候自己去那个。* spk_2: *嗯医院的,那个。去咨询吧,就。* spk_1: *因为现在医院的话,我知道。* spk_1: *有些。* spk_1: *比如说他是自自己购买的话,就是医院直接报销了嘛。然后如果是。* spk_2: *嗯。* spk_1: *就是。* spk_1: *单位代买的好像。* spk_1: *好像的话也需要找我们交给资料交给我们对吧?因为。* spk_1: *以后的话可能会有一些女员工,她比如生小孩,这些。* spk_2: *嗯* spk_1: *我觉得需要可以前期去了解一下。* spk_2: *嗯对这个的话,这现在目前我们,因为刚刚开始嘛,还不是特别了解,后面,后期我们会去再去了解一下。* spk_2: *他具体是。那个怎么。* spk_1: *那现在五险主要是他。* spk_1: *就是比如说养老。* spk_1: *失业这块的话,它是。* spk_1: *主要他是什么东西?* spk_1: *就是里面他。*

音频 2

音频描述: 会议场景下三人关于手机产品的讨论,发言人为一男(中年)二女(年轻),发音清晰噪声较少,出现打断/重叠情况。

中文

任务问题答案
性别识别音频中一共有几位男性说话?音频中一共有2位男性说话人。
年龄段识别会话中处于adult年龄段的说话人有哪些?(young adult / adult / senior adult)会话中处于adult年龄段的说话人有第二个说话人和第三个说话人。
音色分析音频中第一个说话人语音*好嗯,咱们今天针对咱们公司新出产的新出的一款这个手机啊产品啊,进行一下这个研讨会首先咱们确认一下咱们这个产品的目标,这个人群客户群这一块儿。*的音高(pitch)听起来怎么样?从*shrill*, *nasal*, *deep*中选择nasal
语音流畅度分析第一个说话人在表达*好嗯,咱们今天针对咱们公司新出产的新出的一款这个手机啊产品啊,进行一下这个研讨会首先咱们确认一下咱们这个产品的目标,这个人群客户群这一块儿。*中出现了不自然的停顿,他为什么会停顿?可能是因为思考产品定位或组织语言
情感识别在表述*啊,我觉得是有要要有针对性的啊,我觉得咱们的设计外观还是很时尚,还是需要去呃,设定一下呃比较适合的年龄段儿啊,比方说因为它是有彩色的呀。*时,第三个说话人的情绪是什么?Happiness
说话人计数这段音频中一共出现了多少个不同的说话人?4
情感演变第3个说话人在整段音频中一共出现了哪几种情绪?在哪句话有明显情绪转折?第3个说话人出现的情绪有Happiness, Neutral, 在*啊,我觉得是有要要有针对性的啊...*时的情绪是Happiness,之后在*但是现在的呃这个版本的话...*处变为Neutral。

音频 3

音频描述: 会议场景下三人关于教师节礼物的讨论,发言人为二男(中年)一女(年轻),发音清晰噪声较少,两人有明显口音,出现抢话/重叠情况。

中文

任务问题答案
口音/方言识别音频中第一个说话人带有什么口音?第一个说话人带有东亚口音,北京口音
年龄段识别会话中处于成年年龄段的说话人有哪些?第一个说话人、第二个说话人和第三个说话人都是成年人。
音色分析音频中第二个说话人语音*这个肯定有一平衡点,你比如说一二年级的孩子他不懂表达,口齿不清,嗯思维肯定还没有。*的音量(volume)听起来怎么样?从 *booming*, *authoritative*, *loud*, *hushed*, *soft*中选择第二个说话人的音量听起来是 *authoritative*, *loud*。
语音流畅度分析在表述*给老师送过去,这是表示对老师的尊重是吧,嗯到你到大年级的学生呢肯定要给老师,因为嗯他要学习知识多了嘛,要老老师这一年也挺辛苦的了。*时,第一个说话人有停顿/重复吗?第一个说话人在表述时有停顿和重复,具体表现为 *Prolongation*, *Interjection*, *Word Repetition*
说话人计数音频中哪位说话人发言最多?第2个说话人
音质演变第二个说话人的音量(volume)是否从loud变更到authoritative?在哪句话中体现?第二个说话人在*这个肯定有一平衡点,你比如说一二年级的孩子他不懂表达...*时音量是loud,之后在*啊,现在这这几年比较流行,护眼灯...*处变为authoritative
地理位置判断谁可能是东亚人?依据是什么?第一个、第二个和第三个说话人都可能是东亚人,依据是他们的口音均为东亚口音,且讨论的话题如教师节送礼、家长与孩子的互动等,与东亚文化中的教育观念和家庭价值观相符。
原因归因第2个说话人在表达*这个肯定有一平衡点,你比如说一二年级的孩子...*时与表达*啊,现在这这几年比较流行,护眼灯...*时情绪分别是什么,是否与第3个说话人的某句发言有关?第2个说话人在表达*这个肯定有一平衡点,你比如说一二年级的孩子...*的时候情绪为Neutral,在表达*啊,现在这这几年比较流行,护眼灯...*时情绪变为Happiness,与第3个说话人发言*啊,护眼灯,嗯。*有关,原因可能是第3个说话人提出的护眼灯建议得到了第2个说话人的认同和赞赏。
说话人关系推理根据语言风格和互动模式,第一个说话人和第二个说话人之间的关系是什么?从互动方式分析原因同事关系,原因:两人围绕同一话题进行讨论,互动方式平等,情绪以Neutral为主,讨论内容为工作相关议题(教师节送礼策略),但没有上下级关系的特征如明确身份称呼或领导内容。

🎬 影视剧多人对话数据

本部分音频来自 EN-FilmCN-Film 数据集,副语言信息丰富、交互复杂。

📁 EN Film Data

简介:EN Film 是自行采集的野外英文音频,声学环境复杂,具有重叠语音、多说话人交互等真实场景特点,适用于说话人识别、对话转录、情感分析、意图识别等任务。

音频 1

音频描述: 日常场景下双人关于其他人行为的对话,发言人为一男(年轻)一女(年轻),一人有明显情感和副语言信息有明显变化,发音清晰,有少量背景音。

中文

任务问题答案
说话人计数音频中哪位说话人发言最多?第1个说话人
说话人计数音频中有多少个不同的说话人?2
性别识别音频中第二个说话人是男性还是女性?女性。
社会角色识别谁在对话结尾试图掌控谈话?他是如何做到的?spk_2 试图通过打断 spk_1 的慌乱发言,说出“等等,停一下,冷静点”来让他冷静下来,并重新掌控谈话节奏。
情感演变 spk_1 的情绪在整个对话过程中是如何变化的?请提供具体的语句来说明这种变化。spk_1 的情绪从担忧发展为强烈的恐惧。一开始,他通过说「这是她过去两小时里第四次去洗手间了」表达出担忧。随后,当他开始想象灾难性情景时,情绪显著升级,说出「万一我们也被传染了呢?万一我们感染了瑞典国王呢?战争就是这样开始的!」,显示出从焦虑到惊恐的转变。

音频 2

音频描述: 日常场景下三人关于派对行为的对话,发言人为三女(年轻),副语言信息、说话人互动丰富,意图明显,说话人发音清晰。

中文

任务问题答案
观点变化识别spk_1 对自己行为的看法在对话过程中是否发生了变化?她的不同观点是什么?这种变化是如何发展的? 一开始,spk_1 持怀疑态度,不相信自己做过什么疯狂的事(例如:“我做了那个?”、“但我根本不会跳爱尔兰踢踏舞”)。后来,她接受了朋友的说法,并对自己的行为感到尴尬(例如:“我有露出来什么吗?”),这表明她的观点从不相信逐渐转变为相信朋友对事件的描述
表达偏好识别根据 spk_1 的表达方式和兴趣话题,她最可能属于哪个年龄段?请结合对话中的例子说明。spk_1 最可能是 20 至 30 岁的年轻人(Young adults),因为她谈论的话题包括单身派对、在酒吧跳舞、与消防员互动等,这些都是该年龄段人群常见的兴趣点,体现出对社交活动和轻松冒险的关注
社交互动识别spk_2 对 spk_1 行为的幽默描述如何影响了对话的社交氛围? 这种描述营造出一种既尴尬又好笑的氛围,加深了 spk_1 的尴尬感。
说话人计数这段对话中有多少位不同的说话人?一共有三位说话人:spk_1、spk_2 和 spk_3。

音频 3

音频描述: 日常场景下三人关于锻炼的对话,发言人为二女(中年),一人有明显情感/音高/音量变化,有明显口音,发音清晰,有部分背景音。

中文

任务问题答案
说话人计数这段音频中可以听到多少位不同的说话人? 一共有 3 位不同的说话人。
社交互动识别 当 spk_2 说出 “Surprise!” 时,她试图使用什么样的社交策略来建立关系?spk_1 是如何回应的?spk_2 试图通过“惊喜”营造一种友好且自发的互动,以拉近与 spk_1 的关系,但 spk_1 的回应是假装惊讶并紧接着找借口,表明他有抵触情绪,并试图保持距离。

📁 CN Film Data

简介:CN Film 是自行采集的野外中文数据,声学环境复杂,具有重叠语音、多说话人交互等真实场景特点,适用于说话人识别、对话转录、情感分析、意图识别等任务。

音频 1

音频描述: 日常场景下双人关于工作安排的对话,发言人为二男(中年、年轻),一人有明显口音,一人有明显情感变化,发音清晰噪声较少,有明显主次关系。

中文

任务问题答案
原因归因speaker_2在说*扫地*的时候是什么情绪,这个情绪的原因是什么疑惑惊讶的情绪,觉得对方安排的扫地打杂的工作配不上自己的身份,损害了他的尊严
动机推理speaker_1最后要说*包您吃包您住,扫地打杂不委屈你吧*的目的是什么目的是为了劝说对方接受一份待遇不高或较辛苦的工作,用看似*好说话*的语气,降低对方的心理防备
音色分析音频中有谁的声音听起来低沉(Deep)吗?speaker_2
情感演变speaker_2在对话中的情感变化是怎么样的?结合具体句子回答speaker_2先是担忧(我知道,可是我也得生存下去),然后是高兴(好啊好啊),最后是疑惑(扫地)

音频 2

音频描述: 日常场景下三人关于加班的对话,发言人为二女(中年、年轻)一男(年轻),副语言信息丰富,有明显主次关系,说话人发音清晰。

中文

任务问题答案
原因归因speaker_1 生气的直接原因是什么?被要求加班
动机推理speaker_2最后说*教教我呗*意图是什么,是真的想要请教吗意图是反击和调侃,带有开玩笑和施压的意味,是在说反话,speaker_2最后说*教教我呗*不是真的想要请教。
对话背景推理该对话有可能在什么情景下发生的,日常生活或正式办公,speaker_2和speaker_1的关系可能是什么正式办公场景,领导和下属
社会角色识别speaker_1和speaker_3可能是什么关系是恋人关系
说话人识别speaker_3在说完*您在这看着,我们怎么谈呀?*后发生了说话人切换吗speaker_2接话,*你们不是老说我不会谈恋爱吗?两位老师,就在这谈,教教我呗。*
性别识别这段音频中一共有几位女性在说话?2位

音频 3

音频描述: 日常场景下双人关于工作的对话,发言人为二男(老年、中年),一人有明显情感/音高/音量变化,有明显主次关系,发音清晰,有部分背景音。

中文

任务问题答案
原因归因speaker_1说*你有什么资格来教训我*情绪,原因因为他认为自己肩负着大明朝*两京一十三省*的重担,国家的责任都在他的肩上,因此他觉得胡宗宪没有资格用*天下苍生*这几个字来教训他。
原因归因speaker_1为什么要笑speaker_1发笑是因为他觉得 speaker_2试图站在道德高地上用孝道和苍生大义来教训他,这在他看来既可笑又狂妄,他认为对方*没有资格*用道德来审判他