产品
(90)
星级
(5)
(4)
(15)
(4)
(1)
(1)
(60)
语言
(9)
(7)
(6)
(5)
(5)
更多

最佳语音识别软件

暂无简介
语音识别软件
Sayint

0 4.5 / 5

sayint 是一个基于 AI 的会话分析解决方案,可帮助您发现有价值的见解,以提高代理绩效、提高客户满意度并提高运营效率。 Sayint 可以分析跨(语音、聊天、电子邮件和社交领域)的实时和历史通信
sayint 是一个基于 AI 的会话分析解决方案,可帮助您发现有价值的见解,以提高代理绩效、提高客户满意度并提高运营效率。 Sayint 可以分析跨(语音、聊天、电子邮件和社交领域)的实时和历史通信
Acapela VaaS

0 0 / 5

使用 Acapela VaaS,语音赋能应用程序就这么简单:连接到 Acapela VaaS 服务器,发送文本,让 VaaS 进行对话
使用 Acapela VaaS,语音赋能应用程序就这么简单:连接到 Acapela VaaS 服务器,发送文本,让 VaaS 进行对话
Deepgram

0 4.5 / 5

Deepgram 是可扩展语音识别领域的领导者。借助我们易于使用的 API,开发人员可以轻松地将音频转换为文本,并构建能够增加收入和最大限度提高员工生产力的体验。与前几代不同,Deepgram 采用了一种全新的语音识别方法,放弃了基于启发式语音处理的脆弱方法,用于端到端的深度学习 AI 架构。通过这种获得专利的方法,用户可以通过简单的 API 调用访问业界最快、最准确和高度可扩展的 AI 技术。 Deepgram 消除了嘈杂、多扬声器、难以理解的音频转录的繁重工作,因此公司可以专注于他们最擅长的事情。 是时候停止满足于无法满足企业需求的开箱即用解决方案了。当“对每个人都足够好”的语音识别对你来说不够好时,试试 Deepgram。 强调: • 在 30 秒内转录一小时的音频 • 以低于 300 毫秒的延迟转录实时音频 • 通过定制的语音模型实现 90% 以上的训练准确度 • 在 10 分钟或更短时间内实施 好处: • 通过经济高效地处理 100% 的语音数据进行分析,从而推动更好的业务成果 • 通过训练有素的语音数据转录准确度达 90% 以上,改进业务决策并获得洞察力 • 通过 120 倍实时速度的转录提高语音数据的可用性 • 通过完整的神经网络架构降低 STT 成本和计算资源 • 通过公平计费节省资金;没有四舍五入到 15 秒的间隔。 主要特点: • 预录或流式转录 • 通用、电话、会议、对话式 AI 和财报电话语音模型 • 行业术语、独特产品名称的关键字提升 • 经过训练的语音模型可实现最大准确度,无需关键字提升 • 音频时间戳 • 信心 • 话语跟踪 • 语音深度搜索 • 标点和大写 • 按人分类的成绩单(演讲者日记) • 编辑 • 脏话过滤 • 多渠道 • 多语言 • 支持超过 40 种不同的音频格式 • 本地、虚拟私有云或云部署 • REST API 和 SDK
Deepgram 是可扩展语音识别领域的领导者。借助我们易于使用的 API,开发人员可以轻松地将音频转换为文本,并构建能够增加收入和最大限度提高员工生产力的体验。与前几代不同,Deepgram 采用了一种全新的语音识别方法,放弃了基于启发式语音处理的脆弱方法,用于端到端的深度学习 AI 架构。通过这种获得专利的方法,用户可以通过简单的 API 调用访问业界最快、最准确和高度可扩展的 AI 技术。 Deepgram 消除了嘈杂、多扬声器、难以理解的音频转录的繁重工作,因此公司可以专注于他们最擅长的事情。 是时候停止满足于无法满足企业需求的开箱即用解决方案了。当“对每个人都足够好”的语音识别对你来说不够好时,试试 Deepgram。 强调: • 在 30 秒内转录一小时的音频 • 以低于 300 毫秒的延迟转录实时音频 • 通过定制的语音模型实现 90% 以上的训练准确度 • 在 10 分钟或更短时间内实施 好处: • 通过经济高效地处理 100% 的语音数据进行分析,从而推动更好的业务成果 • 通过训练有素的语音数据转录准确度达 90% 以上,改进业务决策并获得洞察力 • 通过 120 倍实时速度的转录提高语音数据的可用性 • 通过完整的神经网络架构降低 STT 成本和计算资源 • 通过公平计费节省资金;没有四舍五入到 15 秒的间隔。 主要特点: • 预录或流式转录 • 通用、电话、会议、对话式 AI 和财报电话语音模型 • 行业术语、独特产品名称的关键字提升 • 经过训练的语音模型可实现最大准确度,无需关键字提升 • 音频时间戳 • 信心 • 话语跟踪 • 语音深度搜索 • 标点和大写 • 按人分类的成绩单(演讲者日记) • 编辑 • 脏话过滤 • 多渠道 • 多语言 • 支持超过 40 种不同的音频格式 • 本地、虚拟私有云或云部署 • REST API 和 SDK
Microsoft Bing Speech API

0 3.5 / 5

Microsoft Bing Speech API 是一个基于云的 API,它提供了处理口语的高级算法,它允许开发人员将语音驱动的操作添加到他们的应用程序中,包括与用户的实时交互。
Microsoft Bing Speech API 是一个基于云的 API,它提供了处理口语的高级算法,它允许开发人员将语音驱动的操作添加到他们的应用程序中,包括与用户的实时交互。
Express Scribe

0 4.5 / 5

Express Scribe 是专为打字员和转录工作设计的音频播放器。具有脚踏板控制、变速、语音到文本引擎集成,并支持多种音频格式,包括 wav、mp3、wma。录音可以从 CD、电子邮件、LAN、FTP、本地硬盘驱动器和 Express Delegate 自动加载。传统的手持听写录音机也可以对接并传输音频。具有迷你版以减少应用程序的屏幕空间。 特点: 变速(恒定音高)播放。支持多种脚踏控制。能够对接便携式录音机以加载录音。支持与 Express Delegate 的直接集成。使用系统范围的热键,因此您可以在使用其他软件时控制播放。通过 FTP、电子邮件、Express Delegate 或计算机网络自动接收和加载文件。自动将打字发送给口授工作的人。
Express Scribe 是专为打字员和转录工作设计的音频播放器。具有脚踏板控制、变速、语音到文本引擎集成,并支持多种音频格式,包括 wav、mp3、wma。录音可以从 CD、电子邮件、LAN、FTP、本地硬盘驱动器和 Express Delegate 自动加载。传统的手持听写录音机也可以对接并传输音频。具有迷你版以减少应用程序的屏幕空间。 特点: 变速(恒定音高)播放。支持多种脚踏控制。能够对接便携式录音机以加载录音。支持与 Express Delegate 的直接集成。使用系统范围的热键,因此您可以在使用其他软件时控制播放。通过 FTP、电子邮件、Express Delegate 或计算机网络自动接收和加载文件。自动将打字发送给口授工作的人。
HTK

0 4 / 5

隐马尔可夫模型工具包 (HTK) 是一个便携式工具包,用于构建和操作隐马尔可夫模型,主要用于语音识别研究,尽管它已用于许多其他应用,包括语音合成、字符识别和 DNA 测序的研究。
隐马尔可夫模型工具包 (HTK) 是一个便携式工具包,用于构建和操作隐马尔可夫模型,主要用于语音识别研究,尽管它已用于许多其他应用,包括语音合成、字符识别和 DNA 测序的研究。
AssemblyAI - Speech to Text API

0 5 / 5

您可以信赖的语音转文本。 不要满足于大型技术提供的支持不佳的 API。立即开始使用我们的高精度、最先进的 Speech-to-Text API 进行构建。 - 最先进的准确性:我们的 API 由最先进的深度神经网络提供支持。我们的研究团队在不断改进,我们每隔几周就会发布一次改进。 - 可定制以获得更高的准确性:提高关键字和短语的准确性,或与我们共享音频数据以获得经过定制训练的声学模型。 - 几分钟内集成:使用我们简单的 REST API 几分钟内即可开始使用任何语言:Python、Node、Ruby、PHP、C# 等。 - 24x7 客户支持:所有客户都有一位专门的客户经理与我们的工程师一起提供 24x7 的技术支持和反馈。 - 高度可扩展和快速:以低延迟并行转录数百个音频文件或音频流。 受到数以千计的开发人员的信任,而且还在不断增加。
您可以信赖的语音转文本。 不要满足于大型技术提供的支持不佳的 API。立即开始使用我们的高精度、最先进的 Speech-to-Text API 进行构建。 - 最先进的准确性:我们的 API 由最先进的深度神经网络提供支持。我们的研究团队在不断改进,我们每隔几周就会发布一次改进。 - 可定制以获得更高的准确性:提高关键字和短语的准确性,或与我们共享音频数据以获得经过定制训练的声学模型。 - 几分钟内集成:使用我们简单的 REST API 几分钟内即可开始使用任何语言:Python、Node、Ruby、PHP、C# 等。 - 24x7 客户支持:所有客户都有一位专门的客户经理与我们的工程师一起提供 24x7 的技术支持和反馈。 - 高度可扩展和快速:以低延迟并行转录数百个音频文件或音频流。 受到数以千计的开发人员的信任,而且还在不断增加。
Microsoft Speaker Recognition API

0 3.5 / 5

Microsoft Speaker Recognition API 是一种基于云的 API,提供最先进的说话人验证和说话人识别算法,可分为说话人验证和说话人识别两大类。
Microsoft Speaker Recognition API 是一种基于云的 API,提供最先进的说话人验证和说话人识别算法,可分为说话人验证和说话人识别两大类。
Kaldi

0 4 / 5

Kaldi 是一个自动语音识别工具包,支持线性变换、MMI、boosted MMI 和 MCE 判别训练、特征空间判别训练和深度神经网络。
Kaldi 是一个自动语音识别工具包,支持线性变换、MMI、boosted MMI 和 MCE 判别训练、特征空间判别训练和深度神经网络。
Amazon Transcribe

0 4 / 5

Amazon Transcribe 是一项自动语音识别 (ASR) 服务,让开发人员可以轻松地将语音转文本功能添加到他们的应用程序中。使用 Amazon Transcribe API,您可以分析存储在 Amazon S3 中的音频文件,并让服务返回转录语音的文本文件。
Amazon Transcribe 是一项自动语音识别 (ASR) 服务,让开发人员可以轻松地将语音转文本功能添加到他们的应用程序中。使用 Amazon Transcribe API,您可以分析存储在 Amazon S3 中的音频文件,并让服务返回转录语音的文本文件。