ニュース
人間の脳と同じような音声情報処理を実現、NTTテクノクロスの「SpeechRec Server」新バージョン
2021/11/16 16:00
SpeechRec Serverの新バージョンでは、NTTコンピュータ&データサイエンス研究所の次世代メディア処理AI「MediaGnosis」を活用した音声情報処理としてエンドツーエンド方式を採用。これまで一部の音声情報処理のみに適用していたディープニューラルネットワーク(DNN)を全てに適用し、音声データ入力からテキスト出力までをオールインワンで実現している。
MediaGnosisにより、相づちや「えー」「あのー」などのつなぎ言葉に加え、「私なんかは」などの話し言葉特有の表現を認識し、話の意味を理解しやすいようなテキストに変換。また、テキスト化された情報を内容ごとに分類して表示することもできる。複数の人が話す場合、それぞれを識別するために事前に音声を登録したり、マイクを分けたりする必要がなく、話者の声質や波形などの特徴からMediaGnosisが自動で話者を識別する。
- 1
関連記事
音声認識AIでオペレーターを自動割当、NTTテクノクロスの「CTBASE/afuRe:Call」
新春特集 大手ITベンダー各社に聞く、2021年法人向けIT市場展望