cc-api-docs/cpp/media__c__api_8h_source.html

 /* Copyright 2021 ID R&D Inc. All Rights Reserved. */


 #pragma once


 #include <stdint.h>

 #include <stddef.h>


 #include <voicesdk/core/core_c_api.h>


 #ifdef __cplusplus

 extern "C" {

 #endif


 // forward declarations

 typedef struct VoiceSdkSpeechSummaryEngine VoiceSdkSpeechSummaryEngine;

 typedef struct VoiceSdkSpeechSummaryStream VoiceSdkSpeechSummaryStream;

 typedef struct VoiceSdkSpeechSummaryStreamOpus VoiceSdkSpeechSummaryStreamOpus;

 typedef struct VoiceSdkSnrComputer VoiceSdkSnrComputer;

 typedef struct VoiceSdkSpeechEndpointDetector VoiceSdkSpeechEndpointDetector;

 typedef struct VoiceSdkSpeechEndpointDetectorOpus VoiceSdkSpeechEndpointDetectorOpus;

 typedef struct VoiceSdkQualityCheckEngine VoiceSdkQualityCheckEngine;


 // api objects

 typedef struct VoiceSdkSpeechEvent {

     bool is_voice;


     VoiceSdkAudioInterval audio_interval;

 } VoiceSdkSpeechEvent;


 typedef struct VoiceSdkSpeechInfo {

     float speech_length_ms;


     float background_length_ms;


     float total_length_ms;

 } VoiceSdkSpeechInfo;


 DECL_TYPED_ARRAY(VoiceSdkSpeechEventArray, VoiceSdkSpeechEvent)

 DECL_TYPED_ARRAY(VoiceSdkSpeechInfoArray, VoiceSdkSpeechInfo)


 typedef struct VoiceSdkSpeechSummary {

     VoiceSdkSpeechEventArray speech_events;


     VoiceSdkSpeechInfo speech_info;

 } VoiceSdkSpeechSummary;


 typedef enum VoiceSdkQualityCheckShortDescription {

     kVoiceSdkQualityCheckShortDescriptionTooNoisy = 0,


     kVoiceSdkQualityCheckShortDescriptionTooSmallSpeechLength = 1,


     kVoiceSdkQualityCheckShortDescriptionOk = 2,


     kVoiceSdkQualityCheckShortDescriptionTooSmallSpeechRelativeLength = 3,


     kVoiceSdkQualityCheckShortDescriptionMultipleSpeakersDetected = 4

 } VoiceSdkQualityCheckShortDescription;


 typedef enum VoiceSdkQualityCheckScenario {

     kVoiceSdkQualityCheckScenarioVerifyTiEnrollment = 0,


     kVoiceSdkQualityCheckScenarioVerifyTiVerification = 1,


     kVoiceSdkQualityCheckScenarioVerifyTdEnrollment = 2,


     kVoiceSdkQualityCheckScenarioVerifyTdVerification = 3,


     kVoiceSdkQualityCheckScenarioLiveness = 4

 } VoiceSdkQualityCheckScenario;


 typedef struct VoiceSdkQualityCheckMetricsThresholds {

     float minimum_snr_db;


     float minimum_speech_length_ms;


     float minimum_speech_relative_length;


     float maximum_multiple_speakers_detector_score;

 } VoiceSdkQualityCheckMetricsThresholds;


 typedef struct VoiceSdkQualityCheckEngineResult {

     VoiceSdkQualityCheckShortDescription quality_check_short_description;


     float snr_db;


     float speech_length_ms;


     float speech_relative_length;


     float multiple_speakers_detector_score;

 } VoiceSdkQualityCheckEngineResult;


 /************************

  * Speech Summary calls *

  ************************/


 VOICE_SDK_API

 VoiceSdkSpeechSummaryEngine* VoiceSdkSpeechSummaryEngineCreate(const char* init_data_path, char** error_msg);


 VOICE_SDK_API

 VoiceSdkSpeechSummary* VoiceSdkSpeechSummaryEngineGetSpeechSummaryFromBytes(const VoiceSdkSpeechSummaryEngine* engine,

                                                                             const uint8_t* bytes, size_t bytes_num,

                                                                             size_t sample_rate, char** error_msg);


 VOICE_SDK_API

 VoiceSdkSpeechSummary* VoiceSdkSpeechSummaryEngineGetSpeechSummaryFromPcm16Samples(

         const VoiceSdkSpeechSummaryEngine* engine, const int16_t* pcm16_samples, size_t samples_num, size_t sample_rate,

         char** error_msg);


 VOICE_SDK_API

 VoiceSdkSpeechSummary* VoiceSdkSpeechSummaryEngineGetSpeechSummaryFromFloatSamples(

         const VoiceSdkSpeechSummaryEngine* engine, const float* float_samples, size_t samples_num, size_t sample_rate,

         char** error_msg);


 VOICE_SDK_API

 VoiceSdkSpeechSummary* VoiceSdkSpeechSummaryEngineGetSpeechSummaryFromFile(const VoiceSdkSpeechSummaryEngine* engine,

                                                                            const char* audio_path, char** error_msg);


 VOICE_SDK_API

 void VoiceSdkSpeechSummaryEngineRelease(VoiceSdkSpeechSummaryEngine* engine);


 VOICE_SDK_API

 void VoiceSdkSpeechSummaryRelease(VoiceSdkSpeechSummary* summary);


 /*******************************

  * SpeechSummaryStream calls   *

  *******************************/


 VOICE_SDK_API

 VoiceSdkSpeechSummaryStream* VoiceSdkSpeechSummaryStreamCreate(const VoiceSdkSpeechSummaryEngine* engine,

                                                                size_t sample_rate, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamAddByteSamples(const VoiceSdkSpeechSummaryStream* stream, const uint8_t* bytes,

                                                size_t bytes_num, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamAddPcm16Samples(const VoiceSdkSpeechSummaryStream* stream, const int16_t* pcm16_samples,

                                                 size_t samples_num, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamAddFloatSamples(const VoiceSdkSpeechSummaryStream* stream, const float* float_samples,

                                                 size_t samples_num, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamGetCurrentBackgroundLength(const VoiceSdkSpeechSummaryStream* stream, float* result,

                                                            char** error_msg);

 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamHasSpeechEvents(const VoiceSdkSpeechSummaryStream* stream, bool* result,

                                                 char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamGetSpeechEvent(const VoiceSdkSpeechSummaryStream* stream, VoiceSdkSpeechEvent* result,

                                                char** error_msg);


 VOICE_SDK_API

 VoiceSdkSpeechSummary* VoiceSdkSpeechSummaryStreamGetTotalSpeechSummary(const VoiceSdkSpeechSummaryStream* stream,

                                                                         char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamGetTotalSpeechInfo(const VoiceSdkSpeechSummaryStream* stream,

                                                    VoiceSdkSpeechInfo* result, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamReset(const VoiceSdkSpeechSummaryStream* stream, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamFinalize(const VoiceSdkSpeechSummaryStream* stream, char** error_msg);


 VOICE_SDK_API

 void VoiceSdkSpeechSummaryStreamRelease(VoiceSdkSpeechSummaryStream* stream);


 /***********************************

  * SpeechSummaryStreamOpus calls   *

  ***********************************/


 VOICE_SDK_API

 VoiceSdkSpeechSummaryStreamOpus* VoiceSdkSpeechSummaryStreamOpusCreate(const char* init_data_path, size_t sample_rate,

                                                                        char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamOpusAddPacket(const VoiceSdkSpeechSummaryStreamOpus* stream, const uint8_t* bytes,

                                               size_t bytes_num, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamOpusGetCurrentBackgroundLength(const VoiceSdkSpeechSummaryStreamOpus* stream,

                                                                float* result, char** error_msg);

 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamOpusHasSpeechEvents(const VoiceSdkSpeechSummaryStreamOpus* stream, bool* result,

                                                     char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamOpusGetSpeechEvent(const VoiceSdkSpeechSummaryStreamOpus* stream,

                                                    VoiceSdkSpeechEvent* result, char** error_msg);


 VOICE_SDK_API

 VoiceSdkSpeechSummary* VoiceSdkSpeechSummaryStreamOpusGetTotalSpeechSummary(

         const VoiceSdkSpeechSummaryStreamOpus* stream, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamOpusGetTotalSpeechInfo(const VoiceSdkSpeechSummaryStreamOpus* stream,

                                                        VoiceSdkSpeechInfo* result, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamOpusReset(const VoiceSdkSpeechSummaryStreamOpus* stream, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechSummaryStreamOpusFinalize(const VoiceSdkSpeechSummaryStreamOpus* stream, char** error_msg);


 VOICE_SDK_API

 void VoiceSdkSpeechSummaryStreamOpusRelease(VoiceSdkSpeechSummaryStreamOpus* stream);


 /************************

  * SNR Computer calls   *

  ************************/


 VOICE_SDK_API

 VoiceSdkSnrComputer* VoiceSdkSnrComputerCreate(const char* init_data_path, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSnrComputerComputeFromBytes(const VoiceSdkSnrComputer* engine, const uint8_t* bytes, size_t bytes_num,

                                          size_t sample_rate, float* result, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSnrComputerComputeFromPcm16Samples(const VoiceSdkSnrComputer* engine, const int16_t* pcm16_samples,

                                                 size_t samples_num, size_t sample_rate, float* result,

                                                 char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSnrComputerComputeFromFloatSamples(const VoiceSdkSnrComputer* engine, const float* float_samples,

                                                 size_t samples_num, size_t sample_rate, float* result,

                                                 char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSnrComputerComputeFromFile(const VoiceSdkSnrComputer* engine, const char* audio_path, float* result,

                                         char** error_msg);


 VOICE_SDK_API

 void VoiceSdkSnrComputerRelease(VoiceSdkSnrComputer* engine);


 /********************************

  * SpeechEndpointDetector calls *

  ********************************/


 VOICE_SDK_API

 VoiceSdkSpeechEndpointDetector* VoiceSdkSpeechEndpointDetectorCreate(size_t min_speech_length_ms,

                                                                      size_t max_silence_length_ms, size_t sample_rate,

                                                                      char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechEndpointDetectorAddByteSamples(const VoiceSdkSpeechEndpointDetector* detector, const uint8_t* bytes,

                                                   size_t bytes_num, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechEndpointDetectorAddPcm16Samples(const VoiceSdkSpeechEndpointDetector* detector,

                                                    const int16_t* pcm16_samples, size_t samples_num, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechEndpointDetectorAddFloatSamples(const VoiceSdkSpeechEndpointDetector* detector,

                                                    const float* float_samples, size_t samples_num, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechEndpointDetectorIsSpeechEnded(const VoiceSdkSpeechEndpointDetector* detector, bool* result,

                                                  char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechEndpointDetectorReset(const VoiceSdkSpeechEndpointDetector* detector, char** error_msg);


 VOICE_SDK_API

 void VoiceSdkSpeechEndpointDetectorRelease(VoiceSdkSpeechEndpointDetector* detector);


 /************************************

  * SpeechEndpointDetectorOpus calls *

  ************************************/


 VOICE_SDK_API

 VoiceSdkSpeechEndpointDetectorOpus* VoiceSdkSpeechEndpointDetectorOpusCreate(size_t min_speech_length_ms,

                                                                              size_t max_silence_length_ms,

                                                                              size_t sample_rate, char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechEndpointDetectorOpusAddPacket(const VoiceSdkSpeechEndpointDetectorOpus* detector,

                                                  const uint8_t* bytes, size_t bytes_num, char** error_msg);

 VOICE_SDK_API

 bool VoiceSdkSpeechEndpointDetectorOpusIsSpeechEnded(const VoiceSdkSpeechEndpointDetectorOpus* detector, bool* result,

                                                      char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkSpeechEndpointDetectorOpusReset(const VoiceSdkSpeechEndpointDetectorOpus* detector, char** error_msg);


 VOICE_SDK_API

 void VoiceSdkSpeechEndpointDetectorOpusRelease(VoiceSdkSpeechEndpointDetectorOpus* detector);


 /************************************

  * VoiceSdkQualityCheckEngine calls *

  ************************************/


 VOICE_SDK_API

 VoiceSdkQualityCheckEngine* VoiceSdkQualityCheckEngineCreate(const char* init_data_path, VoiceSdkErrorCode* error_code,

                                                              char** error_msg);


 VOICE_SDK_API

 bool VoiceSdkQualityCheckEngineGetRecommendedThresholds(const VoiceSdkQualityCheckEngine* engine,

                                                         VoiceSdkQualityCheckScenario scenario,

                                                         VoiceSdkQualityCheckMetricsThresholds* thresholds,

                                                         VoiceSdkErrorCode* error_code, char** error_msg);


 VOICE_SDK_API

 VoiceSdkQualityCheckEngineResult* VoiceSdkQualityCheckEngineCheckQualityAudioFile(

         const VoiceSdkQualityCheckEngine* engine, const char* audio_path,

         VoiceSdkQualityCheckMetricsThresholds thresholds, VoiceSdkErrorCode* error_code, char** error_msg);


 VOICE_SDK_API

 VoiceSdkQualityCheckEngineResult* VoiceSdkQualityCheckEngineCheckQualityFloatSamples(

         const VoiceSdkQualityCheckEngine* engine, const float* float_samples, size_t num_samples, size_t sample_rate,

         VoiceSdkQualityCheckMetricsThresholds thresholds, VoiceSdkErrorCode* error_code, char** error_msg);


 VOICE_SDK_API

 VoiceSdkQualityCheckEngineResult* VoiceSdkQualityCheckEngineCheckQualityPcm16Samples(

         const VoiceSdkQualityCheckEngine* engine, const int16_t* samples, size_t num_samples, size_t sample_rate,

         VoiceSdkQualityCheckMetricsThresholds thresholds, VoiceSdkErrorCode* error_code, char** error_msg);


 VOICE_SDK_API

 VoiceSdkQualityCheckEngineResult* VoiceSdkQualityCheckEngineCheckQualityBytes(

         const VoiceSdkQualityCheckEngine* engine, const uint8_t* bytes, size_t num_bytes, size_t sample_rate,

         VoiceSdkQualityCheckMetricsThresholds thresholds, VoiceSdkErrorCode* error_code, char** error_msg);


 VOICE_SDK_API

 void VoiceSdkQualityCheckEngineResultRelease(VoiceSdkQualityCheckEngineResult* check_result);


 VOICE_SDK_API

 void VoiceSdkQualityCheckEngineRelease(VoiceSdkQualityCheckEngine* engine);


 #ifdef __cplusplus

 }

 #endif

VoiceSdkAudioInterval
Definition: core_c_api.h:73

VoiceSdkQualityCheckEngineResult
Definition: media_c_api.h:144

VoiceSdkQualityCheckEngineResult::quality_check_short_description
VoiceSdkQualityCheckShortDescription quality_check_short_description
Short description of the quality check results.
Definition: media_c_api.h:148

VoiceSdkQualityCheckEngineResult::speech_length_ms
float speech_length_ms
Speech length metric value obtained on quality check in milliseconds.
Definition: media_c_api.h:158

VoiceSdkQualityCheckEngineResult::speech_relative_length
float speech_relative_length
Speech relative length (speech length relative to the total audio length) metric value obtained on qu...
Definition: media_c_api.h:163

VoiceSdkQualityCheckEngineResult::multiple_speakers_detector_score
float multiple_speakers_detector_score
Multiple speakers detector score value obtained on quality check.
Definition: media_c_api.h:168

VoiceSdkQualityCheckEngineResult::snr_db
float snr_db
SNR metric value obtained on quality check in Db.
Definition: media_c_api.h:153

VoiceSdkQualityCheckMetricsThresholds
Definition: media_c_api.h:122

VoiceSdkQualityCheckMetricsThresholds::minimum_snr_db
float minimum_snr_db
Minimum signal-to-noise ratio required to pass quality check in dB.
Definition: media_c_api.h:126

VoiceSdkQualityCheckMetricsThresholds::minimum_speech_length_ms
float minimum_speech_length_ms
Minimum speech length required to pass quality check in milliseconds.
Definition: media_c_api.h:131

VoiceSdkQualityCheckMetricsThresholds::minimum_speech_relative_length
float minimum_speech_relative_length
Minimum speech relative length (speech length relative to the total audio length) required to pass qu...
Definition: media_c_api.h:136

VoiceSdkQualityCheckMetricsThresholds::maximum_multiple_speakers_detector_score
float maximum_multiple_speakers_detector_score
Maximum multiple speakers detector score allowed to pass quality check.
Definition: media_c_api.h:141

VoiceSdkSpeechEvent
Definition: media_c_api.h:24

VoiceSdkSpeechEvent::is_voice
bool is_voice
Whether the interval contains speech or not.
Definition: media_c_api.h:28

VoiceSdkSpeechEvent::audio_interval
VoiceSdkAudioInterval audio_interval
Speech event audio interval.
Definition: media_c_api.h:33

VoiceSdkSpeechInfo
Definition: media_c_api.h:36

VoiceSdkSpeechInfo::total_length_ms
float total_length_ms
Processed audio total length (totalLengthMs = speechLengthMs + backgroundLengthMs) in milliseconds.
Definition: media_c_api.h:50

VoiceSdkSpeechInfo::background_length_ms
float background_length_ms
Non-speech signal length in milliseconds.
Definition: media_c_api.h:45

VoiceSdkSpeechInfo::speech_length_ms
float speech_length_ms
Speech signal length in milliseconds.
Definition: media_c_api.h:40

VoiceSdkSpeechSummary
Definition: media_c_api.h:56

VoiceSdkSpeechSummary::speech_events
VoiceSdkSpeechEventArray speech_events
Contains audio intervals marked as speech or non-speech.
Definition: media_c_api.h:60

VoiceSdkSpeechSummary::speech_info
VoiceSdkSpeechInfo speech_info
Contains speech statistics.
Definition: media_c_api.h:65