cc-api-docs/cpp/diarization_8h_source.html

 /* Copyright 2021 ID R&D Inc. All Rights Reserved. */


 #pragma once


 #include <string>

 #include <vector>

 #include <memory>

 #include <map>

 #include <voicesdk/core/common/intervals.h>


 namespace voicesdk {

 namespace diar {


 using TimeStamps = std::map<size_t, std::vector<AudioInterval>>;


 class VOICE_SDK_API DiarizationEngine {

 public:

     using Ptr = std::shared_ptr<DiarizationEngine>;


     static DiarizationEngine::Ptr Create(const std::string& init_dir);


     virtual ~DiarizationEngine() {}


     virtual TimeStamps GetSegmentation(const float* float_samples, const size_t samples_num, const size_t sample_rate,

                                        const size_t num_speakers = 0) = 0;


     virtual TimeStamps GetSegmentation(const int16_t* pcm16_samples, const size_t samples_num, const size_t sample_rate,

                                        const size_t num_speakers = 0) = 0;


     virtual TimeStamps GetSegmentation(const uint8_t* pcm16_bytes, const size_t bytes_num, const size_t sample_rate,

                                        const size_t num_speakers = 0) = 0;


     virtual TimeStamps GetSegmentation(const std::string& audio_path, const size_t num_speakers = 0) = 0;

 };


 }  // namespace diar

 }  // namespace voicesdk

voicesdk::diar::DiarizationEngine
Diarization engine class (interface), intended to perform speaker diarization.
Definition: diarization.h:23

voicesdk::diar::DiarizationEngine::GetSegmentation
virtual TimeStamps GetSegmentation(const std::string &audio_path, const size_t num_speakers=0)=0
Performs speaker diarization from the given audio file.

voicesdk::diar::DiarizationEngine::GetSegmentation
virtual TimeStamps GetSegmentation(const float *float_samples, const size_t samples_num, const size_t sample_rate, const size_t num_speakers=0)=0
Performs speaker diarization from the given float (in [-1; 1] range) audio samples.

voicesdk::diar::DiarizationEngine::GetSegmentation
virtual TimeStamps GetSegmentation(const uint8_t *pcm16_bytes, const size_t bytes_num, const size_t sample_rate, const size_t num_speakers=0)=0
Performs speaker diarization using given PCM16 samples bytes representation.

voicesdk::diar::DiarizationEngine::Create
static DiarizationEngine::Ptr Create(const std::string &init_dir)
Creates DiarizationEngine instance.

voicesdk::diar::DiarizationEngine::GetSegmentation
virtual TimeStamps GetSegmentation(const int16_t *pcm16_samples, const size_t samples_num, const size_t sample_rate, const size_t num_speakers=0)=0
Performs speaker diarization from the given PCM16 audio samples.