Improve Speaker Diarization Stability, Sequential Speaker Ordering & Spectrogram Analysis (!44) · Merge requests · VISWAM / apps / Speech / Voice App Backend

Vemuri priya requested to merge speaker-diarization into spectogram-analysis May 20, 2026

Description

This merge request introduces multiple enhancements and stability improvements to the speaker diarization and audio analysis pipeline. The update improves long-audio processing reliability, ensures consistent speaker ordering, and adds spectrogram-based audio analysis support.

Changes Implemented

1. WAV Normalization Retry for Long Audio Diarization Failures

Implemented a fallback retry mechanism for Pyannote diarization failures caused by compressed audio chunk mismatches.

Improvements

Detects decoder-related chunk mismatch errors
Automatically converts problematic audio into normalized WAV format
Retries diarization on the cleaned WAV file
Removes temporary WAV files after processing

Benefits

Improved handling for long MP3/M4A/WhatsApp audio files
Better diarization stability
Reduced failures caused by compressed audio seeking inaccuracies

2. Sequential Speaker Index Ordering

Implemented consistent sequential ordering for speaker labels.

Improvements

Ensures speakers are labeled in ordered sequence
Normalizes speaker indexing across diarization results
Improves transcript readability and UI consistency

Example

Before:

Speaker_2
Speaker_5
Speaker_1

After:

Speaker_1
Speaker_2
Speaker_3

3. Spectrogram Analysis Implementation

Added spectrogram analysis support for uploaded audio files.

Features

Audio spectrogram generation
Frequency spectrum visualization support
Audio analysis preprocessing improvements
Enhanced audio inspection capabilities

Benefits

Better debugging and analysis of uploaded audio
Improved visualization support for frontend integration
Foundation for future audio intelligence features

Technical Enhancements

Improved error handling for long audio workflows
Added fallback processing pipeline
Enhanced audio preprocessing stability
Improved backend robustness for production workloads
Better handling of compressed audio formats

Impact

This MR significantly improves:

Long audio processing reliability
Speaker transcript consistency
Audio analysis capabilities
Backend stability for diarization workflows

Validation

Tested with long-duration audio files
Verified retry fallback execution
Validated sequential speaker ordering
Confirmed spectrogram generation workflow
No breaking changes introduced

Outcome

The backend is now more stable and production-ready for handling:

long-duration recordings
compressed audio uploads
consistent speaker diarization workflows
spectrogram-based audio analysis

Closes #24 (closed)

Edited May 21, 2026 by Vemuri priya

Improve Speaker Diarization Stability, Sequential Speaker Ordering & Spectrogram Analysis

Description

Changes Implemented

1. WAV Normalization Retry for Long Audio Diarization Failures

Improvements

Benefits

2. Sequential Speaker Index Ordering

Improvements

Example

3. Spectrogram Analysis Implementation

Features

Benefits

Technical Enhancements

Impact

Validation

Outcome

Merge request reports