`audio-to-embedding`

HF group: Audio · Status: ❌ not built

What it is

Audio → fixed-size float vector. Used for audio search, classification, similarity. The audio analog of text-to-embedding.

Model	Params	Released	License	Quality	Notes
CLAP (LAION)	~636 M	2023	CC0	Standard text-audio joint embedding	LAION CLAP variants are most-used.
LAION-CLAP-music	~636 M	2023	CC0	Music-tuned	Better for music search.
MERT-v1-330M	330 M	2024	Apache-2.0	Music-focused	Self-supervised on music.
Wav2Vec2-Large	317 M	2020	Apache-2.0	Speech features	Foundational, but more for downstream tasks.

Audio encoder runtime. locara-audio-embed crate or extension to locara-llama for CLAP-class encoder support.