`text-to-audio` (sound effects)

HF group: Audio · Status: ❌ not built

What it is

Text → ambient sound, sound effects, foley. Distinct from text-to-music (rhythmic) and text-to-speech (linguistic).

Model	Params	Released	License	Quality	Notes
Stable Audio Open 1.0	~1 B	2024-07	Stability community	Strong on non-musical SFX	Better than AudioLDM / AudioGen for SFX.
AudioLDM 2	~700 M	2023	CC-BY-NC	Solid	Slightly older.
MAGNeT-medium-30s	~1.5 B	2024	CC-BY-NC	7× faster than autoregressive baselines	Non-autoregressive; suits real-time.
MOSS-Audio	~8 B	2026-04	Apache-2.0	Speech / sound / music in one model	Newer entrant; also good for `audio-text-to-text`.

Whole audio-generation stack. Diffusion / autoregressive audio runtime crate, audio output IPC, format conversion.