Mislim da ću odustati od ove ideje jer evo, probao sam bar 5 različitih "speech recognition"... onnx + silero_vad rade relativno OK ... ali opet output ima grešaka... a ako se taj output proslijedi LLM-u onda i on odgovara pogrešno...
Nema baš smisla... trebalo bi imati još jedan LLM u sredini koji spaja što je ovaj prvi čuo u nešto korisno pa tek onda šalje velikom LLM-u...
Previše je tu pokretnih dijelova... nema nekog jednostavnog workflowa.. ili zasad gotovog softvera da odradi sve odjednom i samo upućuje zahtjeve dalje...
Možda bude za koju godinu
