Znači cilj je nekako upogoniti lokalni LLM + Rhasspy + par mikrofona po stanu da se može kompletno pričati s lokalnim AI-jem (full offline) i istovremeno davati komande tipa "ugasi svjetlo".
No zapeo već na prvom koraku - u dnevnom je HTPC s Windowsima, na njemu je mikrofon. U drugoj sobi je komp na kojem se vrti LLM.
Treba nekako napraviti Speech to Text (STT) na način da komp u dnenvom sluša, snimi wav, pošalje kompu u drugoj sobi (OpenAI Whisper) koji onda obradi zvuk i dalje šalje Rhasspyu ili LLM-u, koji nakon responsa šalje Coqui TTS da napravi TTS i vrati wav nazad HTPC-u da ga izgovori.
Stvar je očito mega komplicirana i sad gledam koje su druge opcije.
Da li je netko slagao takav sistem u kojem bi znači bilo sve objedinjeno, STT, TTS, Home Assistant i naravno full LLM za pričat o glupostima?
Chatgpt je probao složiti neku Python skriptu, ali ništa to ne pomaže.