Pričanje s lokalnim AI

dakky · 14.05.2025., 16:21

Znači cilj je nekako upogoniti lokalni LLM + Rhasspy + par mikrofona po stanu da se može kompletno pričati s lokalnim AI-jem (full offline) i istovremeno davati komande tipa "ugasi svjetlo".

No zapeo već na prvom koraku - u dnevnom je HTPC s Windowsima, na njemu je mikrofon. U drugoj sobi je komp na kojem se vrti LLM.

Treba nekako napraviti Speech to Text (STT) na način da komp u dnenvom sluša, snimi wav, pošalje kompu u drugoj sobi (OpenAI Whisper) koji onda obradi zvuk i dalje šalje Rhasspyu ili LLM-u, koji nakon responsa šalje Coqui TTS da napravi TTS i vrati wav nazad HTPC-u da ga izgovori.

Stvar je očito mega komplicirana i sad gledam koje su druge opcije.

Da li je netko slagao takav sistem u kojem bi znači bilo sve objedinjeno, STT, TTS, Home Assistant i naravno full LLM za pričat o glupostima?

Chatgpt je probao složiti neku Python skriptu, ali ništa to ne pomaže.

Ivo_Strojnica · 14.05.2025., 17:29

u borati jesi ga zakomplicira.

šta fali nekom bluetooth zvučniku koji je spojen na tvoj server?
A tvoj mudrac se pali kad čuje neke ključne riči, tipa: "Hej, mudrače!".

dakky · 14.05.2025., 17:32

Ništa ne fali, osim što nemam BT zvučnik, ali bi ga kupio kad bi znao da ću eliminirati sve ove zavrzlame.

Zvučnik samo ispušta zvuk, problem je dovesti vlastiti glas do servera... i transcribati ga u tekst...

mkey · 14.05.2025., 17:38

Meni se čini kako bi se taj krajnji dio možda najlakše dalo riješiti korištenjem nekog starijeg mobitela, pa da on služio kao audio ulaz i izlaz. Nisam baš momentalno pametan kako to odraditi, ali koristio sam droidcam aplikaciju da bih mogao koristiti kameru na mobitelu kao mobilnu kameru, tako da bi taj dio trebao (po meni) biti relativno jednostavan. Redovito ima nekih starih mobitela pri ruci pa bi se reklo da je to minimalan trošak.

BTW, droidcam app od mobitela napravi web kameru, tako da bi LLM komp to trebao uredno vidjeti na mreži. YMMV. Nisam baš garant hoće li LLM komp htjeti vidjeti mob kao zvučnik, tako da bi to mogla biti dodatna začkoljica.

A sve ovo ostalo, pojma nemam bogati. Jamačno dodatni problem bude ako želite spikati po naški

-> OK, ovo pp planiraš riješiti sa Rhasspy.

Ivo_Strojnica · 14.05.2025., 17:42

Citiraj:

Autor dakky

Ništa ne fali, osim što nemam BT zvučnik, ali bi ga kupio kad bi znao da ću eliminirati sve ove zavrzlame.

Zvučnik samo ispušta zvuk, problem je dovesti vlastiti glas do servera... i transcribati ga u tekst...

Ima onih cheap zvučnika sa mikrofonom, ali sad se postavlja pitanje kakve je kvalitete.

možda kupiti neki bluetooth mikrofon?
ili da prvo samo spojiš slušalice sa mikrofonom i složiš ulaz da to sve radi.

Kad on tebe bude čuo i razumio, onda možeš kreniti sa zamjenom tipa ulaza.

dakky · 14.05.2025., 17:45

Ima dobrih TTS modela koji pričaju naški, ima čak i STT modela koji transcribaju naški... to je sve drugi korak kad riješim engleski

Znači chatgpt je složio Python skriptu koja:
1. sluša na lokalnom kompu s mikrofonom
2. recorda 5 sekundi kad čuje govor
3. šalje serveru na transcribe
4. dobiva tekst natrag
5. šalje dobiveni tekst LLM-u na server
6. LLM šalje odgovor natrag
7. python skripta šalje dobiveni tekst Coqui TTS na server
8. CoquiTTS šalje wav natrag na playback
9. skripta pušta snimljeni wav file

I što je najgore ovo je upravo proradilo nakon što se cijelo jutro zezam s ovim.

I komplicirano je do ibera, da. Mora biti neki bolji način.

mkey · 14.05.2025., 17:47

Što je kompliciranije to će otpor prema održavanju biti veći, to budi siguran.

Ivo_Strojnica · 14.05.2025., 18:00

auf, amen.
A i samo sjećanje će ispariti kako to sve radi....

mkey · 14.05.2025., 18:05

Ma može se stvari solidno skriptirati pa to pomogne dosta kod raznih (naknadnih) instalacija. Ali ovo je jako puno koraka i sve što se bude moralo ručno podešavati bude kasnije vjerojatno tražilo n+1 koraka ručnih podešavanja. Vjerojatno bi bilo pametno što više toga utrpati u neki distrobox ili docker tako da se podesi i ne dira nikad

A meni se dobitak od toga na kraju čini minimalan. I tako bude elonov brain interface uskoro, pa neće trebati ni pričati, samo pomisliš i gasi svjetlo.

Ivo_Strojnica · 14.05.2025., 18:06

Prvo nek proradi, onda lako u Docker

dakky · 14.05.2025., 18:22

Ma da, izgleda da je ovo uzalud traćenje vremena.

Mikrofon lovi i što treba i što ne treba

Onda treba imati timeout, jer ne može skripta raditi konstantan send i dobivati konstantan transcript...

Znači skripta mora slušati 5-10 sekundi, poslati snimljeno, vidjeti što je snimljeno, slati opet.

Problem je što taj timeout od 5 sekundi gotovo uvijek prekine tvoje pitanje na pola i onda transkripcija bude na pola i onda LLM dobije polovični upit i evo sad mi priča o kuhanju nekog jela za koje ga nisam pitao.

Ideja je dobra da možeš "pričati sa kućom" o svemu i svačemu, ali je izgleda realizacija nemoguća...

mkey · 14.05.2025., 18:37

Vjerujem da biš trebao moći napraviti tako da čeka neku ključnu riječ. Dakle, Rhasspy snima stalno i kada dobije "start" krene obrađivati i koristi LLM. Da/ne?

dakky · 14.05.2025., 18:41

Tako bi trebalo biti, ali ne znam kako to riješiti s Pythonom, lokalno.

Znači chatgpt je složio verziju skripte gdje čeka da stisnem enter, snima 5 sekundi, šalje na transcribe ... i ta verzija radi odlično... stisneš enter, pitaš "how are you" i dobiješ glasovni odgovor "i'm fine thanks for asking"

ali to staviti u loop ne ide nikako jer ako je tišina, u recording uđe šum i transcribe napravi neko nepostojeće pitanje pa dobiješ i nepostojeći odgovor.. probao dizati threshold ali onda uopće ne reagira ili prekasno reagira ili kad krene slušat već sam gotov s pitanjem ili uhvati samo zadnju riječ itd itd.

wake word bi bio idealan, pitanje je kako to napraviti...

spiderhr · 14.05.2025., 18:53

Kaj nema FireStick onu foru: Alexa play?

Ili Google?

Ti smisli Štef slušaj: i tu kažeš kaj te zanima.
Ili ako voliš ženska imena reci: Đurđa donesi pivu: i tu kažeš kaj te zanima

OuttaControl · 14.05.2025., 19:17

Tebi tu treba neki lokalni algoritam koji analizira soundeave pattern i kad je dovoljno slican snimljenom "Stef Slusaj" aktivira snimanje i ide dalje, ima vjerojatno neki python library za to, pitaj LLM

Po meni ne treba niti pretvarati to u tekst nego samo pattern da bude dovoljno slican.

dakky · 14.05.2025., 19:19

E, taj wake word... Tko njega procesuira. Nešto treba procesuirati sav zvuk koji se konstantno sluša... dakle neki Silero VAD ili nešto treba stalno slušati i čekati glas... kad čuje glas, treba proslijediti glas na prepoznavanje...

Zvuči jednostavno ovako na papiru "Hej Štef", ali u realnosti je taj "Štef" mora isto biti transkripcija iz voice u tekst... i to konstantna... bez pauza... stalno slušanje i stalna transkripcija i stalno čekanje te jedne riječi da se upali druga faza koja sluša i čeka pravo pitanje.

Citiraj:

Autor OuttaControl

Tebi tu treba neki lokalni algoritam koji analizira soundeave pattern i kad je dovoljno slican snimljenom "Stef Slusaj" aktivira snimanje i ide dalje, ima vjerojatno neki python library za to, pitaj LLM

Po meni ne treba niti pretvarati to u tekst nego samo pattern da bude dovoljno slican.

E da, to... to bi trebalo biti lokalno, bez slanja na transkripciju...

tomek@vz · 14.05.2025., 19:20

Vrlo komplicirano...koji je krajnji cilj?

dakky · 14.05.2025., 19:24

Citiraj:

Autor tomek@vz

Vrlo komplicirano...koji je krajnji cilj?

Pa imat pametnu kuću... s kojom možeš pričat o svemu... i usput gasit i palit svjetla po kući, puštat muziku... pitat kako skuhat paštašutu i što misli o Plenkoviću

.. i za koga glasat na lokalnim izborima... i reć da te podsjeti baciti smeće i da ćeš biti doma oko 18h i da upali klimu pol sata ranije.

To je krajnji cilj. Ali izgleda da je to SF još uvijek.

Ivo_Strojnica · 14.05.2025., 19:59

"hej štef" ima određenu matematičku krivulju, tražiš tu krivulju sa određenim odmacima, igra sa derivacijama, sad ne znam koliko si sa matematikom i obradom signala.

Nakon šta se detektira taj signal, onda se prati modulacija tog signala, jer to je tvoj glas, a ignorira se druge zvukove, glasove.
Nije to ništa komplicirano, ako je složija to netko u amazonu, možeš definitivno složiti i ti.

OuttaControl · 14.05.2025., 20:13

Dobro to sto je nekomu amazonu napravio ne znaci da mos bas ti sam lako

oni imaju koji euric vise nego svi mi na ovom forumu skupa

Netriba izmisljat toplu vodu kad vjerojatno postoji, prvi rezultat sa googla
https://github.com/Uberi/speech_recognition

tomek@vz · 14.05.2025., 20:33

Ako to sve složiš da radi kak spada dugotrajno svaka ti dala - osobno bih radije uzeo nešto od gotovih komercijalnih riješenja jer tu ima malo više caka nego trenutno imaš na radaru (plus što u konačnici vjerojatno neće biti jeftino).

dakky · 14.05.2025., 21:09

Mislim da ću odustati od ove ideje jer evo, probao sam bar 5 različitih "speech recognition"... onnx + silero_vad rade relativno OK ... ali opet output ima grešaka... a ako se taj output proslijedi LLM-u onda i on odgovara pogrešno...

Nema baš smisla... trebalo bi imati još jedan LLM u sredini koji spaja što je ovaj prvi čuo u nešto korisno pa tek onda šalje velikom LLM-u...

Previše je tu pokretnih dijelova... nema nekog jednostavnog workflowa.. ili zasad gotovog softvera da odradi sve odjednom i samo upućuje zahtjeve dalje...

Možda bude za koju godinu

kasko · 14.05.2025., 21:54

Meni STT na gboardu radi skoro pa savrseno, od 10-20 rijeci jednu mozda fula i to ako.

E sad kad bi imao "mozga" napraviti da ti u file trpa redom sve što govoris i imas skriptu koja slusa tj zapravo cita iz filea, nakon sto skripta vidi "trigger_start" riječ, odabere taj dio teksta sve do "trigger_end" rijeci. I taj selektirani chunk samo salje u LLM da odradi sto je potrebno dalje.

Sent from my 23127PN0CG using Tapatalk

RainZG · 15.05.2025., 00:03

home assistant + ollama a za mikrofone esp32 sa mikrofonom i koristenje HA voice opcije koja ima wake word?

mkey · 15.05.2025., 00:59

Malo sam se zajebavao sa spomenutim SpeechRecognition (koji je u biti wrapper za razna rješenja) i PocketSphinx (koji se može koristiti i samostalno) ali to po defaultu radi dosta loše.

Probao sam i whisper i to se čini kako radi puno bolje.

14.05.2025., 16:21	#1
dakky Uptime freak Moj komp Datum registracije: Dec 2002 Lokacija: Ri, Cro Postovi: 2,958	Pričanje s lokalnim AI Znači cilj je nekako upogoniti lokalni LLM + Rhasspy + par mikrofona po stanu da se može kompletno pričati s lokalnim AI-jem (full offline) i istovremeno davati komande tipa "ugasi svjetlo". No zapeo već na prvom koraku - u dnevnom je HTPC s Windowsima, na njemu je mikrofon. U drugoj sobi je komp na kojem se vrti LLM. Treba nekako napraviti Speech to Text (STT) na način da komp u dnenvom sluša, snimi wav, pošalje kompu u drugoj sobi (OpenAI Whisper) koji onda obradi zvuk i dalje šalje Rhasspyu ili LLM-u, koji nakon responsa šalje Coqui TTS da napravi TTS i vrati wav nazad HTPC-u da ga izgovori. Stvar je očito mega komplicirana i sad gledam koje su druge opcije. Da li je netko slagao takav sistem u kojem bi znači bilo sve objedinjeno, STT, TTS, Home Assistant i naravno full LLM za pričat o glupostima? Chatgpt je probao složiti neku Python skriptu, ali ništa to ne pomaže.

14.05.2025., 17:29	#2
Ivo_Strojnica PRO Moj komp Datum registracije: Apr 2010 Lokacija: Zagreb Postovi: 4,838	u borati jesi ga zakomplicira. šta fali nekom bluetooth zvučniku koji je spojen na tvoj server? A tvoj mudrac se pali kad čuje neke ključne riči, tipa: "Hej, mudrače!". __________________ "Who is your daddy and what does he do?"

14.05.2025., 18:00	#8
Ivo_Strojnica PRO Moj komp Datum registracije: Apr 2010 Lokacija: Zagreb Postovi: 4,838	auf, amen. A i samo sjećanje će ispariti kako to sve radi.... __________________ "Who is your daddy and what does he do?"

14.05.2025., 18:06	#10
Ivo_Strojnica PRO Moj komp Datum registracije: Apr 2010 Lokacija: Zagreb Postovi: 4,838	Prvo nek proradi, onda lako u Docker __________________ "Who is your daddy and what does he do?"

14.05.2025., 18:53	#14
spiderhr Premium Datum registracije: Jul 2021 Lokacija: Sesvete Postovi: 1,111	Kaj nema FireStick onu foru: Alexa play? Ili Google? Ti smisli Štef slušaj: i tu kažeš kaj te zanima. Ili ako voliš ženska imena reci: Đurđa donesi pivu: i tu kažeš kaj te zanima __________________ tomek@vz: ajd nemoj \| Mali Čile SAD Češka Peru \| Windows Free

14.05.2025., 17:32	#3
dakky Uptime freak Moj komp Datum registracije: Dec 2002 Lokacija: Ri, Cro Postovi: 2,958	Ništa ne fali, osim što nemam BT zvučnik, ali bi ga kupio kad bi znao da ću eliminirati sve ove zavrzlame. Zvučnik samo ispušta zvuk, problem je dovesti vlastiti glas do servera... i transcribati ga u tekst...

14.05.2025., 17:45	#6
dakky Uptime freak Moj komp Datum registracije: Dec 2002 Lokacija: Ri, Cro Postovi: 2,958	Ima dobrih TTS modela koji pričaju naški, ima čak i STT modela koji transcribaju naški... to je sve drugi korak kad riješim engleski Znači chatgpt je složio Python skriptu koja: 1. sluša na lokalnom kompu s mikrofonom 2. recorda 5 sekundi kad čuje govor 3. šalje serveru na transcribe 4. dobiva tekst natrag 5. šalje dobiveni tekst LLM-u na server 6. LLM šalje odgovor natrag 7. python skripta šalje dobiveni tekst Coqui TTS na server 8. CoquiTTS šalje wav natrag na playback 9. skripta pušta snimljeni wav file I što je najgore ovo je upravo proradilo nakon što se cijelo jutro zezam s ovim. I komplicirano je do ibera, da. Mora biti neki bolji način.

14.05.2025., 18:22	#11
dakky Uptime freak Moj komp Datum registracije: Dec 2002 Lokacija: Ri, Cro Postovi: 2,958	Ma da, izgleda da je ovo uzalud traćenje vremena. Mikrofon lovi i što treba i što ne treba Onda treba imati timeout, jer ne može skripta raditi konstantan send i dobivati konstantan transcript... Znači skripta mora slušati 5-10 sekundi, poslati snimljeno, vidjeti što je snimljeno, slati opet. Problem je što taj timeout od 5 sekundi gotovo uvijek prekine tvoje pitanje na pola i onda transkripcija bude na pola i onda LLM dobije polovični upit i evo sad mi priča o kuhanju nekog jela za koje ga nisam pitao. Ideja je dobra da možeš "pričati sa kućom" o svemu i svačemu, ali je izgleda realizacija nemoguća...

14.05.2025., 18:41	#13
dakky Uptime freak Moj komp Datum registracije: Dec 2002 Lokacija: Ri, Cro Postovi: 2,958	Tako bi trebalo biti, ali ne znam kako to riješiti s Pythonom, lokalno. Znači chatgpt je složio verziju skripte gdje čeka da stisnem enter, snima 5 sekundi, šalje na transcribe ... i ta verzija radi odlično... stisneš enter, pitaš "how are you" i dobiješ glasovni odgovor "i'm fine thanks for asking" ali to staviti u loop ne ide nikako jer ako je tišina, u recording uđe šum i transcribe napravi neko nepostojeće pitanje pa dobiješ i nepostojeći odgovor.. probao dizati threshold ali onda uopće ne reagira ili prekasno reagira ili kad krene slušat već sam gotov s pitanjem ili uhvati samo zadnju riječ itd itd. wake word bi bio idealan, pitanje je kako to napraviti...

14.05.2025., 19:17	#15
OuttaControl Premium Moj komp Datum registracije: Feb 2007 Lokacija: Dalmacija Postovi: 5,885	Tebi tu treba neki lokalni algoritam koji analizira soundeave pattern i kad je dovoljno slican snimljenom "Stef Slusaj" aktivira snimanje i ide dalje, ima vjerojatno neki python library za to, pitaj LLM Po meni ne treba niti pretvarati to u tekst nego samo pattern da bude dovoljno slican.

14.05.2025., 19:20	#17
tomek@vz White Rabbit Datum registracije: May 2006 Lokacija: - Postovi: 5,103	Vrlo komplicirano...koji je krajnji cilj?

14.05.2025., 19:59	#19
Ivo_Strojnica PRO Moj komp Datum registracije: Apr 2010 Lokacija: Zagreb Postovi: 4,838	"hej štef" ima određenu matematičku krivulju, tražiš tu krivulju sa određenim odmacima, igra sa derivacijama, sad ne znam koliko si sa matematikom i obradom signala. Nakon šta se detektira taj signal, onda se prati modulacija tog signala, jer to je tvoj glas, a ignorira se druge zvukove, glasove. Nije to ništa komplicirano, ako je složija to netko u amazonu, možeš definitivno složiti i ti. __________________ "Who is your daddy and what does he do?"

14.05.2025., 20:13	#20
OuttaControl Premium Moj komp Datum registracije: Feb 2007 Lokacija: Dalmacija Postovi: 5,885	Dobro to sto je nekomu amazonu napravio ne znaci da mos bas ti sam lako oni imaju koji euric vise nego svi mi na ovom forumu skupa Netriba izmisljat toplu vodu kad vjerojatno postoji, prvi rezultat sa googla https://github.com/Uberi/speech_recognition

14.05.2025., 20:33	#21
tomek@vz White Rabbit Datum registracije: May 2006 Lokacija: - Postovi: 5,103	Ako to sve složiš da radi kak spada dugotrajno svaka ti dala - osobno bih radije uzeo nešto od gotovih komercijalnih riješenja jer tu ima malo više caka nego trenutno imaš na radaru (plus što u konačnici vjerojatno neće biti jeftino).

14.05.2025., 21:09	#22
dakky Uptime freak Moj komp Datum registracije: Dec 2002 Lokacija: Ri, Cro Postovi: 2,958	Mislim da ću odustati od ove ideje jer evo, probao sam bar 5 različitih "speech recognition"... onnx + silero_vad rade relativno OK ... ali opet output ima grešaka... a ako se taj output proslijedi LLM-u onda i on odgovara pogrešno... Nema baš smisla... trebalo bi imati još jedan LLM u sredini koji spaja što je ovaj prvi čuo u nešto korisno pa tek onda šalje velikom LLM-u... Previše je tu pokretnih dijelova... nema nekog jednostavnog workflowa.. ili zasad gotovog softvera da odradi sve odjednom i samo upućuje zahtjeve dalje... Možda bude za koju godinu

Oglasni prostor
PC Ekspert Forum Oglas

14.05.2025., 21:54	#23
kasko Premium Moj komp Datum registracije: Apr 2007 Lokacija: Ivanić_Grad Postovi: 2,013	Meni STT na gboardu radi skoro pa savrseno, od 10-20 rijeci jednu mozda fula i to ako. E sad kad bi imao "mozga" napraviti da ti u file trpa redom sve što govoris i imas skriptu koja slusa tj zapravo cita iz filea, nakon sto skripta vidi "trigger_start" riječ, odabere taj dio teksta sve do "trigger_end" rijeci. I taj selektirani chunk samo salje u LLM da odradi sto je potrebno dalje. Sent from my 23127PN0CG using Tapatalk

15.05.2025., 00:03	#24
RainZG Premium Moj komp Datum registracije: Jan 2008 Lokacija: Zagreb Postovi: 714	home assistant + ollama a za mikrofone esp32 sa mikrofonom i koristenje HA voice opcije koja ima wake word?