Tebi tu treba neki lokalni algoritam koji analizira soundeave pattern i kad je dovoljno slican snimljenom "Stef Slusaj" aktivira snimanje i ide dalje, ima vjerojatno neki python library za to, pitaj LLM
Po meni ne treba niti pretvarati to u tekst nego samo pattern da bude dovoljno slican.