Beszédfelismerő áramkör - Hobbielektronika.hu - online elektronikai magazin és fórum

(#)	jarvis hozzászólása	Aug 23, 2013		/

Üdv! Szeretnék a lakásban egy beszédfelismerő áramkör segítségével vezérelni/irányítani dolgokat. Ehhez szeretnék segítő hozzászólásokat. A neten található 2 elektronikai alkatrészekkel, modulokkal foglalkozó cég (a 2002-es gyártásleállás miatt) már nem forgalmaz beszédfelismerő áramkört. A két linken található áramkörre várnék ötleteket, segítő hozzászólásokat. Köszönöm!
Bővebben: Link
illetve
GOOGLE TALÁLAT (pdf):
Bővebben: Link

A hozzászólás módosítva: Szept 6, 2014

(#)	Chipmunk1960 válasza jarvis hozzászólására (»)	Aug 23, 2013		/	1

Szia, Itt találtam neked egy kis adaptert, arduino fejlesztői rendszerhez. Bővebben: Link
Azt írja 15 utasítást képes felismerni. / remélem, nem csak kínaiul/
Itt fogsz találni huzalozási mintát és példaprogramocskát is.
Én most kezdtem el az Arduino-val foglalkozni, meg sok-sok év kihagyás után újra programozni tanulni. Sok sikert!

A hozzászólás módosítva: Nov 11, 2013

(#)	_vl_ válasza jarvis hozzászólására (»)	Aug 23, 2013		/

Azt tippelném, hogy Androidos tabletre/telefonra találni ilyen alkalmazást készen.

(#)	jarvis hozzászólása	Aug 24, 2013		/

Köszönöm a hozzászólásokat!
@Chipmunk: Ilyenre gondoltam, csak nagyon távol áll tőlem a külföldről rendelés..
@_vl_: Szeretném a témaindító hozzászólásomban található megoldást megvalósítani, ez a számítógép+eszköz+elektronika túl bonyolult megvalósítás a témaindítóban található termékekhez képest.

(#)	herkthor hozzászólása	Szept 13, 2013		/

Én is szeretnék ilyet aszt találtam ki, a legegyszerűbb venni egy hangfelismerős távirányítót (Bővebben: Link), és hozzá készíteni PIC-el egy vevő egységet (Bővebben: Link) ami rc5-ös kódokat felismeri. Így a vezérelt reléken keresztül bármit lehet kapcsolgatni plusz a távirányító magában is bármi más ir vevős elektronikai eszközt is kezel pl. tv.

A link gomb nem díszítőelem, azért van hogy használd!
-moderátor-

A hozzászólás módosítva: Szept 13, 2013

(#)	jarvis hozzászólása	Szept 15, 2013		/

Jó az elképzelés, de itt is egy külföldről rendeléssel kezdődik a dolog. Én most már a hangfelismerő program és egy mikrovezérlő megoldásban gondolkodom, ergo pc+pic. Ha megvagyok vele, akkor itt közzéteszem majd az eredményt.

(#)	herkthor válasza jarvis hozzászólására (»)	Szept 16, 2013		/

Az én megoldásom azért tetszik mert a hangfelismerős távirányítót magammal tudom vinni így a munkahelyemen vagy, kocsiban, lakásban, kiépített vevővel bárhol bármit tudok irányítani vele.
De nagyon kíváncsi vagyok a te munkádra is, mert a számítógépről való vezérlés is érdekel.
És mint a vasemberbe (jarvis), star trekben (komputer) lesz egy megszólítás a készülékhez, hogy mással való kommunikálás közben nehogy elkezdjen kapcsolgatni ha azokat a szavakat használom amik a vezérléshez lettek kitalálva. Esetleg a ötletedről a netten tálalható pár linket feltehetnél amiket találtál pic+pc projektben.

A hozzászólás módosítva: Szept 16, 2013

(#)	jarvis hozzászólása	Szept 21, 2013		/

Hasonló az elképzelés, hogy kell egy vezérlő szó (vagy 2), hogy ne legyen gond -ahogy te is írtad. Én jónak tartom a te ötleted is, nekem a rossz benne a külföldről rendelés, ill. a távirányítós használat, ugyanis akkor mar egyszerűbb megnyomni egy gombot, és kész az irányítás. Ettől eltekintve jó dolog, valósítsd meg, sok sikert és kevés fejfájást hozzá!
A részletekbe menően nem akarom felfedni az elképzelésem, de ha elkészül, mindenképp videóra veszem és felteszem a linket ide.

A hozzászólás módosítva: Szept 21, 2013

(#)	herkthor válasza jarvis hozzászólására (»)	Szept 22, 2013		/

Szia a távirányítón nem kell megnyomni semmilyen gombot a beszéd felismerése előtt, folyamatosan figyel. Éppen ez volt a gond a pda-val való hangvezérlésemmel, minden művelet előtt gombot kelet volna nyomni, utána ha felismerte a hangom elindította volna megfelelő fájt, amit a média player játszató volna le (egy frekvencia) fülhalgáton keresztül vezérelte volna a vezérlő egységet.
Bővebben: Link

A hozzászólás módosítva: Szept 22, 2013

(#)	jarvis hozzászólása		Okt 9, 2013		/

Sikerült már beszerezni a távirányítót?

(#)	usane válasza jarvis hozzászólására (»)	Okt 9, 2013		/

Idézet:
„ugyanis akkor mar egyszerűbb megnyomni egy gombot”

Ezzel szemben, ha pusztán hanggal akarsz vezérelni, akkor azon is el kell gondolkodni, hová teszed a mikrofont,milyen érzékeny, milyen messziről fogsz beszélni, hogy a mikrofonos vevő még megfelelően fogja, mert gondolom nem egy fix helyen állva szeretnéd majd használni, hanem pl. egy szobában jársz-kelsz.

(#)	jarvis hozzászólása		Okt 15, 2013		/

Ezt lakason belül úgy fogom megoldani hogy elhelyezek par darab mikrofont, es az en helyzetemet/holletemet erzekelo infrakat.

(#)	herkthor hozzászólása	Okt 21, 2013		/

Nem, nem vettem meg mert sok minden közbe jött azóta és nem volt időm foglalkozni a dologgal, de a videókat nézve a távirányító elégmésziről érzékel, és mikrofon erősítőt is lehet hozzá építeni, de a távirányítós adó megoldással elveszik az építés öröme. Meg nem tudom külön lehet tanítani neki a szavakat vagy már a betanított szavakat lehet csak használni hozzá. De te munkádra kíváncsi vagyok.

(#)	Totuman hozzászólása	Nov 11, 2013		/

Sziasztok!

Az alábbiakban szeretném a segítségeteke kérni:
Szeretnék egy olyan hangot felismerni -jellemzően csipogás- melyet mosogép, szárítógép stb ad ki, ezt a hangot felismerve egy PLC digitális bemenetére továbbítani.
Mivel csak egy hang felismerése lenne érdekes számomra, az egyszerű olcsó megoldások érdeklenének

(a beszédfelismerő megoldásokról olvastam, de gondolom, ennél van egyszerűbb is...)
köszi

(#)	_JANI_ válasza Totuman hozzászólására (»)	Nov 11, 2013		/

Szia! Ha ismered az adott frekvenciákat amiket figyelni kell akkor csak annyi a dolgod ( szerintem ), hogy aktív szűrőkkel elszeparálod a figyelni kívánt jeleket a háttértől. Elméletben ez egyszerűen hangzik. Néhány többfokozatú aktív szűrő kell "csak" hozzá. DE! Az ördög a részletekben lakozik. PL: Mennyire elég leszűkíteni a figyelni kívánt sávot. Vagy, hogy mennyi hangsávot akarsz kiválasztani, figyelni. A figyelt hangcsatorna dekódolása, ha információt is hordoz az adott hangsáv. STB...
Ha egyszerű és olcsó megoldás érdekel akkor én egy fégyorgona:_Link_ kapcsolásából indulnék el. Ez az áramkör csak három széles sávra szeparálja el a hangsávot. Tartalmazza a szűrőket ( Kettős T-szűrő ) és a dekódoló áramkört is. Igaz ez itt csak egy csúcsegyenirányító és egy komparátor. De ennyi is elég a jel érzékeléséhez. Kimenetként egy mezei optocsatoló ( 4N25 ) is elvileg elég ( OC kimenet, ). A hangsáv szűkítésére több T-szűtőt is sorba lehet kötni. Minél több annál jobb. ( Az ésszerűség keretein belül. )
Remélem sikerült ötletet adni.

(#)	_JANI_ válasza _JANI_ hozzászólására (»)	Nov 11, 2013		/

Két példa a sáváteresztő kapcsolással. Egyfokozattal:_Link_, ugyanez a kapcsolás kettő soros kapcsolásával:_Link_. Persze ez csak szimuláció de jól szemlélteti, hogy jelentősen javul a sáv kiemelése csupán két fokozattal.

(#)	kissi válasza Totuman hozzászólására (»)	Nov 11, 2013		/

Szia!

Szerintem a csipogás jól elkülöníthető egy háztartási gép egyéb zajaitól egy felüláteresztő szűrő és egy időtartam figyeléssel...!

(#)	vicsys válasza Totuman hozzászólására (»)	Nov 11, 2013		/	1

Javaslom a régi jól bevált LM567 kapcsolásait...

(#)	kly hozzászólása	Nov 11, 2013		/

Szóval én ezt találtam a hangvezérlésre. (Chipcad-nél vagy 600 Ft az IC) és van demo board is.
"computer" helyett "sandy" a parancsszó...

Bővebben: Link

(#)	Genin hozzászólása	Dec 23, 2013		/

Sziasztok,

én is hasonló dolgon ügyködöm

Abból indultam ki, hogy Jarvishoz hasonló rendszert akarok, és ne csak az előre rögzített pár mondatot jó esetben felismerő eszközöm legyen. (Tudom ez kicsit túl mutat a topic témáján, de azért valahol hozzá csapható

)

Nos, ehhez az első lépés, hogy felismerjük a beszédet, és átformáljuk írott szöveggé. Ha valakinek esetleg van ehhez kapcsolása, + programja avr ic-re, szívesen fogadom

gondolom kell hozzá valamilyen adatbázis is, hogy értelmes szavakat dobjon ki, de ez a része már megoldható pc oldalról is. Mikrofon kérdésben én arra gondoltam, hogy több, többféle mikrofont helyeznék el. Pár térmikrofonnal venném a hangokat a szobában, amiknek a jeleit összeadnám, és a háttérzajokat kivonnám, pl a tv mögé, aannak hangszórójához helyezek egy mikrofont, aminek a jelét kivonhatom, vagy a különböző eszközökből kinyerem plusz a hangot valamelyik kimenetén, amit szintén levonhatok. Ezt szerintem lehetne tisztán elektronikával megoldani, így gyorsan és olcsón (kevés áram használatával) meglenne egy tiszta beszédjel. Ha valakinek van erre kapcsolása, várom szeretettel

Emellett természetesen máshonnan is be lehessen vinni a beszédet, pl. okos telefonon keresztül... nem akarok senkit megbántani, de táviránytó?

nem rossz, de minek még egy kütyüt cipelni? a telefon, tablet úgyis ott van már mindenkinél, ráadásul könnyen tud netre kapcsolódni, így könnyen lehet kommunikálni az otthoni rendszerrel, mint a vasember a páncélban

persze a védelmet, és esetleg a titkosítást meg kell oldani. Így lényegében bárhonnan tudunk beszéddel, vagy egy hagyományos GUI-n keresztül kommunikálni a rendszerünkkel.

Viszont amíg nincs meg hardware-esen a beszéd felismerés, addig marad a software-es út... Itt megjegyezném, hogy Linux alatt dolgozom, azon belül Debian disztribúció alatt Gnome felületen. Biztos sok negatívumot lehet mondani a Linux ellen... nekem egy sem jut eszembe

de azt állítom, hogy ezerszer egyszerűbb benne megoldani a dolgokat.

Nézegettem, hogy milyen beszédfelismerő sotware van, ami azért jó lenne, ha tudna magyarul, és nem kéne érte fizetni. Mivel más emberek munkáját illik tiszteletben tartani, a warezt eleve kizártam

és maradt az ingyenes program. Még jobb, ha nyílt is.
Sajnos normális offline megoldást nem találtam, viszont pont "betolakodott" az életünkbe a Google beszédfelismerője (Google Speech To Text. Itt ki lehet próbálni böngészőben ). Meglepően jól működik, szépen felismeri a mondott szavakat, elég sok nyelvet ismer, többek közt a magyart is, és már mindenhova lehet integrálni, HTML oldalba, PHP, Java kódba, mobil applikációkba, és természetesen megoldható, hogy pc-n futtatott program is tudja használni. Negatívumként elmondható, hogy a csúnya szavakat csillagozza, bár nem mindet

de ami nagyobb baj, hogy minden átmegy a neten, és a Google szerverein titkosítatlanul, amit bárki lehallgathat, tehát figyelni kell mit beszélünk, miközben működik a rendszer.
Ha minden igaz, a Google offline verziót is tervez a beszédfelismerő alkalmazásából, hogy ne kelljen net a telefonokon a voice command-hoz. Talán offline módban kiadja a csúnya szavakat is...

Addig pedig be kell érni ezzel, vagy kell csinálni egy jobbat...

Esetleg lehet hybrid verziót csinálni átmenetileg, hogy elektronika nézi offline a beszédet folyamatosan, amíg nem hallja a parancsszót (pl Jarvis), és akkor elindítja az online beszédfelismerést, amíg vissza nem térünk az offline módba. Ekkor nem kell indítgatni külön semmit

Megvolt az alap, és gyors keresés után kiköpte a Palaver-master szót a net, és már ment is a hangvezérlés...
A kezdeti örömök után, átolvastam a dokumentációját, elkezdtem beállítgatni, és hamar falakba ütköztem. Alapvetően úgy működik, hogy nyomni kell egy beállított gyorsbillentyűt, mire elkezdi a felvételt, aztán ugyanazzal a gyorsbillentyűvel leállítjuk a felvételt, ezután elküldi a Google szerverre a hangot, ami visszatér a felismert szavakkal. Ezeket a szavakat vizsgálja meg a program, és ha talál valami egyezést a beállított variációk közt, akkor lefuttatja a hozzá rendelt programot, szkriptet.
Ez mind szép és jó, de ez így még messze van Jarvis-től...

Először is gombbal kell indítani, megállítani, másodszor pedig csak egy szálon fut az egész... amíg feldolgozza az előző utasítást, addig nem képes hallgatni a következőt. Pl ha megkérdeztem mennyi az idő, amíg feldolgozta az információt, és elmondta a pontos időt, addig eltelt 7-8 másodperc, amíg lényegében nem figyelt rám, hiába kértem, hogy mondjon egy viccet... Arról nem beszélve, ha nem minden szót ismert fel, akkor nem tudott következtetni a szövegkörnyezetből, hogy mit is kell csinálnia.
Nagyon nem akartam beleásni magam a kódba, hogy átlássam, és átírjam, jobbnak láttam 0-ról kezdeni. Bár a Palaver bash-ben és python-ban készült, én azokat a nyelveket régebben használtam mint a perl-t így perlben kezdtem újraírni.
Perl-ben könnyen megoldható a több szál, a file-ok írása, olvasása, bash szkriptek futtatása, tehát lényegében bármit meg tudok csinálni vele, amit parancssorból is meg lehet. A programot modulárisra készítem, hogy bármit könnyen lehessen később is változtatni, pl amikor offline lesz a hangfelismerés, elég lesz átírni azt a szálat, ami most a Google szervernek küldi a felvett hangot.

Jelenleg egy kis inteligenciát próbálok belegyötörni a programba, de még nagyon az elején vagyok, így érdemben nem tudok róla nyilatkozni.

Úgy gondolom a "Jarvis" érzéshez hozzá tartozik, hogy válaszol is nekem. Így szükség van egy beszéd szintetizátor programra. Bár van ilyen ingyenes program Linuxra, tud is magyarul, de nem igazán emberi. A BME-n fejlesztenek egy egész jó programot, de windows alatt fut, és fizetős, szóval elvetettem.
Viszont Google ismét a barátom lett, és megoldotta ezt a problémám is

Ahogy beszédből tud szöveget konvertáni, úgy képes erre visszafelé is, sokkal szebb hanggal, tucatnyi nyelvet ismer, többek közt a magyart is (Google Text To Speech. Itt ki lehet próbálni, milyen hangja lehet Jarvis-nak

).
Negatívumként szintén az hozható fel, hogy átmegy a neten, amit a gépünk mond, és hogy magyar hangból csak egyféle női van. Természetesen ezt is legjobb lenne kiváltani elektronikával. Kapcsolásokat + ic programokat itt is szívesen fogadok

És akkor jöhet még egy csavar a rendszerbe, mert bár egyenlőre asztali pc-n fut a program, mert fejlesztem, de majd be lehet üzemelni egy málna PC-t, vagyis egy Raspberry PI-t, ami lényegében egy bankkártya méretű számítógép. Van rajta 2 usb, hdmi és kompozit videó kimenet, digitális, analóg hang kimenet, hálókártya, SD/MMC/SDIO kártya foglalat, és lehet hozzá különböző modulokat csatlakoztatni (pl hd kamera), vagy usb-n merevlemezt... Lényegében minden, amire szükségünk lehet egy inteligens otthon-hoz, hogy tudjon médiát lejátszani, különböző elektronikákat vezérelni, akár skype-olni, vagy amit kitalálunk, megvalósítunk hozzá. Keveset fogyaszt, 5V-os tápja van, Linux fut rajta, olcsó (10-14 ezer Ft), és elvben tavasztól jön az újabb verzió belőle, amibe már van mikrofon bemenet is integrálva... nem értem miért hagyták ki eddig, de addig is áthidalható a probléma egy usb-s hangkártyával, ami még jó is lehet, ha egy több csatornás változatot használunk, aminek a különböző csatornái lehetnek mondjuk a különböző szobák. 6 csatorna = 3 szoba sztereó hanggal, a keverés meg mehet software-esen.

Azt hiszem ezzel végigjártam a hangvezérlésnek ezen módozatát, ezen túl pedig már bármi hangvezérlése megoldható egy saját okos otthon kialakításánál, de az már nem tartozik ide szorosan.

Természetesen várom a véleményeket, ötleteket, megoldásokat, mit hogy lehetne, kéne csinálni

Addig is ajánlom a vasember sorozat megtekintését, ha valaki elvesztené a hitét ;D

ui: bemutatnám a gépemet is, ha már ennyit beszéltem róla... Éva-nak hívják, pontosabban éva-nak, mert Google kis kezdőbetüvel adja vissza a neveket... meg amúgy mindent

(#)	kly válasza Genin hozzászólására (»)	Dec 23, 2013		/

Ambiciózus terv , sok sikert hozzá.
Ha meg tudod csinálni "Jarvis"-t nem leszenk többé anyagi gondjaid

Itt a legnagyob probléma szerintem amit még senki sem oldott meg az hogy a környezetből mikrofon segítségével értelmezze a hangokat. Ehhez valódi intelligencia kell. Nem elég kivonogatni a zajokat (kivonással úgysem tudod megoldani hogy csak a beszéd maradjon), meg mi van ketten beszélnek? Az a baj hogy a mikrofonból érkező jel nem hordoz olyan információt amiből kiderül hogy az most zaj vagy "adat".
A hangerő is probléma. Gondolom nem akarsz kiabálni vele ha kicsit messzebb vagy a mikrofontól.Erre egy AGC kevés lesz.

De lehet tévedek.....

(#)	Genin válasza kly hozzászólására (»)	Dec 23, 2013		/

Igen, írtam is, hogy kell adatbázis, amiből értelmes szavakat lehet kinyerni a beszédfelismeréshez. A Goggle is hasonlóan működhet, mert amikor visszaküldi a szavakat, elküldi mekkora valószínűséggel ismerte fel a mondott szöveget. tehát valami logika már így is van benne. A többi részét meg már megoldom én

Kb úgy, mint amikor hallunk valamit, eljutnak bizonyos szavak az agyunkig. Van aki rosszabbul hall, mégis megérti sokszor, hogy mit mondanak neki... mert az agyunk szépen összerakja a plusz információkkal, és értelmezi, valószínűsíti, hogy mit is mondtak nekünk.
Sajnos hangban nem vagyok annyira otthon. Természetesen nem az a cél hogy olyan jelet kapjunk, mintha egy süket szobában 5 cm-ről beszélnénk a mikrofonba

nem baj, ha zajos a beszéd, amíg egy bizonyos százalék felett megérti a Google. A maradék százalékot pedig programból kell megoldani...
Na, ha ketten beszélnek, az már a következő verzió

ott valahogy szét kell tudni válogatni az emberek hangját (beszédstílus, sebesség, felharmonikusok... alapján). Persze az ember látja is a másik száját, hogy mit mondhat, meg sok hasonló dolog van amitől olyan jól működik az életben, de szerintem ezek is megoldhatók. Elég messze van még a projekt ettől a szinttől, de persze párhuzamosan is lehet ezt fejleszteni, ha valakinek van kedve hozzá. Én ennek a résznek csak később esnék neki... sajnos nem vagyok zseni, hogy egyszerre mindenbe beleássam magam

nekem csak egyik a másik után megy... ezzel meg csak az a baj, hogy nem vagyok örök életű se...

A hozzászólás módosítva: Dec 23, 2013

(#)	jarvis hozzászólása	Szept 6, 2014		/

Üdv mindenkinek!
El sem hiszem, hogy lassan egy éve indítottam a témát.
Nos, én a részemről révbe értem: egy hónapja találkoztam a C# programozási nyelvvel, melynek segítségével megoldott a hang(gal)vezérlés. Hamarosan felokosítom a lakást.

Még annyit hozzátennék, hogy angol nyelven működik a dolog - internet nélkül. Ha van állandó internet, akkor magyar nyelven a google segítségével is megvalósítható a vezérlés (Javascript), akár egy okos lakást is lehet alkotni. (a google alatt nem csak az android rendszert értem)
Üdv!

A hozzászólás módosítva: Szept 6, 2014

(#)	zosza18 válasza jarvis hozzászólására (»)	Feb 5, 2024		/

Üdv Mindenkinek!

Látom már gyakorlatilag 10 éve nem volt friss bejegyzés ebben a topikban, de hátha újra éled...

Gratulálok jarvis az elért sikereidhez és Genin-nek a hosszas taglaláshoz!
Kiváncsi lennék az elért eredményekre, akár videós formátumban is.
Most jött egy ötlet, hogy jó poén lenne néhány fogyasztó vezérlése és pár érdemleges információ ismertetése. Az egész hangalapú vezérléssel kellene megoldani és a visszajelzés vagy információ közlés is hang alapú kellene legyen, mert úgy látom értelmét... Nem akarok alexát, meg ezeket a bolti cuccokat, hanem egy egyszerű saját és magyar nyelvű vezérlésre gondoltam.
Nem lakásba lenne amúgy alkalmazva, hanem csak a műhelyben, ahol nincs semmi extra zaj alapesetben és többen sem acsarkodunk, mikor pont szeretném úgymond a világítást felkapcsolni vagy ilyenek... Ezen kezdtem el gondolkodni és ebben szeretném a hozzáértők segítségét is kérni, hogy miként lehetne megoldani.

Nekilátok olvasgatni is mostmár, mert eddig nem tettem... Hátha másnak is van kedve hasonló projekthez.

Nem akarok beszélgetős társat meg hogy megoldjon helyettem mindent, csak alap egyszerű de mégis hasznos dolgokra szeretném használni.

(#)	Bakman válasza zosza18 hozzászólására (»)	Feb 5, 2024		/	1

Idézet:
„egy egyszerű saját és magyar nyelvű vezérlésre gondoltam”

Honnan akarsz indulni? Nulláról, vagy egy beszédfelismerő modul használatával? Ha nulláról, akkor el fog tartani egy darabig és minden lesz, csak nem egyszerű.

Ezt keresd: speech recognition raspberry pi. Belátható időn belül végezhetsz.

(#)	Gafly válasza zosza18 hozzászólására (»)	Feb 6, 2024		/

Attól hogy hozzászóltál, egyből felébredt a topic.
Ez egyszerűen így működik...