1. Cookies optimieren die Bereitstellung unserer Dienste. Mit der Nutzung unserer Dienste erklärst Du dich damit einverstanden, dass wir Cookies verwenden. Weitere Informationen
    Information ausblenden
  2. Willkommen im Forum von DIGITAL FERNSEHEN - dem führenden Portal für digitales Fernsehen, Medien und Entertainment. Wenn du hier neu bist, schau dich ruhig etwas um und melde dich an, um am Forengeschehen teilnehmen zu können.
    Information ausblenden

Fragen zu Alexa

Dieses Thema im Forum "Computer & Co." wurde erstellt von siegi, 27. Februar 2018.

  1. emtewe

    emtewe Lexikon

    Registriert seit:
    4. August 2004
    Beiträge:
    31.456
    Zustimmungen:
    19.334
    Punkte für Erfolge:
    273
    Technisches Equipment:
    TechniSat Digipal ISIO HD DVB-T2, VU+ Uno 4K SE, LG 55EG9109 OLED, LG Largo 2.0 HF60LS
    Denon AVR X4300H, Teufel Viton 51, Fire TV Stick 4K, PS4 Pro + PSVR, Bluray Sony BDP S1200
    Multiroom Denon 3xHeos1 + 1xHeos7
    Anzeige
    Die Erkennungsquote von Alexa nimmt von Monat zu Monat zu, und gerade was Dialekte angeht, lernt Alexa natürlich mit jedem neuen Nutzer. Genau darin liegt ja auch der Wert den sich Amazon mit Alexa erarbeitet. Das Ziel ist die Spracherkennung offline auf einen Chip zu packen, und den dann zB. an Autohersteller zu verkaufen. Das hat Amazon ja auch schon gemacht. In einigen Autos wird in Zukunft Alexa stecken, und die heutigen Nutzer sind quasi die Sprachtrainer dafür. Die Qualität einer Spracherkennung lebt von der Anzahl der gesammelten Samples einer Sprache, und da liegt Amazon praktisch uneinholbar vorne. Da kann kein Google und auch kein Apple mehr rankommen. Ich kann im Nachbarraum in Zimmerlautstärke sagen "Alexa, Deckenlampe an", und das Licht geht an. Zumindest ungefähr in 9 von 10 Fällen.
    Ich kann aber auch sagen "Alexa, machens ma de Deckenlampe an", wird auch schon erkannt.

    Wie gesagt, die Spracherkennung lebt von der Anzahl der gesammelten Samples, und da liegt Amazon um Welten vor der gesamten Konkurrenz. Sie waren die ersten die liefern konnten, und durch Angebote haben sie die Technik teilweise wohl fast verschenkt. Der Vorsprung den sie sich dadurch erarbeitet haben ist praktisch uneinholbar. Und das macht sich langsam bemerkbar.
    Aber wie gesagt, da geht es nur um die Texterkennung, also das Umwandeln der gesprochenen Worte in geschriebenen Text. Quasi der erste Schritt der Spracherkennung. In der Interpretation des Textes scheint Google besser aufgestellt. Aber was bringt es wenn man in Schritt 2 besser ist, wenn Schritt 1 nicht richtig funktioniert? Schritt 1 ist sicher der wichtigste, denn dafür braucht man Unmengen an Sprachproben, je mehr desto besser.

    Wenn du ein gutes Audiosystem hast, gibt es da akustisch keinen Unterschied. ;)
    Aber Spaß beiseite. Ich schätze das ist ein einstellbarer Faktor. Ich war kürzlich erkältet, und war doch überrascht wie gut Alexa noch funktionierte, selbst als ich heiser war, die Nase zu, und man mich selbst am Telefon kaum verstehen konnte. Ich habe auch schon probiert mit vollem Mund zu reden (ganze Kartoffel) oder mit einem Schluck Wasser im Mund. Das wird immer noch erkannt, wenn auch nur vielleicht bei jedem zweiten Versuch.
    Und dann reagiert Alexa ja auch, wenn du aus großer Entfernung, anderen Räumen sprichst. Dann wird der Schall mehrfach reflektiert, von Möbeln, Wänden, Boden usw... Wenn das funktionieren soll, muss die Toleranz bezüglich undeutlicher Aussprache sehr groß sein. Aber die Nutzererkennung soll ja kommen, und dann kann man das sicher eines Tages einstellen.
     
    hexa2002 gefällt das.
  2. hexa2002

    hexa2002 Platin Member Premium

    Registriert seit:
    15. Februar 2002
    Beiträge:
    2.860
    Zustimmungen:
    2.303
    Punkte für Erfolge:
    163
    Da stimmt einiges nicht so ganz. Auch dein Handy sollte heutzutage weitestgehend völlig problemlos zahllose Sätze verstehen, die du etwa in WhatsApp hineindiktierst, so umfassend teuer wird das verbaute Micro nicht gewesen sein.

    Wenn du ganz "normal" sprichst, werden die Kommandos erkannt. Wir leben jedoch in Deutschland und das ist nicht das Entwicklungsland von Echo, zweifelsohne hängen wir daher in der allgemeinen Erkennung hinterher (siehe weiter unten).

    Den Teil mit dem Dialekt habe ich ehrlich gesagt nicht verstanden. Mithin verwendest du im Dialekt auch Worte, die in einem anderen Landesteil entweder völlig unbekannt sind oder gar etwas vollkommen anderes bedeuten. Gleiches könntest du auch über nur in bestimmten Landesteilen gebräuchlichen Sprachbesonderheiten sagen, "der Gehlbehnsche geht um'n Pudding". Was sagt dir das. Erwartest du wirklich, dass -welches Sprachsystem auch immer- dies erkennen muss.

    So würdest du zweifelsfrei doch auch nicht am Telefon mit jemand im Callcenter sprechen, zu erwarten, das Dialekt von einem (davon abgesehen noch recht neuen System, welches zudem -wie erwähnt- nicht vollumfänglich in diesem Teil der Erde entwickelt wurde) per se korrekt verstanden werden, ist übertrieben. Die Anzahl Dialekte weltweit überschreitet die Anzahl Sprachen bei weitem und würde zum aktuellen Stand der Entwicklung für die Entwickler zu aufwändig sein.

    Wir sollten uns freuen -ob man es nun nutzt oder nicht- dass derartige Technik (Sprache via Internet einmal um die halbe Welt gejagt, dort im Server analysiert und das Ergebnis in sekundenschnelle zurückübermittelt) heute überhaupt schon möglich ist. Zu Zeiten von Captain Picards Raumschiff entstanden etwa um 1987/88 war das wirklich reine SciFi.

    Und ja, derzeit reagiert offenkundig Echo explizit auf weitestgehend hart vorprogrammierte Reizworte.
    Da angeblich 400 Leute an dem Teil arbeiten, wird hier sicher in Zukunft noch einiges verbessert.

    Aus einer Email mit den neuesten Features von Alexa umgearbeitet:

    "Alexa, spiele aktuelle Songs aus Brasilien"
    ergibt
    "Ich habe keine Songs gefunden, die zu deiner Anfrage passen."

    hingegen exakt dem Beispiel aus der Email folgend:
    "Alexa, spiele angesagte Songs aus Brasilien"
    ergibt
    "Kein Problem, ich spiele die beliebten Songs der Woche aus Brasilien"

    Da ist noch Arbeit für die 400 Leute angesagt und nein, ich widerspreche mir nicht, das System wird auch mein erstes Kommando sprachtechnisch "verstanden" haben (sprich, wie unser Handy die einzelnen Worte, etwa "spiele aktuelle Songs"), es hat nur noch kein Programmierer für Deutschland das Wort "angesagt" und "aktuell" in diesem Zusammenhang als "gleich" verbunden. Hingegen hat offenkundig irgendwer für Deutschland gemeint, dass das Wort "angesagt" irgendwie häufig verwendet wird (obschon wir Deutschen das Wort vermutlich genau gerade nicht so häufig nutzen).

    Abschließend möchte ich sagen, dass Systeme die generell gesagten Worte von zig Millionen Leuten ohne jede Sprach-Lern-Übungen überhaupt so gut erkennen, ist eine Leistung, die man gar nicht hoch genug schätzen kann, was da an Serverarbeit dahintersteckt, Sprachmuster als Rohdatei vorliegend ohne Punkt und Komma und Pausen zwischen den gesagten Worten nahezu in Realzeit weitestgehend korrekt zu erkennen, ist beeindruckend. Vergessen wir nicht, dass alleine LEERZEICHEN zwischen einzelnen WÖRTERN zu setzen überhaupt erst eine Erfindung der letzten 1000 Jahre ist - geht in ein Museum und lest uralte Texte, da finden sich keine "Pausen" zwischen einzelnen Wörtern.
     
  3. Gorcon

    Gorcon Kanzler Premium

    Registriert seit:
    15. Januar 2001
    Beiträge:
    154.846
    Zustimmungen:
    30.311
    Punkte für Erfolge:
    273
    Technisches Equipment:
    VU+ Uno 4K SE mit Neutrino HD + VTi
    Wie ist das eigentlich mit solchen RGB Controllern die sich über Alexa steuern lassen sollen


    Wenn man da mehre hat, wie hält man die auseinander?
     
  4. emtewe

    emtewe Lexikon

    Registriert seit:
    4. August 2004
    Beiträge:
    31.456
    Zustimmungen:
    19.334
    Punkte für Erfolge:
    273
    Technisches Equipment:
    TechniSat Digipal ISIO HD DVB-T2, VU+ Uno 4K SE, LG 55EG9109 OLED, LG Largo 2.0 HF60LS
    Denon AVR X4300H, Teufel Viton 51, Fire TV Stick 4K, PS4 Pro + PSVR, Bluray Sony BDP S1200
    Multiroom Denon 3xHeos1 + 1xHeos7
    Da ja eine App dazwischen geschaltet ist, schätze ich mal du kannst denen Namen geben. Das ist eine Frage wie die App die verwaltet.
    Bei vielen solcher Geräte tauschen die Alexa App und die betreffende App Informationen aus, die dann später die Sprachsteuerung ermöglichen. Manchmal musst du du deine Sprachbefehle entsprechend anpassen, das kann sich aber auch ändern mit der Zeit.

    So musste ich zum Beispiel für die Logitech Harmony früher sagen "Alexa, starte Harmony und Lauter", heute kann ich auch sagen "Alexa, Lauter mit Harmony" was irgendwie einfacher und logischer ist.

    Richtig nützlich war das kürzlich erst. Ich fuhr mit Lenkrad und Pedalset, mit Gran Turismo Sports, in einem Porsche 911 GT3 RS, gezeitete Runden auf der Nordschleife. Plötzlich fing ein Nachbar an mit einer Bohrmaschine zu arbeiten. Nach ein paarmal "Alexa, lauter mit Harmony" waren alle Bohrgeräusche vom Motor übertönt. Akustisch war das wirklich schwer beeindruckend was das Soundsystem da entfesselte, Auspuff, Motor, alles war glasklar zu hören, und so laut dass alles vibrierte. Man hätte schreien müssen um sich mit einem Menschen zu unterhalten, aber trotzdem konnte Alexa später problemlos auf "Alexa, leiser mit Harmony" reagieren. Und ich musste dafür nicht einmal schreien.
     
  5. simonsagt

    simonsagt Board Ikone

    Registriert seit:
    11. April 2014
    Beiträge:
    3.563
    Zustimmungen:
    1.410
    Punkte für Erfolge:
    163
    Gibt es da Zahlen? Siri gibt es schon länger und iPhones sind recht beliebt. Und Okay Google habe ich schon Leute benutzen sehen, die sich kein Amazon Dings net kauften täten.

    Das hoffe ich ja. Spracherkennung kenne ich seit vielleicht 20 Jahren am Computer. Immer mal wieder gesehen oder ausprobiert. Neu ist halt der Cloudansatz. Eine KI (besser: Expertensystem) lange genug gefüttert und die Übernahme von Audio in Text wird immer besser. Kuck dir automatisch erstellte Untertitel bei Youtube an, um den Stand der Technik bei Google zu bewerten.

    Wenn du deinen Equalizer so einstellst, dass dein System wie ein fleischiger Wassersack mit Hohlraum klingt, bestimmt :p. Aber wenn das nach Konzerthalle klingt, sollte der Assistent vielleicht mißtrauisch werden und lieber die Kommandos nehmen, die nach Wohnzimmer oder Küche klingen.

    Im Smartphone sprichst ja direkt rein oder über Headset. Die Neuerung die ich in Alexa sah, waren die Mikrofone, die in der Lage sind, dich quer durch den Raum zu hören. Das ganze Drumrums ist doch nur Marketdinggedöns. Spracherkennung ist nix neues und die Standardeinstellung bzw. Spezialisierung von Alexa scheint ja zu sein, dir Musik zu liefern oder auf das Schlüsselwort zum bestellen zu reagieren oder direkt eine Internetsuche zu starten.

    Der nächste Schritt sind Apps und Smartphones, die das gleiche machen und die Hardware dafür haben (Mikrofone). Aber das wird hoffentlich noch dauern, bis die Entwickler den Trick raushaben, dass ein Smartphone nur auf den Besitzer reagiert und nicht alles in die Cloud laden muss.

    Schon. Das ist Technik. Aber Spaß beiseite. Ich vertrete den Standpunkt, wenn ich das lernen kann, muss ein Cloudbasiertes Expertensystem, welches zigtausend Leuten zuhört das auch lernen können - und sogar mehr davon und genauer. Ich kann ja sogar in einer Fremdsprache verschiedene Dialekte verstehen und grob zuordnen. Sowas wie Alexa kann ja auch noch die Sprachen geografisch zuordnen, Amazon weiß ja, wohin sie deine Pakete liefern müssen, falls die IP nach Geo-Atlas nicht ausreicht. Zugreiste sind halt net so gut für diese Art der Datenbank.

    Das ist das schöne an Computern. Ein Verfahren das funktioniert, würde auch für 1000 weitere gleiche Aufgaben funktionieren. Ob sie nun einen oder tausend Dialekte und Sprachen lernen macht keinen Unterschied - wenn und das ist ein großes wenn, sie Sprachen automatisch in ein System klopfen können. So wie ich das sehe, müssen Editoren das manuell nachbessern und auf diesem Wege ist das natürlich zu aufwendig.

    Wie gesagt, das Problem ist, dass sie das manuell programmieren müssen. Der Kontextuelle Zusammenhang fehlt. Der Assistent versteht dich nicht, er reagiert auf Schlüsselworte. Und diese Schlüsselworte kannst du auf einen Hash abbilden, der entsteht, wenn du aus dem Audio diesen Hash generierst. Das müsste so ähnlich sein wie die Bildersuche bei Google, wenn du mit einem Bild als Eingabe suchst. Reichlich geiler technologischer Schei§$%. Und wenn du eben nur 400 Schlüsselworte hast, bildeste jedes erkennbare Wort auf einen Hashwert ab und wenn der Abstand zu einem der bekannten Schlüsselworte gering genug ist, dann "erkennt" der Sprachassistent das Wort.

    Der nächste Schritt ist eben aus den "erkannten" Worten etwas zu "verstehen". Und das ist ... schwer.

    Überraschend wenig, vermute ich mal. Die Zahl der verstandenen Schlüsselworte ist überschaubar, der Rest wird dann in die Suchanfragen gepackt, die an Musikdienste, Einkaufslisten oder Google weiter geleitet werden. Auch bei der menschlichen Aussprache ist die Zahl der generierbaren Laute und Kombinationen überschaubar, wenn auch regional sehr unterschiedlich. Was die Arbeit macht, die Logik aufzubauen, nach der das zugeordnet werden kann. Aber das wird ja vorher gemacht und nicht erst wenn eine Anfrage kommt.

    Frequenzfilter. Alexa muss ja nur auf den Frequenzen zuhören, auf denen Menschen sprechen. Würde Alexa dich in einer Menschenmenge heraushören können, also die Überlagerung einer Geräuschquelle wie beispielsweise ein volles Restaurant oder eine Party im Wohnzimmer, das wäre beeindruckend.
     
  6. Gorcon

    Gorcon Kanzler Premium

    Registriert seit:
    15. Januar 2001
    Beiträge:
    154.846
    Zustimmungen:
    30.311
    Punkte für Erfolge:
    273
    Technisches Equipment:
    VU+ Uno 4K SE mit Neutrino HD + VTi
    zu deutsch, das funktioniert dann nur über das Handy und deren App? Dann müsste das Handy ja ständig in Bereitschaft sein. (n)
     
  7. emtewe

    emtewe Lexikon

    Registriert seit:
    4. August 2004
    Beiträge:
    31.456
    Zustimmungen:
    19.334
    Punkte für Erfolge:
    273
    Technisches Equipment:
    TechniSat Digipal ISIO HD DVB-T2, VU+ Uno 4K SE, LG 55EG9109 OLED, LG Largo 2.0 HF60LS
    Denon AVR X4300H, Teufel Viton 51, Fire TV Stick 4K, PS4 Pro + PSVR, Bluray Sony BDP S1200
    Multiroom Denon 3xHeos1 + 1xHeos7
    Natürlich veröffentlichen die Hersteller nicht wieviel Nutzerdaten sie sammeln, aber was die Verkaufszahlen der Sprachassistenten angeht, hält Amazon wohl 2/3 des Marktes, und das andere Drittel geht überwiegend an Google, Apple spielt aktuell praktisch keine Rolle. (quelle)

    Wenn man aktuellen Tests folgt, dann bietet Amazon heute die mit Abstand beste Spracherkennung, während Google in der Interpretation vorne liegt. Apple ist in beiden Bereichen weit abgeschlagen.
     
    simonsagt gefällt das.
  8. emtewe

    emtewe Lexikon

    Registriert seit:
    4. August 2004
    Beiträge:
    31.456
    Zustimmungen:
    19.334
    Punkte für Erfolge:
    273
    Technisches Equipment:
    TechniSat Digipal ISIO HD DVB-T2, VU+ Uno 4K SE, LG 55EG9109 OLED, LG Largo 2.0 HF60LS
    Denon AVR X4300H, Teufel Viton 51, Fire TV Stick 4K, PS4 Pro + PSVR, Bluray Sony BDP S1200
    Multiroom Denon 3xHeos1 + 1xHeos7
    Nein. Die Apps tauschen Informationen nur bei der Einrichtung aus. Wenn ich bei Philips Hue eine neue Lampe einbinde, dann teil die Hue App der Alexa App mit, wie die Lampe heisst, und wie alles konfiguriert ist. Das teilt die Alexa App dann Alexa mit, und wenn Alexa die Lampe ansteuern will, geschieht das über WLAN und die Hue Bridge. Dafür kann das Handy auch aus sein. So etwas wie die Hue Bridge müssen die Hersteller der RGB Dinger dann natürlich auch anbieten, sonst funktioniert es nicht.
     
    Gorcon gefällt das.
  9. hexa2002

    hexa2002 Platin Member Premium

    Registriert seit:
    15. Februar 2002
    Beiträge:
    2.860
    Zustimmungen:
    2.303
    Punkte für Erfolge:
    163
    Du hast glaube ich kein Wort verstanden von dem, was ich geschrieben habe, genau davon habe ich doch geredet, die allgemeine Spracherkennung und nicht "aber das wird ja vorher gemacht", und es sind nicht "überschaubar" wenige Schlüsselwörter, du denkst immer nur an den Aufrufbefehl wie Cortana, Alexa, OK Google, Siri. Du übersiehst vollumfänglich, dass ich über die gesamte Spracherkennung weitestgehend aller (etwa Deutschen) Wörter gesprochen habe, ausgesprochen von allen Deutsch sprechenden Menschen und das sind NICHT "überschaubar" wenig Wörter.

    Und wenn du bei deinen Beispielen bleiben möchtest, so musst du einmal noch komplett mindestens ENGLISCH hinzufügen von einem
    DEUTSCHEN gesprochen etwa bei: "Alexa, spiele Another Brick in The Wall".

    oder wie wäre es mit "Alexa, spiele das Lied mit dem Text "Won't you teach me how to love learn"
    und Alexa findet umgehend
    'This is the Rhythm Of The Night" von Corona.

    Das möchte ich bitte von dir mal "eben" programmiert sehen.

    Das ist völliger Quatsch. "der Rest" wird also in eine Suchanfrage gepackt, klar, und mit was bitte soll die Suchanfrage gefüttert worden sein, wenn die Wörter gar nicht analysiert und erkannt wurden? Oder denkst du, wenn du in deinen Google sprichst, dann muss Google deine Wörter nicht erst analysieren?

    Richtig, und zwar für ALLE Wörter. ALLE Wörter müssen erkannt werden, demzufolge sind für dich ALLE Wörter Schlüsselwörter.

    Das TUN die Systeme doch und das IST doch die Kunst und NEIN, "mia san mia" kann KEIN System auf der Erde einfach "mal eben so" erkennen, irgendwann muss irgendwer das etwa zunächst in sein Handy gesprochen haben, der Algorithmus hat es natürlich NICHT erkannt, weil jemand irgendwann der allererste WAR, der das gesagt hat, dann hat vielleicht dieser oder ein späterer jemand den falschen Handy Text korrigiert und DIESE KORREKTUR geht im Zusammenhang mit dem Gesagten zurück an den Server und wenn genug Leute immer die gleichen Laute auf die gleichen Weisen korrigieren so zieht der Algorithmus die Schlussfolgerung, dass diese Laute wohl "mia san mia" sind. Du meine Güte was glaubst du denn, wie Computer funktionieren, wir sind doch nicht in den 50gern, wo man dachte, ein Computer kann mal eben so einfach alles.

    Erspare mir als Programmierer bitte derart verallgemeinernde Aussagen. Natürlich werden Wort-Laute analysiert. Du erzählst mir also, dass, wenn der Algorithmus erkannt hat "Alexa, spiele Radio", dein "Verfahren" also auch problemlos den sinngleichen aber völlig anders -IM LAUT- klingenden Dialekt "Ollekscha, Spui mia oan Rooaadioo Sännda" sofort verstehen MUSS, weil ja "das schöne an Computern" sei, dass es für 1000 Aufgaben funktioniert. Ich glaube, du hast die Gesamtkomplexität noch überhaupt gar nicht im geringsten verinnerlicht. Im übrigen sind die ersten erfolglosen IBM Spracherkennungsversuche von etwa 1983.

    Alexa hat einen extra Chip, der explizit auf die Reizworte Alexa, Computer, Echo achtet und HÖRT dich in einem vollen Raum.
     
  10. Gorcon

    Gorcon Kanzler Premium

    Registriert seit:
    15. Januar 2001
    Beiträge:
    154.846
    Zustimmungen:
    30.311
    Punkte für Erfolge:
    273
    Technisches Equipment:
    VU+ Uno 4K SE mit Neutrino HD + VTi
    Nein, da gibt es nichts für. Es gibt da nur die Controller und da steht bei das sie mit Alexa gesteuert werden können.