Hvordan Naturally Lærer å gjenkjenne tale

January 5  by Eliza

Datamaskiner er veldig smart når det kommer til hjernen-strai ting som å spille sjakk og fylle ut selvangivelse, slik at du kanskje tror de ville være undre på "enkle" aktiviteter som gjenkjenne ansikter eller forstå tale.

Men etter ca 50 år med å prøve å gjøre datamaskiner gjøre disse enkle tingene, har programmerere kommet til den konklusjon at en ferdighet er ikke enkelt bare fordi mennesker mestrer det enkelt. Faktisk våre hjerner og øyne og ører er stappfulle av sofistikert sensing og prosessutstyr som fortsatt kjører ringer rundt noe vi kan designe i silisium og metall.

Vi mennesker tror det er lett å forstå tale, fordi all den virkelig harde arbeidet er gjort før vi blir bevisste på det. For oss virker det som om engelske ord bare stikke inn i hodene våre så snart folk åpner munnen. Den ubevisste (eller preconscious) innholdet i prosessen gjør det dobbelt vanskelig for programmerere å etterligne.

For å få en idé om hvorfor datamaskiner har slike problemer med tale, tenke på noe de er veldig flinke til å gjenkjenne og forståelse: tastafontoner telefonnumre. De blips og bloops på telefonlinjene er mye mer meningsfullt for datamaskiner enn de er til folk. Flere viktige funksjoner gjør lydsignalene en enkel språk for datamaskiner, listet nedenfor. Engelsk, på den annen side, er helt forskjellig.

  • Det touch-tone "ordforråd" har bare 12 "ord" i det. Når du vet tonene for de ti sifre pluss * og #, du er i. Norsk, på den annen side, har hundretusener av ord.
  • Ingen av ordene høres det samme. På tastafonen, er "en" tone tydelig forskjellig fra "7" tone. Men engelsk har homonymer, slik som nye og gnu, og i nærheten homonymer, som merrier og gifte seg med henne. Noen ganger hele setninger høres likt: "sønner heve kjøtt" og "Solen stråler møtes", for eksempel.
  • Alle "høyttalere" av språket si ordene på samme måte. Skyv 5 knapp på hvilken som helst telefon, og du får akkurat den samme tone. Men en eldre mann og en 10 år gammel jente bruke svært forskjellige toner når de snakker; og folk fra Storbritannia, Canada og USA uttaler de samme engelske ord på svært ulike måter.
  • Sammenheng er meningsløst. Til telefonen, en 1 er en 1 er en 1. Hvordan vil du tolke tonen er ikke avhengig av det foregående nummer eller det neste nummeret. Men i skriftlig engelsk, er kontekst alt. Det er fornuftig å "gå til New York.» Men det gjør mye mindre fornuftig å "gå to New York" eller "gå for New York."