*

rkoski Mahdollisesti hyödyllistä tietoa

Ihmiskokeita tekoälytutkimuksen luonnollisen kielen oppimisen osa-alueella

  • Ensin viimeinen testi. Your English level has already reached mastery level. People will look upon you with either bitter jealousy or awe and respect.
    Ensin viimeinen testi. Your English level has already reached mastery level. People will look upon you with either bitter jealousy or awe and respect.
  • Ihmiskokeita tekoälytutkimuksen luonnollisen kielen oppimisen osa-alueella
  • Ihmiskokeita tekoälytutkimuksen luonnollisen kielen oppimisen osa-alueella
  • Ruotsi on viimeisin kieli, jota olen mainituista opiskellut.
    Ruotsi on viimeisin kieli, jota olen mainituista opiskellut.
  • Minähän olen kielinero ;)
    Minähän olen kielinero ;)
  • Tämä oli yllättävänkin huono. Luen saksaa siedettävällä nopeudella ja vaivalla arvaten kohtuullisen paljon riippuen tekstin tyypistä. Esim. IT-alan teksti sujuu jopa melko hyvin.
    Tämä oli yllättävänkin huono. Luen saksaa siedettävällä nopeudella ja vaivalla arvaten kohtuullisen paljon riippuen tekstin tyypistä. Esim. IT-alan teksti sujuu jopa melko hyvin.
  • Yli puolet suomen kielen tasosta :)
    Yli puolet suomen kielen tasosta :)

Lähdin tekemään tätä pienimuotoista tutkielmaa ensinnäkin elokuvassa Arrival esitetyn hypoteesin innoittamana. Se on lyhyesti, että kieli olisi tärkein työkalu tai ase, joka älyllisellä olennolla voi olla. Ylitulkitsin sitä siten, että kieli olisi yhtä kuin äly. Cogito ergo sum, ajattelen, siis olen. Nykytieteen alkusanat, joita ei olisi voitu sanoa ilman kieltä.

Toinen innoittaja oli vanha uutinen, johon sattumalta törmäsin Puheenvuoron puolella. Jo tuolloin alkureaktioni oli, että nytkö ollaan luomassa ihan oikeaa älyä. Jo tuolloin minulle tuli mieleen Ray Kurzweil, joka on ehkä parhaiten tunnetaan tekoälyn saralla. Äskettäin sitten huomasin, että:

Ray Kurzweil:

In December 2012, Kurzweil was hired by Google in a full-time position to "work on new projects involving machine learning and language processing".[25] He was personally hired by Google co-founder Larry Page.[26] Larry Page and Kurzweil agreed on a one-sentence job description: "to bring natural language understanding to Google".[27]

Jos häneen haluaa tutustua nopeasti tarkemmin, on suomenkielinen wikipedia paras paikka.

Minun mielestäni hänen perushypoteesinsa on, että mikä tahansa ongelma voidaan ratkaista, jos se pilkotaan riittävän pieniin osiin. Ei mitään uutta auringon alla. Kuka tahansa ajatteleva olento pystyy samaan.

 

Kuvien kautta en halua kehua kielitaitoani, vaikka kyllähän se hyvältä näyttää. Varsinkin englannin kielioppi minulla näyttää olevan täydellisesti hallussa. En nimittäin vastannut viimeiseen kysymykseen, koska pikaluin sen ja siinä osui heti silmään kaksi kielioppitermiä, joita en enää muista millään kielellä enkä ole niitä ehkä koskaan täysin ymmärtänyt. Toinen niistä oli conjunctive. En huijannut googlaamalla. Nyt kun sen tein, wikipedia vihjaa, että  se esiintyy vain saksassa ja aragonian kielessä englannin lisäksi. Toisaalta suomen kielen sanavarastoni on näköjään aika vaatimaton.

Annetaan nyt joukkoälylle mahdollisuus. Kommentoikaa tähänastisia tuloksia tai löytöjä. Rinnakkaisessa keskustelussa Mitä meistä tulee? pohditaan samaa aihetta paljon laajemmin.

 

Edit: 27.3 0:16 Lisätty conjuntiven yhteyteen lauseen loppu, joka oli kadonnut tallennusongelman takia. Selaimessa oli automaattinen backup, jota en tarkistanut kunnolla.

Piditkö tästä kirjoituksesta? Näytä se!

0Suosittele

Kukaan ei vielä ole suositellut tätä kirjoitusta.

NäytäPiilota kommentit (35 kommenttia)

Käyttäjän rkoski kuva
Raimo Koski

Arealme-sivustolla julkaistuja kommenttejani:

Omasta kielestä voi oppia yllättäviä asioita opiskelemalla muita kieliä. Voi esimerkiksi kuulostaa yllättävältä, että sanan suoja eräs historiallinen merkitys on sulanut vesi tai veden sulamisprosessi. Se on vielä käytössä yhdyssanassa suojasää, tuskin koskaan enää yksinään, kuten lauseessa "onko ulkona suoja". Suojan antonyymejä olisivat siis mm. jää ja lumi. Vastaava ilmiö on englannin sanassa thaw ja ruotsin tö, joita miettimällä vasta huomasin tämän ilmiön suomessa.
----
Outoja tuloksia voi selittää se, että omalle kielelle tulee sokeaksi. Esimerkiksi kaikkien ruotsinkielisten, joiden kanssa olen asiasta puhunut, mielestä on yllättävää, että sana sot (noki) on yhdyssanan osa sanoissa gulsot (keltatauti), farsot (kulkutauti) ja merkitsee tautia. Minulle se aikoinaan yksinäisenä merkitsi tietysti tautia, koska olin oppinut sen yhdyssanan osana.

Käyttäjän rkoski kuva
Raimo Koski

Kognitiivisen psykologian perusesimerkkejä on shakkinappuloiden sijainnin muistaminen. Shakkia paljon pelannut näkee peliasetelman ja muistaa sen jopa vain yhtenä kokonaisuutena, jos nappulat ovat järjestyksessä, joka on jossakin tunnetussa shakkiongelmassa tai pelissä. Jos ne taas ovat satunnaisessa järjestyksessä, ovat shakin pelaaja ja pelaamaton suunnilleen samalla viivalla.

Sama ilmiö toistuu useina variaatioina. Innostuin 10-vuotiaana musiikista ja esimerkiksi koin hyvin ahdistavana, lähes tuskaisena ajan, jolloin nauhurini oli rikki eikä käyttökelpoista varalaitetta ollut. Nyt olen kai sisäistänyt säännöt, miten musiikki etenee, kuulen väärinsoiton ja tavallaan muistan ulkoa kenties tuhansia musiikkiteoksia. Pitää tuohon vielä tarkentaa, että väärinsoitto voi olla tosi jännää. Aiheeseen liittyy vielä kuuloaisti, jota voi kehittää ja ainakin aikaisemmin puhuttiin kultakorvista, joiden laitteet maksoivat maltaita.

Näköaisti taas on hieman erilainen. Silmässä on lihaksia, joita voidaan harjoittaa ja korjata esimerkiksi taittovirheitä. Hahmontunnistus voidaan jakaa useisiin osa-alueisiin, joista esimerkiksi "suppissilmä" on sienestäjälle helppo esimerkki ymmärtää.

Kaikki edellä ehkä lopulta muidenkin mielestä itsestään selvää, mutta oman ajattelunsa toimintaa ei välttämättä tule ajateltua varsinkaan, jos ei ole lukenut psykologiaa. Riittää että "leikkaa" nopeasti.

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield

Erottelu kielessä vaikuttaa myös havannoissa ilmenevään eroon. Esim grönlantilaisilla on lukuisia eri sanoja käsittämään erilaisia lumen koostumuksia. Jollain hevosia kasvattavalla kansalla, olikohan unkarissa, on lukemattomia sanoja ruskean eri sävyillä. Tavallinen suomalainen ei ehkä huomaisi vastaavia sävyeroja.

Käyttäjän jgagarin56 kuva
Juha Kuikka

Vastaavasti joissain kielissä erotellaan asiat tarkemmin kuin toisissa.

Suomalaiselle silli ja silakka ovat eri kaloja, mutta englantilaiselle on olemassa vain herring ja baltic herring. Toisaalta suomalaisilla on lohi ja kirjolohi, mutta muunmaalaisille niillä kaloilla ei ole mitään yhteistä (salmon/rainbow trout tai Lachs/Regenbogenforelle).

Suomessakin on lumelle monia eri sanoja: lumi, viti, nuoska, sohjo, hanki, hyyhmä, ...

Ruotsissa puolestaan ei ole edes "räntä" -sanaa, vaan ainoastaan snöblandat regn. (Orpo hytisee pakkasessa ja rännässä = föräldralös barn fryser i minusgrader och snöblandat regn).

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield Vastaus kommenttiin #13

Suomeksi on räntä ja sohjo joita käsittääkseni molemmat voidaan kääntää ruotsiksi tö. Toki suomessakin on lumella monta muotoa, mutta eskimot, tai pitäisikö sanoa korrektimmin Grönlannin alkuperäiskansat, käyttävät lunta rakennusmateriaalina ja teiden päällyksenä, joten erottelukyvyn on oltava ihan eri luokka. Kaiketi pitää erotella sekin millainen lumi paakkuuntuu koirien tassuihin.

Käyttäjän rkoski kuva
Raimo Koski Vastaus kommenttiin #16

Ruotsin tö-sanaa vastaa käsittääkseni parhaiten suoja. Molemmat tarkoittavat veden sulamista tai juuri sulanutta muotoa eikä niitä käytetä yksinään, koska niitä ei enää yleisesti ymmärretä. Töväder, suojasää.

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield Vastaus kommenttiin #19
Käyttäjän rkoski kuva
Raimo Koski

Heikohkoa suomen kielen sanavaraston testitulosta voisi selittää aktiivinen unohtaminen. Luulisin että sitä on tutkittu vähän, koska en keksi mitään hyvää tapaa sen testaamiseen. Ajatus siis on, että olen pyrkinyt unohtamaan turhat, jopa haitalliset sanat, joita nykykielessä ei enää käytetä.

Toinen selitys on, että en ole lukenut suomalaista kaunokirjallisuutta 18 ikävuoden jälkeen käytännössä yhtään ja klassikkoja en nuorena lukenut.

Unohtamisen taito, DUODECIM
Oppiminen on unohtamista
Scientists identify neurotranmitters that lead to forgetting

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield

Minusta suomenkielisässä testissä oli aika paljon sanoja jotka suosivat iäkkäämpiä testin suorittajia.

Käyttäjän rkoski kuva
Raimo Koski

Joo. Jossain luonnehdin niitä kalevalaisiksi. Alla osa vanhahtavista tms. sanoista. Selitys kotuksen sanakirjasta. Ensimmäinen on esimerkki, jossa ei ole oikeaa vastausta ja viimeinen, jossa on kaksi oikeaa.

Sanan salskea synonyymi on: pitkä ja solakka
paksu
pulska
komea
tyyris

Sanan hurme synonyymi on: haavasta vuotava veri.
kypärä
innostus
kuura
veri

Sanan salo antonyymi on: suuri (asumaton) metsäalue, erämaa, sydänmaa, korpi.
kaira
jänne
masto
taajama

Sanan koketti synonyymi on: keimaileva, keikaileva.
mailapeli
keimaileva
kaarroke kaksinkertainen vaatteiden osa, johon tav.
poimutettu t. laskostettu miehusta
kiinnitetään, koketti.
oikukas

Välilyönnit ei säily, joten yrittäkää tulkita tuota "taulukkoa".

Käyttäjän jpvuorela kuva
Jari-Pekka Vuorela Vastaus kommenttiin #12

Sanan salo antonyymi on taajama, siinä ei ole epäselvyyttä. Yleisesti kuitenkin tuntuu siltä, että testien tekijä on englanninkielinen ja katsonut suomalaiset esimerkkinsä sanakirjasta.

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield Vastaus kommenttiin #12

Monet pitävät pitkää ja solakkaa komeana.
Veri kuin veri.
Voihan taajama pitää jonain salon vastakohtana.
Siihen kokettiin kiinnitin minäkin huomiota.
Nyt selittyy ainakin osittain huono tuloksesi: olet liian eksakti tulkinnoissasi.
Minä puolestani käsitin, ettei tässä niin nuukia olla kun kysyttiin jo alkuun rakkauden synonyymiä. Sekä tykkäämistä,että sydämen kuva käytetään. Minä en rakasta ruokia, vaatteita tai esineitä. Tosin olin joskus melkein rakastunut autooni.

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield

Panee kyllä miettimään testin reabiliteettiäkin jos tosiaankin tuloksesi suomen kielessä on noin vähäinen. Selityksesi eivät riitä.

Käyttäjän rkoski kuva
Raimo Koski

Arvaustuloksia osa. Jälleen kotuksen sanakirja kriteerinä.

Sanan pukstaavi antonyymi on: Sanaa ei löytynyt
Sanan tautokronismi synonyymi on: Sanaa ei löytynyt
Sanan arkadi synonyymi on: Sanaa ei löytynyt

Keskimmäinen löytyi englannin tyyliin kirjoitettuna jostain hiton monimutkaista matematiikkaa sisältävästä dokusta, mutta ei se oikeastaan ole sana yleensäkään. Meillä täällä Kemiössä on Arkadian tie. Mistähän sekin lie tullut.

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield Vastaus kommenttiin #15

Ei munkaan mielestä numero ole mikään kirjaimen antonyymi.
Tautokronismi ei ollut tuttu, mutta osista päättelin.
Jos nuo sanat eivät löydy sanakirjasta se on kotuksen vika.
Arkadia, (-mäki, -katu) tuo mieleen jotain ylevää antiikin kreikkaan liittyvä, mutta ei kai siinä arkitehtuurissa juuri holvikaareja esiintynyt?
Muuten suomenkielen sanakirjassa on noin 100000 sanaa, jos niistä tiedän vaja 20% ei ole minullakaan mitään syytä hurrata.

Käyttäjän jpvuorela kuva
Jari-Pekka Vuorela Vastaus kommenttiin #20

Arkadi nyt on kaarikäytävä kaikilla kielillä ja tautokronismin arvasin kuten sinäkin. Loogisesti en keksinyt pukstaavin antonyymiksi muutakaan vaihtoehtoa kuin numeron, mutta jälleen: mitä helkkaria nämäkin kolme esimerkkiä muka kertovat nimenomaan s u o m e n kielen tajusta tai sanaston laajuudesta. Eivät mitään. Ja missä kielessä kukaan ajattelee kirjaimet ja numerot missään mielessä vastakkaisiksi?

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield Vastaus kommenttiin #24

Minä luulen, että arkadissa alunperin pylväät ovat olleet määrävänä.
Eihän tällaiseen testiin voi vakavissaan suhtautua.

Käyttäjän rkoski kuva
Raimo Koski Vastaus kommenttiin #20

Kotus tekee ihan hyvää työtä sekä olemalla hyväksymättä uussanoja sekä poistamalla käytännön kielikäytöstä poistuneita sanoja. Siitä olisin eri mieltä, että esim. tatinriesa siellä pitäisi olla vaikka tieteellinen nimitys on ollut epävakaa. Turhia sanoja kotuksen sanakirjaan sen sijaan ei pidä päästää. Tautokronismi olisi suomeksi lähinnä toistuvaisuus, englanniksi recurringness tai repeatedness eli ihan turha sana.

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield Vastaus kommenttiin #27

Totta hitossa arvostan kotuksen työtä, eihän sitä sentään parin sanan perusteella voi mitätöidä.

Käyttäjän jpvuorela kuva
Jari-Pekka Vuorela

Itse sain tuosta English Vocabulary Size -testistä täsmälleen saman tuloksen 22 350. Varmaan olemme molemmat hyviä, mutta tämä panee miettimään testin resoluutiota :)

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield

Minua mietityttä, että suomen kielun sanavarastoni on testin mukaan alle 20000, mutta ruotsin kielessä meni reippaasti yli 30000.
Mitään englannin kielioppia en taida uskaltaa kokeilla kun en kieloppia juurikaan ole oppinut missään yhteydessä.
Eihän tuollainen suppea sanavalikoima, mahdollisesti vinoutunutkin, voi vastata kattavasti kielen sanastoa.

Käyttäjän ollivaisala kuva
Olli Väisälä

Ihan vain kiinnostuksesta: onko äidinkielesi suomi vai ruotsi?

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield Vastaus kommenttiin #11

Kiitos kiinnostuksesta, nykyinen "äidinkieleni" on väestörekisterissä suomi. Äitini oli ruotsinkielinen, isäni täysin kaksikielinen. Hänen isänsä oli fennomaani, joka liimasi ruotsinkielisen aapisen tekstien päälle suomekieliset laput.
Olen opiskellut koulussa sekä pakkosuomea että -ruotsia.
Jotkut tekemäni kielivirheet juontuvat kouluaikaisesta murteesta.

Käyttäjän ollivaisala kuva
Olli Väisälä Vastaus kommenttiin #21

Kiitos vastauksesta. Nyt heräsi tietysti uteliaisuus, miten isästäsi tuli noissa oloissa kaksikielinen, mutta ei sinun toki tarvitse enempää selittää sukutarinaasi:-)

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield Vastaus kommenttiin #29

Isäni puhui äitinsä kanssa ruotsia. Isänsä hän menetti kymmenvuotiaana. Hän kävi suomenkielistä koulua.

Käyttäjän rkoski kuva
Raimo Koski

Tuloksia voi suhteuttaa kielten sanastojen kokoon, vaikka seuraavat luvut eivät ole juurikaan yhteismitallisia:

Kotus (suomi) noin 100 000
SAOL (ruotsi, historiallinen, kaikki poistetutkin mukana) noin 200 000
Englanti, jonkun stetsonista vetämä arvio 1 000 000

Uusimman SAOLin lukua en helposti löytänyt.

Käyttäjän jpvuorela kuva
Jari-Pekka Vuorela Vastaus kommenttiin #17

Muistaakseni Nykysuomen sanakirjassa oli joskus 210 000 sanaa, mikä vastannee tuota ruotsin lukua, johon on laskettu historiallisetkin. Enää en muista, miksi termistä "Nykysuomen" sanakirja luovuttiin :)

Käyttäjän jgagarin56 kuva
Juha Kuikka Vastaus kommenttiin #17

Kyllä suomen kielessä ilman muuta on enemmän sanoja (ainakin käytössä) kuin ruotsin kielessä.

Ennen kaikkea asia on näin, jos puhutaan arkisesta kielenkäytöstä. Ei ehkä niinkään virastokielipuolella, jossa sanasto on kielten välillä melko lailla yhtäläinen.

Suomen kielen sanaston runsaus johtuu osittain myös siitä, että tietystä sanakannasta on mahdollista muodostaa lukemattomia uusia sanaversioita.

Samoin siitä, että suomen kirjakielessä on hyödynnetty eri alueiden murrerikkautta. Suomeksi ei sanota pelkästään "kävellä", "astua" tai "juosta", vaan voidaan sanoa myös juoksennella, astuskella, löntystää, nilkuttaa, tallustella, rientää, jolkutella, kirmailla, vintata, kuljeskella, onnuskella, pelmahtaa j.n.e. (lopuuttomiin ...)

Klassinen esimerkki sanojen muodostamisesta äärettömyyteen asti on "tehdä" verbin johdannaiset: teettää, teetättää, teetätyttää, teetätytättää ...

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield Vastaus kommenttiin #32

Ihastuin pohjoispohjanmaalaisten ja pohjoisavolaisten tapaan käyttää verbin kuvailemiseen toista verbiä: esim mennä viipottaa.
Kerran kun saavuin paikalle muutaman kymmenen kilsan ajomatkan jälkeen ja valittelin räntäsadetta jossa ei juuri eteensä nähnyt, eräs mies sanoi: ja sinä vaan ajaa törötit. Erittäin osuva ilmaisu!

Käyttäjän rkoski kuva
Raimo Koski Vastaus kommenttiin #33

"Tuta och kör" på svenska. On se muutenkin vastaan tullut, mutta hyvin harvoin sen jälkeen, kun 80-luvulla sen Tukholman seudulla opin.

Käyttäjän grohn kuva
Lauri Gröhn

Jaahas.
Ihmiskoe on ihmisen käyttöä tieteellis-teknisessä kokeessa kohdistamalle ihmiseen ärsykkeitä (kemikaaleja, ääniä, informaatiota, lääkkeitä tai muita olosuhteita) ja tarkkailemalla ärsykkeen vaikutuksia. Wiki

Käyttäjän jpvuorela kuva
Jari-Pekka Vuorela

English Grammar Score 116/Top 0.01%. OK, joko ymmärrän tosiaan englantia paremmin kuin suomea tai näissä testeissä on jotakin hämärää. Or both.

Käyttäjän MargaretaBlafield kuva
Margareta Blåfield

olet varmaan lukenut enemmän englanninkielisiä kirjoja kun moni jolla englanti on äidinkielenä.

Käyttäjän jpvuorela kuva
Jari-Pekka Vuorela

Totta kyllä. Varmasti enemmän kuin 99,99% englanninkielisistä native speakereistä. Olenhan kohta 62-vuotias. Olettaisin muuten, että englantia osaa arkitasolla varovasti arvioiden ainakin kaksi miljardia ihmistä. 0,01% tuosta on 200 000 ihmistä.

Käyttäjän jgagarin56 kuva
Juha Kuikka Vastaus kommenttiin #25

Wikipediasta löytyi mielenkiintoinen katsaus englannin kielen asemaan maailmassa.

Värikartan mukaan Suomi kuuluu englanninkielisiin alueihin, joissa kieli ei ole virallinen:

https://en.wikipedia.org/wiki/List_of_territorial_...

Tämän blogin suosituimmat

Kirjoittajan suosituimmat Puheenvuoro-palvelussa

Mainos

Netin kootut tarjoukset ja alennukset