rkoski Mahdollisesti hyödyllistä tietoa

Uusi lukutaito kieltenopiskelun avuksi - Anna tekoälyn opettaa

  • Englanniksikin tämä teksti oli kova pala. Se auttoi paljon, kun antoi Bingin kääntää vain sanan recuperación -> recovery. Ilmeisesti Espanjassa taantumasta toipuminen on niin yleinen sanapari, että usein käytetään vain jälkimmäistä. Kuvakaappaus on Android-tabletistani.
    Englanniksikin tämä teksti oli kova pala. Se auttoi paljon, kun antoi Bingin kääntää vain sanan recuperación -> recovery. Ilmeisesti Espanjassa taantumasta toipuminen on niin yleinen sanapari, että usein käytetään vain jälkimmäistä. Kuvakaappaus on Android-tabletistani.
  • Bing kääntää ruotsiksi melko hyvin.
    Bing kääntää ruotsiksi melko hyvin.
  • El Paisin Kindle edition Kindle readerin Android-versiossa.
    El Paisin Kindle edition Kindle readerin Android-versiossa.
  • Yksittäisestä sanasta Kindlen Android-versio näyttää RAE:n (Real Academia Española) virallisen <a href="https://dle.rae.es/">sanakirjan</a> selityksen, wikipedia-sivun ja Bing-kääntäjän käännöksen.
    Yksittäisestä sanasta Kindlen Android-versio näyttää RAE:n (Real Academia Española) virallisen sanakirjan selityksen, wikipedia-sivun ja Bing-kääntäjän käännöksen.
  • El Paisin Espanjan nettiversion tekstiä siirrettynä Googlen kääntäjään. Huomaa kaiutin-ikoni molemmissa tekstilaatikoissa.
    El Paisin Espanjan nettiversion tekstiä siirrettynä Googlen kääntäjään. Huomaa kaiutin-ikoni molemmissa tekstilaatikoissa.
  • Ruotsissakaan he-sanasta (de på svenska) ei ole maskuliinia ja feminiiniä muotoa. Toisen kappaleen toinen lause, ellos(mask.) ja ellas(fem.).
    Ruotsissakaan he-sanasta (de på svenska) ei ole maskuliinia ja feminiiniä muotoa. Toisen kappaleen toinen lause, ellos(mask.) ja ellas(fem.).
  • Aika kehno.
    Aika kehno.
  • Joskus sitä on niin hidas tajuamaan..
    Joskus sitä on niin hidas tajuamaan..
  • Englannin opiskelua TEDin avulla. Liittyy kommenttiin 4.
    Englannin opiskelua TEDin avulla. Liittyy kommenttiin 4.

Päivitetty 25.6. 12:00

Kun olen käynyt läpi erilaisia tapoja opiskella kieltä, on tehokkaimmalta vaikuttanut opiskellun kielen tekstien kääntäminen ja nykyään, kun sen voi antaa tekoälyn tehtäväksi, jää tehtäväksi vain eri kielten sanojen yhdistäminen toisiinsa ja juuri sitä tarkoitan uudella lukutaidolla.

En oikein usko, että käännöksen kirjoittaminen tehostaisi oppimista riittävästi verrattuna vaivan määrään. Oppimisen pitäisi olla vaivatonta, tapahtua ikään kuin sivutuotteena ja syvällisyyden korvaa toistokertojen määrä. Kun samat sanat toistuvat useasti suuressa aineistossa, syvenee oppiminen vähitellen ja sanojen käyttö kiinnittyy asiayhteyksiin.

Englanninkielinen Wikipedia listaa 9 eri lukumenetelmää tai tapaa. Kaksikielistä lukutapaa niiden joukossa ei kuitenkaan ole. Mikään uusi keksintö se ei kuitenkaan ole. Muistan jo 70-luvulla nähneeni kaksikielisiä kirjoja, joissa sama teksti oli aukeaman eri puolilla eri kielillä. Kun suomi ei ollut missään niistä toisena kielenä, en kiinnostunut aiheesta enempää. Esimerkkejä löytyy sivustoilta http://paralleltext.io/ http://bilinguis.com/ ja http://lingolibros.com/

Monikielistä materiaalia löytyy kuitenkin paljon enemmän. Esimerkiksi lähes kaikki TED-puheet on käännetty espanjaksi, kielelle jota opiskelen ja käännökset ovat ihmisten tekemiä ja tarkistamia. Niiden käyttö kielten opiskeluun edellyttää kuitenkin lähes täydellistä puhutun englannin ymmärtämistä tai saman puheen lukemista kahdessa selain-ikkunassa, joiden synkronointi voi olla hieman hankalaa. Toinen esimerkki on DVD- tai Blu-ray-levyt. Valitettavasti Suomessa myytävät ovat useimmiten pohjoismaisia versioita, joissa on vain pohjoismaisten kielten tekstitykset.

 

Siitä on melko tarkalleen 10 vuotta, kun ostin Kindlen. Se että siinä oli sisäänrakennettu sanakirjatoiminto oli todella iloinen yllätys. Kun kursorin vei oudon sanan kohdalle, ilmestyi ruudun alaosaan korkeintaan muutaman rivin kokoinen sanan selitys ja halutessa saattoi siirtyä sanakirjan puolelle sekä palata taas yhdellä näppäimellä. Todella nopeaa ja kätevää. Se ei haitannut, että sanakirja oli englanti-englanti, päinvastoin se oli paras mahdollinen. Harvoin sitä tuli käytettyä, koska luin lähes pelkästään Linux Journalia, jossa yleiskielen osuus oli helpohkoa, arvattavissa asiayhteydestä tai teknisen sisällön kannalta merkityksetöntä.

Kindle-lukijan Android-versio oli jälleen todella iloinen yllätys. Käännös-ikkunaan mahtuvan tekstin määrä on juuri sopiva yhdellä kertaa käsiteltäväksi ja käännöstoiminto tekstin valinnasta lähtien hyvin nopea. Kun löysin sen vahingossa, olin varma, että tässä se nyt on, mitä olin etsinyt.

Nyt kun yritin vertailun vuoksi etsiä samaa artikkelia tietokoneen selaimessa huomasin, että El Paisista onkin useita versioita. Esimerkiksi AME-versio on eri sisältöinen Amerikkojen espanjankielisille suunnattu, ENG englanninkielinen ja Kindle-versio lyhennetty ilman kuvia ja grafiikkaa oleva. Samaa artikkelia ei siis löytynyt.

El Paisin Kindle-versio oli ilmainen ensimmäiset 14 päivää ja sen jälkeen 20 USD/kk Amazonin kaupassa. Aion perua tilauksen ennen maksullisen kauden alkua ja seuraavaksi varmaankin kokeilen englanninkielistä lehteä, jotta voin kuunnella käännöksen espanjaksi.

En tunne e-kirjojen formaattien nykytilaa, mutta aluksi ne olivat hyvin rajoittuneita ja ainakin El Paisin Kindle-versio on aika vaatimaton, jos ei peräti surkea ja sitä paitsi törkeän kallis. Netti-versiossa ei ole minkäänlaista maksumuuria. ¿Saa siitä maksaakin ja ehkä sillä tavalla saisi näköislehden?

Kindle-laitteeseen löytyy kolme espanja-englanti-sanakirjaa. Niiden asennusohje löytyy aiemmasta kirjoituksestani How to learn Spanish (miksi kirjoittaa suomeksi, kun vaaditaan englannin taitoa).

 

Yllä kuvissa El Paisin Kindle-version ensimmäinen lause on aika jännä. Carro on melko tarkasti sama kuin englannin car eli auto. Loppuosan voisi kai siis kääntää ".. elpymisen kyydittämänä.", jos hyvin laajasti yrittää ymmärtää, mutta on alkukielisellä kyllä kovin omituinen ilmiasu. Tosin briteilläkin on lepakoita kellotapulissa. Bingin käännös on myös aika jännä. Failsuit ei ole englannin kielen sana. Edes fail suit ei löydy Merriam-Websteristä, Cambridgen sanakirjasta, Wikipediasta tai Wiktionarystä. Korttipelissä Sheepshead käytetään käsitettä fail suit, joka on siis jonkinlainen suora. OED:ssäkään sitä tuskin on, vaikka siinä on noin 600 000 sanaa. Ei viitsi maksaa 90 €/vuosi asian tarkastamiseksi.

Googlen kääntäjän tulkinta on: "The salaries are going up little by little to the car of the recovery." :)

Lisäys: Sama nasevasti suomeksi: "Palkat nousevat vähitellen toipumisautoon."

 

Yllä linkattu Wikipedian lista lukutavoista on mielenkiintoinen. Käytän niistä suurinta osaa tarpeen mukaan, mutta mielestäni lista on itse asiassa kovin suppea kiitos laitteiden ja HTML-kielen antamien mahdollisuuksien. Kun tähän vielä lisää sen, että Linuxissa on mahdollista asentaa jopa 80 kielen käännöspaketit ja käynnistää ohjelmista instansseja eri kielisinä, niin siinä on aika laaja Rosettan kivi.

Jotkut ovat olleet lukutapojen laajentumisesta jopa huolissaan. Tutkijat huolissaan: Ihmisille kehittymässä "digitaaliset aivot", jotka kykenevät enää selailuun. Kannattaa kuitenkin lukea alkuperäinen versio: Serious reading takes a hit from online scanning and skimming, researchers say epätarkan referaatin sijaan. Keskiajalla oltiin huolissaan, kun jotkut lukivat hiljaa ja nopeammin kuin olisivat pystyneet lukemaan ääneen, joka oli vallitseva tapa. Kyllä sitä sopiikin olla huolissaan, kun jotkut ovat pätevämpiä kuin itse on.

 

Lisään nyt vielä alle videon, jossa on valittavissa suomenkielinen tekstityskin, kun tarkoitukseni ei ollut väittää, että minun tapani olisi ainoa tai edes paras. Olen vain muistellut, miten itse aikonani parhaiten opin ja lisännyt siihen matkan varrella ja nyt alkeiskurssin aikana löytyneitä uusia keinoja. Minulle sopiva, kun itse sen tein. Ja edellisessä kirjoituksessa oli paljon muutakin kuin vain tekstin lukemista. Käyn siinä mainitun oppaan läpi ja kokeilen eri tapoja. Seuraava kieli sitten menee ilman ihmettelyvaihetta.

 

Lisäys 25.6. 12:00

Olen nyt ollut espanjan peruskurssilla viisi kertaa neljä tuntia eli yhteensä 20 tuntia opintoja on takana. 70-luvulla keskikoulussa luin vapaaehtoista ranskaa, mutta muuta aiempaa kosketusta minulla ei ole romaanisiin kieliin. Kun aihe on tuttu ja välineet hallussa, sujuu El Paisin, espanjan johtavan sanomalehden luku ja suomentaminen näin helposti:

Kuvattu harjoittelematta yhdellä otolla leikkaamattomana.

Piditkö tästä kirjoituksesta? Näytä se!

0Suosittele

Kukaan ei vielä ole suositellut tätä kirjoitusta.

NäytäPiilota kommentit (7 kommenttia)

Käyttäjän rkoski kuva
Raimo Koski

Nyt tämä pääsi karuselliin, niin en enää muokkaa tai täydennä itse kirjoitusta.

Oikeastaan nuo konekäännöksen virheet ovat varsin mielenkiintoisia. Ne auttavat huomaamaan kielten erot ja vaikeat kohdat. Kone tekee lähes mekaanisen työn ja ihmiselle jää enemmän aikaa vaikeisiin kohtiin, kuten idiomeihin ja sanontoihin.

Se kyllä täytyy sanoa, että kuvissa valittu teksti tai aihealue on melkoisen hankala, kuten kai suuri osa erikoissanastoa käyttävistä on. Olen kääntänyt ja käännättänyt pari El Paisin juttua omalle sivustolleni ja niissä en huomannut Googlen kääntäjän tuotoksessa juurikaan moitittavaa. Jutussa Nicholas Negroponte: “The 5G will not be a breaker. It is nuclear fusion that will change the world“ suurin virhe on otsikon breaker, jonka itse arvasin olevan mieluummin breakthrough, läpimurto, mutta rompedoria googlatessa ensimmäinen sanakirja käänsi ground-breaking, mikä on aika tarkkaan synonyymi. Breaker kyllä vaikuttaa ihan kelvolta englannilta, mutta sitä ei käytetä oikeastaan koskaan yksin. Tavallisin yhteys on circuit breaker, jota käsitystä vahvisti myös Googlen kääntäjän kohdekielen vaihtaminen ruotsiksi, jolloin tulos oli strömbrytare eli virtakatkaisin.

Ensimmäisessä käännöskokeilussa Viikko OnePlus 7 Pron kanssa on orginaali, Googlen käännös englanniksi, siitä minun suomennokseni ja neljäntenä Googlen espanjasta suomeksi. Oikeastaan Google tuotti vain kökköä suomea, mutta yllättävän lähellä omaa suomennostani. Minä tosin yritin viitsiä kääntää melko sanasta sanaan enkä karsinut kovin paljon turhia, kuten mielestäni hyvässä tekstissä tehdään. Loppupuolella kyllästyin. Espanjalaiset tuntuvat olevan laatulehdessäkin kovin monisanaisia, mutta asiaa ei ole suomalaiseen tyyliin.

Käyttäjän rkoski kuva
Raimo Koski

Löytyipä tuo sanonta "sube al carro"(nousta autoon, kärryille), jolle englannin "jump on the bandwagon" on varsin hyvä kuvannollinen vastine ja sille suomennoksiksi tarjotaan liittyä villitykseen, muotivirtaukseen, mutta suomen kielessä ei taida ihan vastaavaa olla yleisessä käytössä.

Talous oli tosiaan huono valinta. Taloustiede on lähinnä uskomustiedettä. Tekulla aikoinaan opiskelin saksaa alkeista lähtien 224 tuntia eli noin kuusi viikkoa täyspäiväisesti. Loppuvaiheessa konetekniikan tyypillisen tekstiaineiston kääntäminen oli vain ammattisanaston opettelua, joka on aika vaivatonta ja nopeaa. Kun sitten myöhemmin luin hieman tietotekniikkaan liittyviä tekstejä saksaksi, oli oudot sanat helppo arvata asiayhteydestä ja ammattisanastoa oppi pelkästään lukemalla.

Niitä ihmisten tekemiä käännöksiä on paljon ja koviin tieteisiin perustuvat aiheet ainakin ovat melko "turvallisia" tai helppoja tekoälylle.

Käyttäjän pii3719 kuva
Pertti Ikonen

Kiitokset Raimolle hyvästä jutusta ja hyvistä linkeistä. Aikoinaan kun harrastin englannin kielen opiskelua, niin etsin juuri tuollaista sivustoa (kuten http://paralleltext.io/), josta helposti saisi käännöksen suomeksi alkuperäkielestä. Harmittaa vaan, että linkin kirjan teksti on hiukan vanhahtavaa mutta ehkä tulevaisuudessa löytyy uudempiakin tekstejä.

Käyttäjän rkoski kuva
Raimo Koski

Ne on ilmeisesti koottu Project Gutenbergin teoksista, joissa kaikkein suosituimmat teokset ovat useiden kielten käännöksinä. Vanhahtava kieli on myös hyvä jossain välissä oppia. Itse luin muutama vuosi sitten 1832 syntyneen suomalaisen Anders Ramsayn (linkin takana linkki Project Gutenbergiin) kirjasarjan Från barnaår till silfverhår. Aluksi kieli oli outoa, mutta pian oppi, että golf oli f:llä kirjoitettu golv ja muut pienet erikoisuudet. Siihen aikaan Suomessa puhuttiin varmaankin vielä enemmän vanhahtavampaa ruotsia kuin Ruotsissa. Nyt kielten paikallisten versioiden iät ei taida enää juuri poiketa toisistaan.

Jos haluat uudempaa materiaalia, niin TED.comista löytyy kai jo tuhansia puheita. Suomennosten määrä ei ole kovin suuri, mutta espanjaksi löytynee melkein kaikki.

Kokeile seuraavaa: Avaa kaksi selainikkunaa rinnakkain osoitteella https://www.ted.com/talks/salman_khan_let_s_use_vi... Valitse molemmissa kieleke Transcript ja toisessa alasvetovalikossa kieleksi Suomi sekä varmista, että toisessa on English. Mykistä toisessa äänet, alenna videoruudun rattaan-kuvassa vauhti aluksi vaikka 0.75x:ään molemmissa ja pyri käynnistämään videot mahdollisimman samanaikaisesti. Joudut vierittämään tekstiä ajoittain ylös molemmissa käsikäyttöisesti, mutta yritä pitää korostettu kohta molemmissa samalla korkeudella. Videoita ei tietysti tarvitse käynnistää, tekstejä voi vain vertailla rinnakkain.

Jos haluaa jonkun tietyn kohdan kuulla lausuttuna, saa videon käyntiin myös klikkaamalla tekstiä ja videon alkukohta siirtyy siihen. Ja tuo kaikki 43:n kielen välillä ristiin rastiin. Jos osaa erittäin hyvin jonkun indo-eurooppalaisen kielen, kannattaa sitä kautta opiskella uutta kieltä. Siinä vaiheessa, kun olen oppinut espanjan riittävän hyvin ja haluaisin opiskella seuraavaksi ranskaa, valitsisin varmaankin espanjan opiskelukieleksi, koska molemmat ovat romaanisia kieliä. Tosin englanti on aina hyvä, jos ei paras.

Tietokoneelle siirrettyä DVD-kokoelmaani en ole vielä yhtään tutkinut. Olen käyttänyt aina matroska-formaattia ja siihen saa kaikki ääniraidat ja tekstitykset. Kansainväliseen levitykseen tarkoitetuissa levyissä on melkoisella todennäköisyydellä ääniraitakin espanjaksi. Oli pieni järkytys nähdä ja kuulla Telly Savalas Kojakina puhuvan espanjaa Espanjassa TV:ssä 80-luvulla.

Käyttäjän rkoski kuva
Raimo Koski

TED-puheita on yli 3100 ja suomennettuja on yli 350 kpl. Espanjaksi tekstitettyjä on 3463, joten tuo 3100+ on vähän vanha tieto..

Myöhemmin..
Englanniksi eli kokonaismäärä on nyt 3527 eli 64 on vielä kääntämättä espanjaksi.
Brasilian portugaliksi käännettyjä 3479, kääntämättä 48.
Ranskaksi käännettyjä 3392, kääntämättä 135.
Italiaksi käännettyjä 3083, kääntämättä 444.
Saksaksi käännettyjä 2495, kääntämättä 1032.
Ruotsiksi käännettyjä 1066, kääntämättä 2461.

Kaikkiaan kieliä on 117, mutta esim. kiinaa kolmena varianttina. TED ei kielten opiskelun materiaalina ihan heti lopu kesken.

Käyttäjän pii3719 kuva
Pertti Ikonen

Hienoa. Kiitokset hyvistä ohjeista TEDin käyttämistä varten. Toimii todella hyvin.

Käyttäjän rkoski kuva
Raimo Koski

Kyllä nyt tunnen itseni tyhmäksi tuon viimeisen kuvan (8) lisäämisen jälkeen. Voin vain puolustautua sillä, että en ole muistaakseni koskaan antanut Chromen kääntää www-sivua. Ehkä joskus kauan sitten mielenkiinnosta ja huvittaakseni itseäni.

Kun julkaisee heti, kun on mielestään saanut jutun valmiiksi, on aina vaara, että vaikuttaa tyhmältä, mutta sitä ei saa pelätä. Näitä kirjoituksia voi aina korjata. Pertti ei tuonut uusia ideoita, mutta sai minua miettimään niitä. Vaatimatonkin palaute voi olla arvokasta. Kiitos.

Keskiyöllä tätä kirjoitusta oli luettu 544 kertaa ja siinä luvussa ei ole omat lukukertani. Kukaan ei huomauttanut, että olisi parempikin tapa. Perusidea minulla kuitenkin oli oikea, toteutustapa vain hieman hakusessa. Sinänsä kai arvokasta, että tuli samalla historiakatsauskin esiteltyä.

Tämän blogin suosituimmat

Kirjoittajan suosituimmat Puheenvuoro-palvelussa