RSS Feed!

About me

I am a business intelligence developer working at Bizware since August 2015. In this blog I will present code samples, primarilly in tsql but also findings in all other parts of the Microsoft BI-stack.


Disclaimer: All code should be considered as "as-is", i.e. badly tested and not working until extensive testing have been made by anyone reading the code. :)


Happy coding!

Posts Tagged ‘Grammatik’

Viskleken med Google Translate, Bing Translator samt Babylon translation

Thursday, October 29th, 2009

Minns ni viskleken som man lekte när man var barn? Alla satt i en ring och person nummer ett fick en lapp. På lappen stod det någon text av något slag, exempelvis “I en mörkgrön volvo åkte jag till affären. Jag såg en tant gå med en underlig hund, en blå fågel som pickade efter mask samt min kompis Erik och min granne Jonas.” Person nummer ett viskar till person nummer två, och så vidare, tills siste man fick säga det som han/hon hörde. Resultatet blir oftast nerkortat och ganska rörigt. Detaljer försvinner eller “klumpas ihop” med andra uppgifter i texten. Ovanstående exempel skulle kunna bli: “Jag åkte i en volvo till ica, jag såg en läskig hund och min kompis erik i en blå tröja”..

Vad händer om vi experimenterar med maskinella översättningsprogram? Vad försvinner och vad blir kvar när man översätter från språk till språk? För att testa detta så använde jag mig av Google translate, Bing Translator samt babylon translate. Jag gjorde två experiment som jag var relativt säker skulle kunna påverka utgången: dels ett experiment med närbesläktade språk samt ett experiment med obesläktade språk.

Texten jag översatte var denna (hämtat härifrån):

Gud skapar himmel och jord, och allt vad där finns, inklusive de två första människorna, Adam och Eva. Först beskrivs hur Gud på sex dagar skapar allting med sitt ord för att sedan vila på den sjunde. Därefter, i kapitel 2, finns vad som ibland kallas den andra skapelseberättelsen, som bland annat beskriver hur Gud formade Adam och alla djuren av jord för att sedan skapa Eva av ett av Adams revben. Huruvida de två kapitlen harmonierar med varandra eller ej är en fråga om vilken bibelvetenskapen är oenig. Berättelsen om Edens trädgård har stora likheter med den sumeriska berättelsen om Dilmuns trädgård, vilken ofta betraktas som äldre.

En ganska vanlig text med lite namn, böjningar och olika meningsuppbyggnader.

Experiment 1: Svenska – engelska – franska – spanska – tyska – svenska

Babylon translation:

Gud är till paradiset och land, och allt som han är en existens är att de första två personer, Adam,.. (Éeefa) (éa) som en början med (DHA) Initiator och en beskrivning anpassas i sex dagar Gud, de skapa, inte försvinna från den sjunde mötet i ordet vid en tidpunkt.

Kommentar: Här ser vi ett typiskt visklekssyndrom; förkortning. Texten har i princip försvunnit och ibland ersatts med paranteser där mjukvaran inte förstod eller ville göra användaren påmind av att det inte fungerade riktigt som det skulle vara. Texten är även den nästan obegriplig; har man lite kontextkänsla förstår man att det handlar om religion och med innehållet “sex dagar Gud” samt “är att de första två personer” handlar om första mosebok.

Bing translator:

Gud skapa himlen och jorden och allt hölls även de första två personer, Adam och EVA. Först beskrivs hur Gud sex dagar efter medan med hans ord och sedan ansvaret för sjunde. KAPITEL 2, då är det som ibland kallas andra skapar historia, som bland annat beskrivs hur i form av Adam och alla djur i jord och en av Adams revben skapar Gud. Om de två kapitlen i harmoni med varandra eller en fråga om Bibeln i vetenskapligt skillnader. Historia garden of Eden liknar historia proportionell Dilmuns, Trädgård, ofta som det äldre visas.

Kommentar: Denna output är mycket mer förståelig och innehållsrik än för babylon. Vi ser att även uppbyggnaden är bättre, det är mindre antal komman, texten håller ihop bättre. Vi får även veta att det finns frågetecken kring hur kapitel 1 och 2 passar ihop. Vissa problem finns med att bestämma singular och plural: “de första två personer”, “alla djur i jord” och “vetenskapligt skillnader”. Roligaste i denna text måste ändå vara att “en av Adams revben skapar Gud”, plötsligt är det Adam som är herren på täppan.

Google translate:

Gud skapade himmel och jord och allt som finns, inklusive de första människorna, Adam och Eva. Först beskriver han hur Gud sex dagar att skapa allt genom sitt ord, och sedan vila den sjunde. Därefter, i kapitel 2, kallas ibland skapelseberättelsen, tvärtom, beskriver upplevelsen är hur Gud skapade Adam och alla djur på jorden och sedan skapade Eva från Adams revben. Om de två kapitlen i harmoni med varandra eller inte är en fråga om bibeln, att vetenskapen inte överens. Berättelsen om Edens lustgård berättelse liknar den sumeriska Dilmun trädgården, vilket ofta som mogen.

Kommentar: Google translate ger oss en mer sammanhängande histora och ett mycket bättre flyt i läsningen, vissa ord ramlar dock bort; “Först beskriver han hur Gud [tar] sex dagar [på sig] att skapa allt genom sitt ord”. Det enda som blir riktigt fel är slutet av texten “vilket ofta som mogen”, vilket inte gör någon mer förståndig.

Hursomhelst tycker jag att Google translate vinner med en ganska så klar marginal på både innehåll, flyt och förståelse.

Experiment 2: Svenska → Ryska → Arabiska → Kinesiska → Koreanska → Svenska
I denna runda blandar vi språkgrupper hejvillt och ser resultatet:

Babylon translation:

Gud, himmel och jord och allt detta inte existerar mellan dem i de två första inför Adam. I den första Gud: s 6: e, mun, och resten av 7: e inning i sessionen. Senare, i kapitel 2, ibland med hänvisning till olika inställningar på en del av historien, i synnerhet, han skapade Adam Gud, marken för att skapa en alla djur Adams Eva hans revben.

Kommentar: För att vara så diversifierade språk så tycker jag att detta inte är mycket sämre än det tidigare försöket av babylon med indo-europeiska språken. Vi får en hint om att allt inte stämmer om kapitel 2: “ibland med hänvisning till olika inställningar på en del av historien”, vi kan också (med lite fantasi) säga att Adam skapade Eva ur revbenet, men mest låter det som om Eva är namnet på hans revben.

Bing translator:

용들이 jorden och de första två Adam, allt, inklusive regionala och Eva. Det första land som hans ord och de följande sex ansvarsområdena i artikeln beskrivs hur du har skapat. Och, och klicka sedan på kapitel 2 Beskrivning av aktiviteten formuläret land ADAM och alla djur Irina, de flesta revben Adams i den andra gruppen är datumet de mest. De andra två och Umm kapitel i Bibeln är inte vetenskapliga platsen matchar inte. Vanligtvis Park Edens Dilmuns denna sorgliga Story i övervägande juridiska uttryck.

Kommentar:Här får vi med lite intressanta kinesiska (용들) och koreanska tecken (이) samt visa versaler (ADAM) och namn som översätts till det egna språket (Irinia, ryskt för Eva?). Vi kan även se att en del engelska uttryck läggs in (Park, Story) som kanske används som hjälputtryck när inget annat fanns. Än en gång bjuder Bing på lite ofrivillig humor: “denna sorgliga Story i övervägande juridiska uttryck”, syftar Bing på Moses stentavla med de 10 budorden månne?

Google translate:

Guds första två personer, inklusive Adam och Eva, himmel och jord, skapades all existens. De första 6 dagarna Gud skapade allting i hans ord för att beskriva resten av 7. Då, kapitel 2, men ibland, bland andra saker, hur i all världen alla djur som Gud skapade Adam och Eva och nyår beskrivning av Adams revben för att skapa en andra historien var kreativ. Harmoni och ömsesidig eller inte dessa två kapitel, instämmer Bibeln inte med frågor inom vetenskapen. Datum för Aden 0 ₩ sumeriska Dilmun historia, anses ofta vara en liknande löptid.

Kommentar: Föga förvånande är meningarna ganska konstiga, särskilt “Då, kapitel 2, men ibland, bland andra saker, hur i all världen” men är övervägande förståeliga med lite översyn. Vi förstår till och med att kapitel 1 och 2 inte riktigt stämmer överrens. Lite lustigt är det dock att “löptid”, som är en ekonomisk term, läggs in i slutet.

Slutsats:
Google translate vinner priset i visklekstävlingen, på något sätt bibehålls kontexten genom alla steg så pass bra att det nästan blir förståeligt. Tvåa kommer Bing translate även om trean Babylon knappade in en del i det andra experimentet. Dock finns det en hel del kvar att göra för att få kontext och ordföljd att följa med i varje steg för alla tre tjänster.. Ser man tillbaka till tiden då babelfish var dominerande på marknaden är det mycket som har hänt för att förbättra översättningskvalité samt algoritmer för översättning, men det måste vara svårt för maskiner att förstå alla olika sorters oregelbundna böjningar, vad som är namn på folk och vad som är substantiv samt ordföljd och kontextförståelse. Förhoppningsvis behöver man inte i framtiden som webbutvecklare göra sajter för flera olika språk, utan att användaren använder en tjänst (som i och för sig finns på en massa sidor redan såsom google översätt, en gadget som utnyttjar översättningsalgoritmerna lokalt på sidan).