Tux

...making Linux just a little more fun!

New Release: apertium-nn-nb

Jimmy O'Regan [joregan at gmail.com]


Tue, 18 Aug 2009 05:50:54 +0100

English:

We've just released a new language pair: Norwegian Nynorsk–Norwegian Bokmål, apertium-nn-nb. It's the first released automatic translator for Norwegian developed with the free and open-source Apertium machine translator engine. The pair will be available for testing at at http://www.apertium.org/index.php?id=translatetext .

In developing this system, we used the Free language resources Norsk Ordbank (a full form dictionary with morphological annotations, http://www.edd.uio.no/prosjekt/ordbanken/) and the Oslo-Bergen tagger (a Constraint Grammar disambiguator, http://omilia.uio.no/obt/). Both of these resources are released under the GPL as Free software. Although a lot of conversion work was involved, the availability of high quality Free data led to a much higher coverage (~88%) and accuracy than would have been possible otherwise.

In addition to the reuse and conversion of these existing monolingual resources, a lot of work was done on the translational dictionary (partly assisted by the tool ReTraTos which turns Giza++ corpus alignments into bi-dictionary entries), and we have added transfer rules to handle eg. the differences in passive verbs phrases, gender system and possessive noun phrases.

Future goals include handling simple coordination in possessives, improving the rule-based disambiguator along with retraining the statistical tagger, and of course expanding and improving the translational dictionary.

This language pair was developed as part of a Google Summer of Code (GsoC) project. For more information on Apertium and GsoC, see http://socghop.appspot.com/org/home/google/gsoc2009/apertium . Many thanks to mentors Trond Trosterud (University of Tromsø) and Francis Tyers (Universitat d'Alacant and Prompsit Language Engineering) for advice and help on development, and to the other members of the Apertium project; also to Paul Meurer (Unifob AKSIS) and Kristin Hagen (University of Oslo) for help on the GPL Oslo-Bergen tagger, and to various Wikipedia contributors for help on the translation dictionary. Many thanks to all those who developed the open-source tools and free language resources which contributed in developing this new translator.

For more details on development and the language pair, see http://wiki.apertium.org/wiki/Norsk

Norsk:

Vi har nettopp gjeve ut eit nytt språkpar: nynorsk–bokmål, apertium-nn-nb. Dette er den første automatiske omsetjaren for norsk som er utvikla i med Apertium – ein maskinomsetjingsmotor med fri og open kjeldekode. Språkparet vil vere mogleg å teste på http://www.apertium.org/index.php?id=translatetext?=nn .

Til utviklinga av systemet nytta me dei frie språkressursane Norsk Ordbank (ei fullformsordliste med ordklasse- og bøyingsinformasjon, http://www.edd.uio.no/prosjekt/ordbanken/) og Oslo-Bergen-taggaren (ein føringsgrammatikk for å eintydiggjere ordklasse mm., http://omilia.uio.no/obt/). Båe desse ressursane er utgjeve under GPL-lisensen som Fri Programvare. Vi hadde ein del arbeid med konvertering av format, men det at vi hadde tilgjenge til slike frie ressursar av høg kvalitet førte til ein mykje høgare dekningsgrad (ca. 88%) og grannsemd enn vi elles kunne fått til på så kort tid.

I tillegg til gjenbruk og konvertering av desse einspråklege ressursane, arbeida me mykje med omsetjingsordboka (delvis hjelpt av verktøyet ReTraTos, som konverterer Giza++-samanstillingar frå parallellkorpus til oppslag i omsetjingsordboka), og me la til overføringsreglar for å handsame t.d. forskjellane i passive verbfrasar, grammatisk kjønn, og genitiv i substantivfrasar.

I framtida vil me gjerne få systemet til å handsame enkel koordinasjon i eigedomsfrasar, betre på båe den regelbaserte disambiguatoren og trene den statistiske taggaren om igjen, i tillegg til at me sjølvsagt gjerne vil utvide og betre på omsetjingsordboka.

Dette språkparet fekk prosjektstønad frå Google Summer of Code (GsoC). Meir informasjon om Apertium og GsoC finn du på http://socghop.appspot.com/org/home/google/gsoc2009/apertium . Mange takk til rettleiarane mine Trond Trosterud (Universitetet i Tromsø) og Francis Tyers (Universitat d'Alacant og Prompsit Language Engineering) for gode råd og hjelp med utviklinga, og til dei andre medlemmene av Apertium-prosjektet; takk òg til Paul Meurer (Unifob AKSIS) og Kristin Hagen (Universitetet i Oslo) for hjelp med den frie Oslo-Bergen-taggaren, og til ymse Wikipedia-forfattarar for hjelp med omsetjingsordboka. Mange takk til alle som har vore med og utvikla dei frie verktøya og språkressursane som medverka til utviklinga av omsetjaren.

Sjå http://wiki.apertium.org/wiki/Norsk om du vil vite meir om utviklinga av språkparet.


Top    Back