Categorieën
Onderzoek & projecten

Afgeronde projecten

Het Instituut voor de Nederlandse Taal (INT) werkt vaak samen in (Europese) projecten, vroeger onder de naam Instituut voor Nederlandse Lexicologie (INL). Op deze pagina vindt u een overzicht van inmiddels afgeronde projecten.

English version

Finished projects

During the past few years, the Dutch Language Institute (formerly Institute for Dutch Lexicology, INL) has worked together with other parties on various national and European projects. A selection is presented below.

Letters as Loot

In the Letters as Loot project, 17th– and 18th-century letters between Dutch people far away from home (such as sailors) and the home front were linguistically researched at Leiden University. The letters have been manually transcribed (typed out) by volunteers from the Leiden-based project Wikiscripta Neerlandica. The collection of letters is a goldmine for historians and linguists, because little is known about the everyday language of that period. The INL contributed to the linguistic annotation of the letters. That means that all kinds of linguistic information, such as spelling and word class, was added to the transcribed words. The addition of a modern standard form to all words and forms (lemmatization) makes its easier to search the texts. The INL has also developed a search application that was launched on 5 September 2013.

CLARIN

CLARIN’s objective is to realize an integrated, interoperable research infrastructure using language sources and language technology. The infrastructure, which is to be stable, permanent, accessible and expandable, must put an end to the current fragmentation and promote the use of computational technology in the humanities (eHumanities). Within CLARIN, the INL was involved in several sub-projects, such as Metadata, TICCLops, DUELME-LMF, GTB-WFT, VU-DNC and NAMESCAPE.

DAM-LR

  • Acronym for: Distributed Access Management for Language Resources
  • Time span: 2005-2006
  • Website: www.mpi.nl

In the DAM-LR project, an infrastructure was developed providing access to and management of language archives. Examples of language archives include (multimedial) corpora, lexica, grammars, etc. DAM-LR was a small-scale version of European CLARIN. Several parts of the (functional, prototypical) infrastructure of DAM-LR have been further developed in CLARIN.

ELAN

  • Acronym for: European Language Activity Network
  • Time span: 1998
  • Website: cordis.europa.eu

The objective of ELAN was to make all data from the European research community uniformly accessible, using a single query language and a single user interface. In order to make the data from specifically PAROLE and TELRI more accessible, the Dutch Language Institute, together with the University of Birmingham and Università di Pisa, has defined a Common Query Language.

ENABLER

  • Acronym for: European National Activities for Basic Language Resources
  • Time span: 2001-2003
  • Website: www.ilc.cnr.it

ENABLER was an infrastructural project with the objective of promoting cooperation between national activities in the field of ‘Language Resources’ (such as corpora and lexica). The Dutch-speaking regions were represented by the Dutch Language Union and the Dutch Language Institute, among other institutions.

ENeL

The aim of the project was to set up a European network for lexicographers that increased the visibility, accessibility and use of European national dictionaries. To that end the network regularly organized international meetings, workshops and training courses. Together with partners from 28 other European countries, the INL and the Fryske Akademy were responsible for the project application with COST: an organization that stimulates scientific cooperation in Europe. Within the ENeL project the INL functioned as Grant Holder and was part of the steering committee.

IMPACT

  • Acronym for: IMProving ACcess to Text
  • Time span: 2008-2012
  • Website: digitisation.eu

IMPACT was a European project that made online historical texts more accessible. In order to achieve this, the quality of the digitization and search methods in historical texts were optimized. Read more.

PAROLE

  • Acronym for: Preparatory Action for Linguistic Resources Organisation for Language Engineering
  • Time span: 1991-1999
  • Website: cordis.europa.eu (PAROLE), cordis.europa.eu (LE-PAROLE)

The PAROLE project catered to a growing need for modern electronic language sources, to be used mainly for language technology. Standards for the construction and enrichment of text corpora and text lexica were formulated on the basis of evaluative and feasibility studies. Institutes from 14 European countries cooperated on this project. Subsequently, a text corpus and a computational lexicon were built for each of the 14 corresponding languages, following the same standards. As a representative of the Dutch-speaking world, the INL made the following products:

  • PAROLE Corpus
  • PAROLE Distributable Corpus
  • PAROLE Lexicon

SIMPLE

  • Acronym for: Semantic Information for Multifunctional Plurilingual Lexica
  • Time span: 1998-2000
  • Website: clul.ulisboa.pt

The objective of SIMPLE was to add semantic information to the morphological and syntactic information already in the PAROLE lexicon. The information was selected on the basis of its usefulness to language technology applications. The INL served as the representative for the Dutch-speaking regions in this project.

Spelspiek

  • Time span: 2007-2008
  • Project: STEVIN demo project

Spelspiek was an interactive and automatic online spelling assistant. It was a chatbot: a robot that is able to simulate a conversation of questions and answers. One could ask Spelspiek something like: “How do you spell bjoetiekees?”, giving a Dutch approximation of the word in question. The chatbot would immediately tell you that the correct spelling is ‘beautycase’. So Spelspiek did not simply correct your spelling errors, it could also provide you with the correct spelling of a word written down as it is pronounced. Words that were not immediately recognized (both neologisms and incorrectly spelled words) were assessed by a spelling expert and added to Spelspiek. Consequently, Spelspiek learned more along the way. Spelspiek was originally a STEVIN demo project (2007-2008). The service was stopped in April 2019.

Succeed

  • Acronym for: Support Action Centre of Competence in Digitization
  • Time span: 2013-2014

This project promoted the implementation and validation of research findings in the field of mass digitization of text material. Read more (pdf). The INL was co-founder of the IMPACT Centre of Competence in Digitization. It led one of the work packages and was primarily responsible for the selection, adaptation, implementation and evaluation of text processing tools in libraries.

TELRI

  • Acronym for: Trans-European Language Resources Infrastructure
  • Time span: 1995-1997
  • Website: telri.nytud.hu

The objectives of TELRI were similar to those of the PAROLE project. It focused primarily on forming a network between representatives of Eastern European languages and a few Western European ones. For this project, the INL served as the representative for the Dutch-speaking regions.

tranScriptorium

An enormous number of hand-written historical documents are being placed online by digital libraries across the globe. The unedited digital images only become truly useful once they have been enriched with information. The tranScriptorium project focused on the development of innovative, cost-effective solutions for the indexation, searching, and complete transcription of images of historical hand-written texts. This was done with the help of Handwritten Text Recognition technology. The INL led one of the work packages, and was primarily responsible for the lexica of the various languages and language models used in handwriting recognition. For Dutch, tranScriptorium focused mainly on 15th-century artes manuscripts. Read more.

Brieven als Buit

In het project Brieven als Buit werden 17e- en 18e-eeuwse brieven tussen Nederlanders in verre oorden (o.a. zeelieden) en het thuisfront, taalkundig onderzocht aan de Universiteit Leiden. Daar zijn de brieven ook handmatig overgetikt (getranscribeerd) door vrijwilligers van het Leidse project Wikiscripta Neerlandica. De verzameling brieven is een goudmijn voor historici en taalkundigen, omdat er nog weinig bekend is over alledaags taalgebruik in die tijd. Het INL werkte mee aan taalkundige verrijking van de brieven. Dat betekent dat er aan de getranscribeerde woorden allerlei taalkundige informatie werd toegevoegd, zoals over spelling en woordsoort. De toevoeging van een moderne standaardvorm aan alle woorden en woordvormen (lemmatiseren) maakt de teksten beter doorzoekbaar. Het INL heeft daarnaast de zoekapplicatie ontwikkeld die op 5 september 2013 online is gegaan.

CLARIN

Het doel van CLARIN was een geïntegreerde, interoperabele onderzoeksinfrastructuur realiseren met taalbronnen en taaltechnologie. De infrastructuur, die stabiel, permanent, toegankelijk en uitbreidbaar moet zijn, moet de huidige versnippering opheffen en gebruik van computationele technieken in de geesteswetenschappen (eHumanities) bevorderen. Binnen CLARIN was het INL betrokken bij verschillende deelprojecten zoals Metadata, TICCLops, DUELME-LMF, GTB-WFT, VU-DNC en NAMESCAPE.

DAM-LR

  • Acroniem van: Distributed Access Management for Language Resources
  • Periode: 2005-2006
  • Website: www.mpi.nl

In het project DAM-LR is gewerkt aan een infrastructuur voor toegang tot en beheer van taalarchieven. Voorbeelden van taalarchieven zijn (multimediale) corpora, lexica, grammatica’s etc. DAM-LR was in het klein wat het Europese CLARIN in het groot is. Veel onderdelen van de (werkende, prototypische) infrastructuur van DAM-LR zijn doorontwikkeld in CLARIN.

ELAN

  • Acroniem van: European Language Activity Network
  • Periode: 1998
  • Website: cordis.europa.eu

ELAN had als doel alle data van de Europese onderzoeksgemeenschap op een uniforme manier toegankelijk te maken, met één vraagtaal en één userinterface. Om specifiek de data van PAROLE en TELRI toegankelijker te maken, heeft het INL, samen met de University of Birmingham en Università di Pisa, een Common Query Language gedefinieerd.

ENABLER

  • Acroniem van: European National Activities for Basic Language Resources
  • Periode: 2001-2003
  • Website: www.ilc.cnr.it

ENABLER was een infrastructureel project met als doel meer samenwerking tussen nationale activiteiten op het gebied van ‘Language Resources’ (corpora, lexica, e.d.). Het Nederlandse taalgebied werd vertegenwoordigd door onder meer de Nederlandse Taalunie en het INL.

ENeL

Het doel van het project was het opzetten van een Europees netwerk voor lexicologen dat de zichtbaarheid, de toegankelijkheid en het gebruik van de Europese nationale woordenboeken vergroot. Om dit doel te bereiken organiseerde het netwerk regelmatig internationale bijeenkomsten, workshops en trainingen. Het INL en de Fryske Akademy waren samen met partners uit 28 andere Europese landen verantwoordelijk voor de projectaanvraag bij COST: een organisatie die wetenschappelijke samenwerking in Europa stimuleert. Binnen het ENeL-project fungeerde het INL als Grant Holder en was daarnaast onderdeel van de stuurgroep.

IMPACT

  • Acroniem van: IMProving ACcess to Text
  • Periode: 2008-2012
  • Website: digitisation.eu

IMPACT was een Europees project dat online historische teksten toegankelijker maakt. Daarvoor werden in dit project de kwaliteit van het digitaliseren en de zoekmethodes in historische teksten geoptimaliseerd. Lees meer.

PAROLE

  • Acroniem van: Preparatory Action for linguistic Resources Organisation for Language Engineering
  • Periode: 1991-1999
  • Website: cordis.europa.eu (PAROLE) en cordis.europa.eu (LE-PAROLE)

Het PAROLE-project voorzag in een groeiende behoefte aan moderne elektronische taalbronnen voor met name de taaltechnologie. Op grond van evaluatie- en haalbaarheidsstudies zijn er standaarden geformuleerd voor de opbouw en verrijking van tekstcorpora en lexica. Instituten uit 14 Europese landen hebben hieraan meegewerkt. Daarna is volgens diezelfde standaarden voor elk van de 14 talen een tekstcorpus en een computationeel lexicon gebouwd.

Als vertegenwoordiger van het Nederlandse taalgebied heeft het INL de volgende producten gemaakt:

  • PAROLE-corpus
  • PAROLE Distributable Corpus
  • PAROLE-lexicon

SIMPLE

  • Acroniem van: Semantic Information for Multifunctional Plurilingual Lexica
  • Periode: 1998-2000
  • Website: clul.ulisboa.pt

Het doel van SIMPLE was het toevoegen van semantische informatie aan de morfologische en syntactische informatie van het PAROLE-lexicon. De informatie is geselecteerd met het oog op de relevantie voor taaltechnologische toepassingen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.

Spelspiek

  • Periode: 2007-2008
  • Project: STEVIN-demonstratieproject

Spelspiek was een interactieve en automatische onlinespellinghulp. Het was een chatbot: een robot waarmee je een vraag-antwoordgesprek kan nabootsen. Aan Spelspiek kon bijvoorbeeld de volgende vraag gesteld worden: ‘Hoe spel je bjoetiekees?’ De chatbot gaf direct het juiste antwoord: beautycase. Spelspiek corrigeerde dus niet alleen spelfouten maar kon ook de juiste spelling geven van een woord dat opgeschreven werd zoals je het uitspreekt. Woorden die niet direct herkend werden (zowel nieuwe woorden als fout gespelde woorden), werden beoordeeld door een spellingdeskundige en vervolgens aan Spelspiek toegevoegd. Spelspiek leerde dus al doende bij. Spelspiek was oorspronkelijk een STEVIN-demonstratieproject (2007-2008). De service is per april 2019 opgeheven.

Succeed

  • Acroniem van: Support Action Centre of Competence in Digitisation
  • Periode: 2013-2014

Het project Succeed richtte zich op de bevordering van de implementatie en validatie van onderzoeksresultaten op het gebied van de massadigitalisering van tekstmateriaal. Lees verder (pdf) . Het INL was medeoprichter van het IMPACT Centre of Competence in Digitisation, leidde een van de werkpakketten en was met name verantwoordelijk voor de selectie, adaptatie, implementatie en evaluatie van textprocessingtools in bibliotheken.

TELRI

  • Acroniem van: Trans-European Language Resources Infrastrucure
  • Periode: 1995-1997
  • Website: telri.nytud.hu

De doelstellingen van TELRI waren soortgelijk aan die van het PAROLE-project. Het richtte zich in eerste instantie vooral op het vormen van een netwerk tussen vertegenwoordigers van Oost-Europese talen en enige West-Europese talen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.

tranScriptorium

Wereldwijd worden er enorme hoeveelheden handgeschreven historische documenten online gezet door digitale bibliotheken. Die onbewerkte digitale afbeeldingen worden pas écht nuttig als ze met informatie zijn verrijkt. Het project tranScriptorium richtte zich op de ontwikkeling van innovatieve, rendabele oplossingen voor het indexeren, doorzoeken en volledig transcriberen van afbeeldingen van historische handgeschreven teksten. Dit werd gedaan met behulp van ‘Handwritten Text Recognition’-technologie. Het INL leidde een van de werkpakketten en was met name verantwoordelijk voor de lexica van de diverse talen en de taalmodellen die bij de handschriftherkenning gebruikt worden. Voor het Nederlands richtte tranScriptorium zich met name op vijftiende-eeuwse arteshandschriften. Lees verder (pdf).