SPAD it Home  
   
Informatie over het logo Statistic Process And Data analysis and Information Technology

Achtergrond

Purac B.V. uit Gorinchem is 's werelds grootste producent van melkzuur en hun derivaten. Hiervoor gebruikt men een biotechnologisch productieproces (met bacteriën). Purac is sterk geïnteresseerd in de exacte biochemische achtergrond van de betrokken metabole processen die uiteraard samenhangen met de DNA sequentie. Deze DNA sequentie kan men laten ophelderen waarna de functionaliteit ervan moet worden vastgesteld. Dit proces van toewijzen van functionaliteit aan de gevonden genen heet annotatie. Ruwweg gebeurt zo'n annotatie op basis van statistische overeenkomsten met bekende genen. In verband hiermee, en mede door sequentiefouten, is een annotatiedatabase verre van foutloos, zeker initieel. De annotatiedata werden in een MS Access database opgeslagen, terwijl de DNA sequentie in een platte tekstfile is opgeslagen. Voor verder onderzoek aan het biochemische systeem is het van belang de sequentie van diverse genen (of de bijbehorende aminozuur-volgordes) snel op te kunnen zoeken en te exporteren in diverse formaten zodat de gegevens met behulp van andere software verder verwerkt kunnen worden.

Doel

Het ontwerpen en implementeren van een stukje software waarmee onderdelen van de DNA sequentie (op basis van ORF's - Open Reading Frames) flexibel en snel kunnen worden opgehaald, getoond, en omgezet naar de aminozuurvolgorde (eiwit samenstelling). Tevens moet het e.e.a. in diverse vormen kunnen worden geëxporteerd (FASTA en EMBL formaat) en gekopieerd naar het (Windows) clipboard. De software moet daarnaast dienen als een 'gewone' database applicatie, waarmee de annotatiedata benaderd en onderhouden kunnen worden. Daarbij moet met name aandacht worden besteed aan de mogelijkheid om verbeteringen in de DNA sequentie door te voeren. Een dergelijke wijziging vereist een groot aantal wijzigingen in de referenties in de annotatiedatabase. Op advies van ons worden alle op deze wijze doorgevoerde verbeteringen bijgehouden in een aparte tabel, waarmee het in principe mogelijk wordt wijzigingen achteraf weer ongedaan te maken. De annotatiedatabase bevat daarnaast een aantal hyperlinks die uiteraard automatisch moeten openen als de gebruiker dat wil.

Aanpak

Omdat het hier gaat om een project met geringe omvang werd niet begonnen met een uitgebreide analyse. In plaats daarvan werd op basis van een gesprek meteen een offerte gemaakt voor implementatie. In de offerte werden de eisen zo goed mogelijk beschreven. De offerte werd geaccepteerd met enkele kleine toevoegingen. De software werd daarop wederom in Delphi geïmplementeerd. Toegang tot de MS Access database verliep via ADO (ActiveX Data Objects - een generieke methode waarbij de database versie nauwelijks meer van belang is). Allereerst werd een tweetal nieuwe componenten gemaakt: een voor een database hyperlink functionaliteit en een waarmee een database combobox automatisch gevuld kan worden met data uit een query. Bij het ophalen en wijzigen van de DNA sequentie file is met name gelet op de verwerkingssnelheid. In verband met de grootte van het DNA bestand is dit een vereiste. Met Purac werd tevens overeengekomen dat men toegang tot de broncode kreeg.

Resultaat

De software werd ruim op tijd opgeleverd en door Purac getest. Enkele kleine problemen werden snel en naar behoren verholpen waarna de software werd geaccepteerd. Men was onder de indruk van de snelheid van de software, met name waar het gaat om de toegang tot het DNA sequentiebestand en de omzetting van DNA sequentie naar aminozuur volgorde. Omdat Purac ook de beschikking kreeg over de broncode is één van hun medewerkers achteraf ingevoerd in de implementatie. Door de heldere structuur van de software en het duidelijke commentaar kunnen de medewerkers hier nu mee verder.