Completato

Note

Errore

Session expiration Your session is going to expireClick here to extend

Budget:

Piccolo progetto <800

Pubblicato il

20/10/12 16.46

Cliente

inf***

Questo progetto è concluso

Pubblica un progetto simile e ricevi velocemente offerte non vincolanti.

Pubblica ora il tuo progetto simile

Descrizione

Il programma da utilizzare si chiama NetBeans (gratuitamente scaricabile al sito http://www.netbeans.org/" target="_blank">http://www.netbeans.org), un ambiente di sviluppo scritto interamente in Java.  

Il progetto prevede di scrivere in linguaggio Java un programma che permetta di trovare delle sequenze specifiche (isole) all’interno di un genoma, cioè all’interno del DNA di un organismo.

L’input del programma è un genoma Gen in formato fasta (sequenza di basi del DNA del tipo ATTTGCGCAACG...). All’interno di questo genoma devo cercare le isole, cioè delle sequenze costituite da potenze di parole (es. CG4 = CGCGCGCG). Gli output sono 3: le isole trovate, la loro lunghezza  e la loro posizione all’interno del genoma (es. ATAAACGCGCGCGGGG = CG4 in posizione 6-13 . Per semplicità, le isole da trovare dovranno andare da un minimo di 4 ripetizioni comprese (es. CG4 ) ad un massimo di 10 ripetizioni comprese (es. CG10 ). Poiché le basi del DNA sono 4 (A-T-G-C), escludendo le isole formate da una sola lettera ripetuta (AAAAAAAA) e partendo da quelle con 2 lettere, quello che posso trovare sono:

2 lettere ripetute es. CG4 = CGCGCGCG

3 lettere ripetute es. ATC3 = ATCATCATC

4 lettere ripetute es. GTAC3 = GTACGTACGTAC

Le combinazioni di lettere possono essere diverse (es. GC, GC, AT, TA, TC, ecc.). Quello che mi interessa è registrare per ciascuna isola trovata,  i tre parametri elencati prima come output.

Non devo dare la sequenza da cercare come input, ma dovrebbe essere il programma a dirmi quanto sottosequenze possibili ci sono.