You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
On Mon, 3 Jun 2019 at 14:04, Marten Hoogeveen [email protected] wrote:
Ik heb nogmaals naar het bestandje gekeken, ik wist niet goed hoe ik het moest aflezen en Arjen heeft me net wat bijgepraat hoe het werkt.
Het aanmaken en downloaden van de meeste databases is er al, hier moet ik nog wel even met Dick doorheen lopen. Het downloaden van de BOLD database is op dit moment niet volledig te automatiseren omdat de api niet goed werkt dus dat zou niet handig zijn als galaxy tool. Iets wat nog niet bestaat is de curatie van databases, dit is af en toe wel eens gedaan maar altijd voor specifieke verzoeken van Kevin (bijvoorbeeld: https://github.com/naturalis/waterscan_reference_filtered)
Weet niet of het mijn rol is om hier een mening over te geven maar ik zou het niet handig vinden om gebruikers de mogelijkheid te geven om alle databases zelf aan te kunnen maken en te updaten. De pipeline die de genbank subselecties maakt heeft een output van rond de 350GB. Dit is inclusief genbank zelf, die kan uiteraard verwijderd worden maar die ruimte moet wel minimaal beschikbaar zijn. En wat als meerdere gebruikers tegelijk een update uitvoeren.
Mijn voorstel zou zijn:
De "basic" referenties houden zoals het nu is, updaten wordt achter de schermen gedaan door een admin via de commandline. Daarnaast kan er een galaxy tool gemaakt worden die op basis van die al bestaande databases of fasta bestanden kan filteren, cureren etc. Stapsgewijs zie ik het zo voor me:
Gebruiker klikt op de tool in galaxy
Je kan een bestaande database selecteren (BOLD, Genbank, Genbank CO1 etc) of een fasta bestand van de history
Op basis van de bovenstaande keuze krijg je de mogelijke opties zoals subselectie maken, filteren, derepliceren etc. (mogelijkheden zijn eindeloos)
Nog wat info voor Rutger om te laten zien waar die specifieke code kan vinden en mogelijk kan gebruiken of als inspiratie voor deze nieuwe tool:
Het maken van een sub-selectie uit genbank op basis van header:
Een subselectie maken vanuit bold op basis van een specifiek taxon:
Kan met grep
Een subselectie maken van genbank op basis van een specifiek taxon (let op, bekijk de nieuwste blast versie ook er zijn nieuwe features betreft dit onderwerp):
On Mon, 3 Jun 2019 at 14:04, Marten Hoogeveen [email protected] wrote:
Ik heb nogmaals naar het bestandje gekeken, ik wist niet goed hoe ik het moest aflezen en Arjen heeft me net wat bijgepraat hoe het werkt.
Het aanmaken en downloaden van de meeste databases is er al, hier moet ik nog wel even met Dick doorheen lopen. Het downloaden van de BOLD database is op dit moment niet volledig te automatiseren omdat de api niet goed werkt dus dat zou niet handig zijn als galaxy tool. Iets wat nog niet bestaat is de curatie van databases, dit is af en toe wel eens gedaan maar altijd voor specifieke verzoeken van Kevin (bijvoorbeeld: https://github.com/naturalis/waterscan_reference_filtered)
Weet niet of het mijn rol is om hier een mening over te geven maar ik zou het niet handig vinden om gebruikers de mogelijkheid te geven om alle databases zelf aan te kunnen maken en te updaten. De pipeline die de genbank subselecties maakt heeft een output van rond de 350GB. Dit is inclusief genbank zelf, die kan uiteraard verwijderd worden maar die ruimte moet wel minimaal beschikbaar zijn. En wat als meerdere gebruikers tegelijk een update uitvoeren.
Mijn voorstel zou zijn:
De "basic" referenties houden zoals het nu is, updaten wordt achter de schermen gedaan door een admin via de commandline. Daarnaast kan er een galaxy tool gemaakt worden die op basis van die al bestaande databases of fasta bestanden kan filteren, cureren etc. Stapsgewijs zie ik het zo voor me:
Nog wat info voor Rutger om te laten zien waar die specifieke code kan vinden en mogelijk kan gebruiken of als inspiratie voor deze nieuwe tool:
Het maken van een sub-selectie uit genbank op basis van header:
galaxy-tool-BLAST/utilities/genbank/Snakefile
Lines 60 to 61 in 4f0d29a
Het derepliceren van sequenties:
galaxy-tool-BLAST/utilities/bold/Snakefile
Line 115 in 4f0d29a
Een subselectie maken vanuit bold op basis van een specifiek taxon:
Kan met grep
Een subselectie maken van genbank op basis van een specifiek taxon (let op, bekijk de nieuwste blast versie ook er zijn nieuwe features betreft dit onderwerp):
galaxy-tool-BLAST/utilities/genbank/Snakefile
Lines 315 to 329 in 4f0d29a
The text was updated successfully, but these errors were encountered: