Skip to content

IGenVar Meetings

Lydia Buntrock edited this page Feb 12, 2021 · 6 revisions

iGenVar Meetings - Summary / memory log

13.09.2019

Großes Meeting mit

  • Matin Vingron

  • Knut Reinert

  • Stefan Mundlos

  • Verena Heinrich (Postdoc; Abt. Bioinformatik; Vingron Lab)

  • Robert Schöpflin (Postdoc; FG Entwicklung & Krankheit; Mundlos/Vingron Lab)

  • David Heller (Doktorand; Abt. Bioinformatik; IMPRS-BAC; Vingron Lab) - VC

  • Hossein Moeinzadeh (Postdoc; Abt. Bioinformatik; Vingron lab) - VC

  • Vera (Wetlab)

  • Dr. Malte Spielmann (Gruppenleiter; FG Entwicklung & Krankheit; Spielmann Lab) – Mediziner

  • Guiseppe Gallone

  • Lydia Buntrock

26.10.2020

Zielgruppe: Mundlos-Gruppe (Domäne) Fragen: Was braucht ihr? Was läuft gut? was läuft momentan nicht gut?

Aktuelles Vorgehen

  • Preiswerte Technologien wie ArrayCGH und Illumina auf allen Samples
  • Variant Calling durch Core Facility (Manuel Holtgrewe)
  • Filtering durch Core Facility (z.B. VarFish, knowledge filter)
  • PacBio-Sequenzierung bei ungelösten Fällen

Story

Unterschiedliche Sequenziertechnologien

-> Unterschiedliche Tools zum Variant Calling

->-> Großer Aufwand für Variant Calling, Merging und Filtering

-> keine / wenig geteilte Informationen zwischen Technologien/Variant Calling Tools

Mehr zum Workflow

short and long term aims

  • Das tool SVIM, entwickelt von David, verfolgt den Ansatz jede durch verschiedene Methoden* gefundene mögliche SV zu analysieren und einer Sorte (DEL, INS, ...) zuzuordnen und diese danach zu clustern. Im Gegensatz dazu richten sich iGenVar, SVirl und Vaquita nach dem Ansatz, verschiedene mögliche SVs durch verschiedener Methoden* als Breakendpaare zu sammeln und diese novel anjacencies diese zu clustern und erst dann zu interpretieren.
  • Illumina Reads eignen sich gut für sehr kurze Indels/SVs als auch für besonders lange. PacBio lon reads verwendet man vor allem für den Längenbereich dazwischen.

*)CIGAR string, read depth, read-pairs, split read, assembly

ToDo:

  • Big Picture, zwei Jahres Ziel formulieren (Tool, Paper,...)
  • Ein Jahres Ziel formulieren (Protoyp, Paper)
  • 3 Monate Ziel formulieren
  • Den Ablauf der Mediziner, ihre Wünsche, Problematiken abklären: Manuel Holtgrewe, Birte Kehr (SVirl), ...

5.11.2020

Absprache / Festsetung der ausformulierten Ziele.

Für eine genauere Übersicht, wollen wir den Workflow mit allen möglichen Methoden etc als Diagramm darstellen.

Wir wollen die einzelnen Bausteine des Workflows möglichst so zusammenbasteln, dass man sie auch wie Bausteine ersetzen kann. Somit können wir auch verschiedene Methoden ausprobieren. Außerdem wollen wir damit versuchen bereits vorhandene Methoden mit möglichst wenig Aufand übernehmen zu können (zb von Vaquita, Vaquita-LR und SViper).

Zum Thema Formate:

  • für uns ist ersteinmal nur VCF als Format interessant.
  • Evtl mal mit der Entscheidung zwischen VCF 4.3 und 4.2 auseinandersetzen (4.4 ist inzwischen auch in dern Entwicklung)

ToDo:

  • Meetings organisieren, um den Ablauf der Mediziner, ihre Wünsche, Problematiken abklären: Manuel Holtgrewe, Birte Kehr (SVirl), ...
  • Fragen für diese Meetings vorbereiten
  • Das Clustering von Vaquita nachlesen und vergleichen.
  • Workflow grafisch darstellen, zb mit draw io

03.02.2021

Meeting mit Birte Kehr

Long Read Technologien: PacBio CLR (high error rate), PacBio Hifi (low error rate), Oxford Nanopore (high error rate); PacBio HiFi wird PacBio CLR in absehbarer Zukunft ersetzen

Im Klinikalltag sind Long Reads momentan noch kein Thema. Es existieren eher Trio Daten als Long Reads zu einem Patienten. Wäre allerdings ein Tool verfügbar, das mit short und long reads arbeiten kann, dann würde das auch die Verwendung von Long Reads erleichtern. Herausforderung IO Load: Das Lesen der Daten dauert. Bei der Verwendung mehrerer Tools (z.B. für SNPs, Indels, SVs) muss BAM-File mehrmals gelesen werden was Server und Netzwerk auslastet/überlastet (vor allem bei Kohorten aus >10k Samples) -> Würde ein Tool mehrere andere Tools zusammenfassen und die BAM files auch nur einmal einlesen, wäre dies ein Gewinn.

Possible selling points of our caller:

  • Kombination von short und long reads führt zu (hoffentlich) besseren Ergebnissen
  • Flexible Kombination verschiedener Module für verschiedene Anwendungsfälle und Input-Daten
  • Benutzerfreundlichkeit
  • Good software engineering, good test coverage, long-time support
  • In Zukunft: Ein Tool für SNPs, Indels und SVs statt mehrerer verschiedener Tools
  • In Zukunft: weniger IO durch einmaliges Lesen der Daten

Ohne Genotyping sind die Daten für den Klinikalltag nicht gut genug. Das Genotyping ist wichtiger als genauere Breakpoints. Im Forschungsalltag sind Breakpoints interessanter.

Format zur Reduktion von Sequenzierdaten auf für Variant Calling wesentliche Informationen: GVCF

Zur Evaluation des Genotyping muss Genotyping Performance berechnet werden: Filtern der Calls basierend auf Genotype quality (basiert bei PopDel/PopIns auf einer Genotype likelihood, die mittels Alignmentscore berechnet wird) -> dann Berechnung von Mendelian concordance (so klein wie möglich) und Transmission rate (so nah an 50% wie möglich). Dazu Methodenteil von PopIns und PopDel ansehen.

SNP Calling: GATK, Graphtyper, DeepVariant (Google)

SVirl wurde nicht weiterentwickelt, könnte noch kommen, aber unwahrscheinlich. Gerne in iGenVar einfließen lassen.

Beim SV-Calling wird die meiste Arbeit vom Read Aligner verrichtet. Fehler im Calling entstehen meist durch Fehler im Alignment, Birte erwähnte einen neuen Aligner namens Dragon.

ToDos:

  • Modularisierung von dem was wir haben -> Schnittstellen festlegen, wie sehen die Daten an den Schnittstellen aus?
  • Vaquita einbauen (möglichst modular), Josh fragen was schon SeqAn3 unterstützt.
  • Clustering einbauen
  • Benchmarking einbauen

12.02.2021

Meeting mit Knut

Reihenfolge der Projektteile

  • Modularisierung
  • Benchmarking
  • add Vaquita-LR
  • add SVIM
  • add SViper -> iGenVar-LR, Paper, 1/2 Diss Lydia

Weiteres ohne Reihenfolge:

  • GATK
  • SVirl
  • CNV?