Information

7.13B: Annotation von Genomen - Biologie


Genom-Annotation ist die Identifizierung und das Verständnis der genetischen Elemente eines sequenzierten Genoms.

LERNZIELE

Genom-Annotation definieren

Wichtige Punkte

  • Sobald ein Genom sequenziert ist, müssen alle Sequenzierungen analysiert werden, um ihre Bedeutung zu verstehen.
  • Entscheidend für die Annotation ist die Identifizierung der Gene in einem Genom, die Struktur der Gene und die Proteine, die sie kodieren.
  • Sobald ein Genom annotiert ist, wird weiter daran gearbeitet, zu verstehen, wie alle annotierten Regionen miteinander interagieren.

Schlüsselbegriffe

  • SPRENGEN: In der Bioinformatik ist Basic Local Alignment Search Tool oder BLAST ein Algorithmus zum Vergleichen von primären biologischen Sequenzinformationen, wie z. B. die Aminosäuresequenzen verschiedener Proteine ​​oder die Nukleotide von DNA-Sequenzen.
  • in silico: In der Computersimulation oder in der virtuellen Realität

Genomprojekte sind wissenschaftliche Bestrebungen, die letztendlich darauf abzielen, die komplette Genomsequenz eines Organismus (sei es ein Tier, eine Pflanze, ein Pilz, ein Bakterium, ein Archaeen, ein Protist oder ein Virus) zu bestimmen. Sie kommentieren proteinkodierende Gene und andere wichtige genomkodierte Merkmale. Die Genomsequenz eines Organismus umfasst die kollektiven DNA-Sequenzen jedes Chromosoms im Organismus. Für ein Bakterium, das ein einzelnes Chromosom enthält, wird ein Genomprojekt darauf abzielen, die Sequenz dieses Chromosoms zu kartieren.

Sobald ein Genom sequenziert ist, muss es annotiert werden, um es zu verstehen. Eine Anmerkung (unabhängig vom Kontext) ist eine Anmerkung, die zur Erläuterung oder als Kommentar hinzugefügt wird. Molekularbiologie und Bioinformatik haben seit den 1980er Jahren den Bedarf an DNA-Annotationen geschaffen. DNA-Annotation oder Genom-Annotation ist der Prozess der Identifizierung der Positionen von Genen und aller kodierenden Regionen in einem Genom und der Bestimmung, was diese Gene tun.

Genom-Annotation ist der Prozess, bei dem biologische Informationen an Sequenzen angehängt werden. Es besteht aus zwei Hauptschritten: der Identifizierung von Elementen im Genom, einem Prozess, der als Genvorhersage bezeichnet wird, und dem Anbringen biologischer Informationen an diese Elemente. Automatische Annotationstools versuchen, all dies durch Computeranalyse durchzuführen, im Gegensatz zu manueller Annotation (auch bekannt als Kuration), die menschliches Fachwissen erfordert. Idealerweise existieren diese Ansätze nebeneinander und ergänzen sich in derselben Annotationspipeline (Prozess). Die grundlegende Ebene der Annotation besteht darin, BLAST zu verwenden, um Ähnlichkeiten zu finden, und dann Genome basierend darauf zu kommentieren. Heutzutage werden der Annotationsplattform jedoch immer mehr zusätzliche Informationen hinzugefügt. Die zusätzlichen Informationen ermöglichen es manuellen Annotatoren, Diskrepanzen zwischen Genen zu entschlüsseln, die dieselbe Annotation erhalten. Einige Datenbanken verwenden Genom-Kontextinformationen, Ähnlichkeitsbewertungen, experimentelle Daten und Integrationen anderer Ressourcen, um Genom-Annotationen durch ihren Subsystem-Ansatz bereitzustellen. Andere Datenbanken stützen sich in ihrer automatisierten Genom-Annotation-Pipeline sowohl auf kuratierte Datenquellen als auch auf eine Reihe verschiedener Softwaretools.

Strukturelle Annotation besteht aus der Identifizierung von genomischen Elementen: ORFs und ihre Lokalisierung, Genstruktur, kodierende Regionen und die Lage regulatorischer Motive. Die funktionelle Annotation besteht darin, den genomischen Elementen biologische Informationen zuzuordnen: biochemische Funktion, biologische Funktion, beteiligte Regulation und Interaktionen sowie Expression.

Diese Schritte können sowohl biologische Experimente als auch In-silico-Analysen umfassen. Ansätze auf der Grundlage von Proteogenomik nutzen Informationen von exprimierten Proteinen, die oft aus der Massenspektrometrie abgeleitet werden, um genomische Annotationen zu verbessern. Es wurde eine Vielzahl von Softwaretools entwickelt, die es Wissenschaftlern ermöglichen, Genom-Annotationen anzuzeigen und zu teilen. Die Genom-Annotation ist die nächste große Herausforderung für das Human Genome Project, nachdem die Genomsequenzen des Menschen und mehrerer Modellorganismen weitgehend vollständig sind. Die Identifizierung der Standorte von Genen und anderen genetischen Kontrollelementen wird oft als Definition der biologischen „Stückliste“ für den Zusammenbau und den normalen Betrieb eines Organismus beschrieben. Wissenschaftler befinden sich noch in einem frühen Stadium, diese Teileliste abzugrenzen und zu verstehen, wie alle Teile „zusammenpassen. ”


Companion: ein neues Werkzeug zur Generierung und Visualisierung von Annotationen von Parasitengenomen

Was passiert, wenn viele Parasitengenome erzeugt werden, um Krankheiten zu bekämpfen und Impfstoffe und Medikamente zu entwickeln, aber niemand kann diese Genome vergleichen? Sascha Steinbiss & Thomas Otto beantworten diese Frage in diesem Blog, der ursprünglich auf der Website des Wellcome Trust Sanger Institute veröffentlicht wurde.

In den letzten zehn Jahren wurden die Genomsequenzierung und -assemblierung massiv verbessert und Forscher sind heute in der Lage, in kurzer Zeit und zu relativ geringen Kosten nahezu perfekte Genomsequenzen für Bakterien und kleine Eukaryoten zu erhalten. Gute Assemblierungen zu einem günstigen Preis selbst für kleine Forschungslabore zu ermöglichen, ermöglichte eine Demokratisierung der Sequenzierung und führte zu vielen neuen Entwürfen von Genomen, darunter verschiedene neue Parasitengenome. Dieser Trend spiegelt sich in einer steigenden Anzahl verfügbarer Werkzeuge für die Sequenzmontage wider (>60 bis 2016).

Es bleibt jedoch das Problem, qualitativ hochwertige standardisierte Annotationen für diese Organismen zu generieren, d. h. Orte und Funktionen von Genen und anderen relevanten Merkmalen. Die Verfügbarkeit detaillierter und vollständiger Anmerkungen ist der Schlüssel, um nachfolgende vergleichende artenübergreifende Analysen zu ermöglichen, um Unterschiede zwischen einzelnen Arten oder Stämmen zu identifizieren.

Beispiele für solche Unterschiede könnten der Verlust oder der Gewinn von gemeinsamen und/oder artspezifischen Genen und Funktionen sein. In der Bakterienwelt gibt es Softwaretools, um Genome schnell annotieren zu können, aber bisher fehlte ein Äquivalent für Parasiten.

Aber selbst wenn ein Montageentwurf vorliegt, bleibt er ohne Annotation eine unverständliche Datenkette ohne wissenschaftliche Bedeutung.

Einführung eines neuen Softwaretools

Als Antwort auf diesen Bedarf haben wir Companion entwickelt, ein neues Softwaretool und Webserver, um in kürzester Zeit umfassende Annotationen von Parasitengenomen zu generieren, wobei wir uns bereits bekannte Informationen über verwandte Arten zunutze machen.

Zu den einzigartigen Funktionen von Companion gehören die Visualisierung der Montagequalität, der Vergleich des Geninhalts mit dem Referenzgenom sowie die Bereitstellung von Dateien, die problemlos an öffentliche Datenbanken wie das European Nucleotide Archive (ENA) übermittelt werden können.

Daten eine wissenschaftliche Bedeutung geben

Aber selbst wenn ein Montageentwurf vorliegt, bleibt er ohne Annotation eine unverständliche Datenkette ohne wissenschaftliche Bedeutung. Um davon Gebrauch zu machen, muss man wissen, wo sich Protein-kodierende und nicht-kodierende Gene befinden und welche Funktionen sie haben.

Diese zu finden ist zwar eine alte Herausforderung, für die es spezifische Werkzeuge gibt, aber die Aufgabe der Genfindung ist immer noch ein offenes Problem. Unvollkommene Annotationen, d. h. fehlende, falsch oder nur teilweise beschriebene Genmodelle sowie fehlerhafte Funktionszuordnungen können jede Art von nachgelagerter Analyse stark beeinträchtigen.

Die Realität hat jedoch gezeigt, dass die besten Ergebnisse nur durch die parallele Verwendung mehrerer Tools und anschließender manueller Kuration erzielt werden.

Schließlich ist die Übermittlung von Annotationsdateien an Datenbanken wie die ENA zwar eine Veröffentlichungspflicht, aber in der Regel eine Herausforderung, da eine spezifische Nomenklatur befolgt werden muss.

Wie kann Begleiter verwendet werden?

Um der Parasiten-Community bei der Überwindung dieser Probleme zu helfen, haben wir die Companion-Software (COMprehensive Parasite ANnotatION) als kostenlose Ressource zur öffentlichen Nutzung entwickelt. Obwohl er hauptsächlich als Webserver verfügbar ist, kann er auch lokal installiert werden, um Genome zu kommentieren, die nicht online ausgeführt werden konnten.

Für die Hauptzielgruppe der Parasitologen bieten wir eine bisher unerreichte Einfachheit der Annotation: Laden Sie einfach die Zusammenstellung hoch, wählen Sie eine verwandte Referenzart aus unserem Set von 62 Parasitengenomen aus und drücken Sie einen Knopf.

Nach 4-6 Stunden (je nach Montagequalität und Referenzgröße) wird eine E-Mail gesendet, die den Benutzer zu seinem annotierten Genom führt. Companion liefert grundlegende Statistiken wie Anzahl der Gene, Gendichte, Anteil jeder T-, C-, G- und A-Base in der DNA usw., aber auch – interessanter – erste Vergleichsergebnisse wie einen phylogenetischen Stammbaum, der die neu kommentierten die Beziehung der Art zu anderen Arten oder den Gengehalt relativ zur Referenz. Auch die Qualität der Montage sowie großflächige Umlagerungen lassen sich in den automatisch generierten Kreisplots gut beobachten. Ist der Nutzer mit dem Ergebnis zufrieden, kann es nun ganz einfach in die ENA hochgeladen werden, was in der Vergangenheit ebenfalls ein großer Aufwand war. Natürlich kann die von Companion generierte Annotation auch als guter Ausgangspunkt für die spätere manuelle Kuration dienen.

Companion einsetzen

Der erste große Anwendungsfall war die Verwendung von Companion, um verschiedene neue Kinetoplastid-Genome zu kommentieren, darunter 12 Leishmania- und Trypanosoma-Genome sowie Crithidia- und Endotrypanum-Genome, von denen die meisten von TriTrypDB erhältlich sind.

Companion erstellt einen qualitativ hochwertigen Anmerkungsentwurf, der leicht an die Datenbanken übermittelt werden kann, damit die Community von diesen sequenzierten Parasiten lernen kann.

Seit der öffentlichen Einführung von Companion Anfang 2016 haben wir über 120 Annotationsläufe aus der ganzen Welt gezählt, die immer beliebter werden. An dieser Stelle möchten wir uns beim Infrastruktursystem-Team des Wellcome Trust Sanger Institute für die Wartung des Servers bedanken. Companion hat sich als vielseitig erwiesen: Obwohl der Hauptzweck von Companion darin besteht, ganze Genome zu annotieren, verwenden Benutzer es manchmal nur für die Pseudochromosom-Contiguation-Komponente, eine Funktionalität, die auch als Webanwendung knapp ist.

Companion wird mit modernster Technologie implementiert: dem Nextflow-Workflow-Management-System zur Orchestrierung der Pipeline, dem GenomeTools-Toolkit zur Genomanalyse für Low-Level-Scripting und dem Rails-Entwicklungs-Ökosystem für den Webserver. Der gesamte Code steht unter einer kostenlosen Open-Source-Lizenz.

Zusammenfassend lässt sich sagen, dass Companion einen qualitativ hochwertigen Anmerkungsentwurf erstellt, der leicht an die Datenbanken übermittelt werden kann, damit die Community von diesen sequenzierten Parasiten lernen kann. Es bietet auch verschiedene Ausgaben, die es dem Benutzer ermöglichen, das neu annotierte Genom endgültig mit der Referenz zu vergleichen, was möglicherweise zu ersten Hinweisen für weitere Forschungen führt.

Weitere Informationen finden Sie auf GitHub. Das dazugehörige Papier wurde kürzlich in die Webserver-Ausgabe von Nucleic Acid Research (PMID: 27105845) aufgenommen. Die derzeitige Verbesserung der Software wird sich darauf konzentrieren, ihren Einsatz auf Pilzgenome auszudehnen.


IGenome

Einige dieser Dateien liegen im tar.gz-Format vor. Um die Dateien auf einem Windows-System zu extrahieren, verwenden Sie 7zip im Administratormodus.

Die iGenome sind eine Sammlung von Referenzsequenzen und Annotationsdateien für häufig analysierte Organismen. Die Dateien wurden von Ensembl, NCBI oder UCSC heruntergeladen. Chromosomennamen wurden geändert, um einfach und konsistent mit der Download-Quelle zu sein. Jedes iGenome ist als komprimierte Datei verfügbar, die Sequenzen und Anmerkungsdateien für einen einzelnen genomischen Aufbau eines Organismus enthält.

Weitere Informationen finden Sie in der iGenomes-Übersicht und im Änderungsprotokoll.

hg19 – Hat keine Anmerkungsdateien.

    –Verfügt über die neuesten Anmerkungsdateien. Verwendung mit LRM-DNA-Amplikon-Analysemodulen v1.1 und v2.0 –Verwendung mit LRM-DNA-Amplikon-Analysemodul v1.0
Kontaktiere uns
Technischer Support
Mit technischem Support teilen

Erhalten Sie Anweisungen zum Freigeben Ihres Desktops während der Zusammenarbeit mit dem technischen Support.

Andere Unterstützung
Kontaktiere uns
Technischer Support
[email protected]
Andere Unterstützung
Nur für Forschungszwecke

Nicht zur Verwendung in diagnostischen Verfahren, außer wie ausdrücklich angegeben.

Innovative Technologien

Unser Ziel bei Illumina ist es, innovative Technologien auf die Analyse genetischer Variation und Funktion anzuwenden und damit Studien möglich zu machen, die noch vor wenigen Jahren undenkbar waren. Für uns ist es geschäftskritisch, innovative, flexible und skalierbare Lösungen zu liefern, um die Bedürfnisse unserer Kunden zu erfüllen. Als globales Unternehmen, das großen Wert auf kollaborative Interaktionen, schnelle Bereitstellung von Lösungen und höchste Qualität legt, sind wir bestrebt, diese Herausforderung zu meistern. Die innovativen Sequenzierungs- und Array-Technologien von Illumina treiben bahnbrechende Fortschritte in der Life-Science-Forschung, der translationalen Genomik und Verbrauchergenomik sowie der Molekulardiagnostik voran.


Anmerkung

Die Annotation ist für eukaryotische und prokaryontische Genome der GenBank optional. Wenn Sie sich jedoch für die Übermittlung mit Anmerkung entscheiden, sind die unten aufgeführten Funktionen die Mindestanforderung für die Anmerkung, obwohl viele zusätzliche Funktionen enthalten sind. Wir hoffen, dass sich die auf jedem Genom vorhandene Annotation im Laufe der Zeit weiterentwickeln wird, wenn mehr über die Biologie bekannt ist. Bei der Überprüfung der eukaryotischen Genom-Annotation bemüht sich NCBI sicherzustellen, dass die Annotation während der gesamten Einreichung und im Vergleich zu anderen Genom-Einreichungen konsistent ist. Wir bemühen uns auch, Informationen zu präsentieren, die eine genaue Darstellung der bekannten Biologie sind. Dazu brauchen wir Ihre Hilfe. Bitte beachten Sie die hier vorgestellten Anmerkungsanweisungen sorgfältig und überprüfen Sie alle Ihre Anmerkungen, bevor Sie Ihr Genom einreichen. Viele Genome werden von automatischen Vorhersageprogrammen mit Anmerkungen versehen und da diese Programme Fehler machen, liegt es an uns allen, sicherzustellen, dass die präsentierten Informationen so genau wie möglich sind. Nachfolgend finden Sie eine Zusammenfassung der erforderlichen Annotation. Bitte beachten Sie jedoch auch unsere detaillierten Annotation-Anweisungen für unsere Annotation-Erwartungen.

Erforderliche Anmerkung

Kodierende Regionen bekannter Proteine

Genmerkmale

Ein Gen ist definiert als eine Region von biologischem Interesse, der ein Name zugewiesen wurde. Genmerkmale sind immer ein einzelnes Intervall, und ihre Lage sollte die Intervalle aller relevanten Merkmale wie Promotoren und polyA-Bindungsstellen abdecken. Gennamen sollten den Standardnomenklaturregeln des jeweiligen Organismus folgen. Namen von Mausgenen beginnen beispielsweise mit einem Großbuchstaben und die restlichen Buchstaben sind Kleinbuchstaben. Weitere Informationen zu Genen finden Sie in den detaillierten Anmerkungsanweisungen.

Locus_tag

Der locus_tag ist ein systematischer Genidentifikator, der jedem Gen zugeordnet wird. Der locus_tag muss für jedes Gen eines Genoms eindeutig sein. Jedes Genomprojekt (d. h. alle Chromosomen) sollte das gleiche eindeutige locus_tag-Präfix haben, um sicherzustellen, dass ein locus_tag spezifisch für ein bestimmtes Genomprojekt ist, weshalb wir verlangen, dass das locus_tag-Präfix registriert wird. Darüber hinaus können Gene auch funktionelle Namen haben, wie sie in der wissenschaftlichen Literatur vergeben werden. KCS_0001 ist beispielsweise der systematische Genidentifikator, während Abc5 der funktionelle Genname ist. Das Präfix locus_tag sollte aus 3-12 alphanumerischen Zeichen bestehen und das erste Zeichen darf keine Ziffer sein. Außerdem muss bei locus_tag-Präfixen die Groß-/Kleinschreibung beachtet werden. Dem Präfix locus_tag folgt ein Unterstrich und dann eine alphanumerische Identifikationsnummer, die innerhalb des angegebenen Genoms eindeutig ist. Außer dem einzelnen Unterstrich, der verwendet wird, um das Präfix von der Identifikationsnummer zu trennen, dürfen im locus_tag keine Sonderzeichen verwendet werden. Lesen Sie mehr über locus_tags und ihre beabsichtigte Verwendung. In den detaillierten Anmerkungsanweisungen erfahren Sie, wie Sie locus_tags in Ihre Anmerkungstabelle einbinden.

CDS-Funktionen (Codierregion)

Das CDS-Merkmal wird verwendet, um eine proteinkodierende Region zu definieren. Alle CDS-Features müssen einen Produktqualifizierer (Proteinname), protein_id undtranscript_id haben. Verwenden Sie für das Produkt einen prägnanten Namen, keine Beschreibung oder Phrase. Alternativ können Proteinnamen mit dem gleichen Symbol wie das entsprechende Gen mit der entsprechenden Großschreibung für den Organismus bezeichnet werden. In Fällen, in denen das Protein nicht bekannt ist, verwenden Sie als Produktname "hypothetisches Protein". Wir empfehlen die Verwendung von "hypothetischem Protein", da dies das Anhängen des locus_tag-Identifikators an den Produktnamen in BLAST- und Entrez-Zusammenfassungszeilen ermöglicht. Unsere detaillierten Annotationsanweisungen enthalten Anweisungen und Beispiele zur Benennung Ihrer Proteine ​​sowie zusätzliche CDS-Qualifier wie EC_Nummern, Proteinfunktionen, Beschreibungs- und Ähnlichkeitshinweise.

Protein_id

Der Einreicher muss allen Proteinen eine Identifikationsnummer zuordnen. NCBI verwendet diese Nummer, um Proteine ​​zu verfolgen, wenn Sequenzen aktualisiert werden. Diese Zahl wird in der Tabelle durch den CDS-Qualifizierer protein_id angegeben und sollte das Format gnl|dbname|string haben, wobei dbname eine Version Ihres Labornamens ist, die Sie für eindeutig halten (z. B. SmithUCSD), und string ist die eindeutige Protein-SeqID, die vom Einreicher vergeben wird.

Die protein_id wird für das interne Tracking in unserer Datenbank verwendet, daher ist es wichtig, dass die vollständige protein_id (dbname + SeqID) nicht von einem Genomzentrum dupliziert wird. Beachten Sie, dass bei der Verarbeitung von WGS-Einreichungen der Datenbankname in der protein_id automatisch in 'WGS:XXXX' geändert wird, wobei XXXX das Präfix der Zugangsnummer des Projekts ist. Bitte beachten Sie die detaillierten Anmerkungsanweisungen.

MRNA-Funktionen

Der Einreicher muss ein mRNA-Merkmal für jedes translatierte CDS einschließen und das Genmerkmal erweitern, um die gesamte mRNA einzuschließen. Darüber hinaus muss die mRNA denselben Produktnamen, protein_id undtranscript_id wie das entsprechende CDS aufweisen. Jedes mRNA-Merkmal kann entweder teilweise oder vollständig sein. Wenn keine UTR-Information vorhanden ist, stimmt die Position der mRNA mit der Position ihrer CDS überein, aber die mRNA ist an ihren 5'- und 3'-Enden partiell. Wenn die mRNA partiell ist, dann machen Sie das Gen partiell.

Unsere detaillierten Annotationsanweisungen enthalten Beispiele für die Aufnahme vollständiger und partieller mRNA-Funktionen.

Transkript_id

Der Einsender muss auch einen Transkriptions-ID-Qualifizierer angeben. Die Transkript_id wird für das interne Tracking in unserer Datenbank verwendet, daher ist es wichtig, eine Transkript_id als Qualifizierer sowohl für das CDS als auch für die entsprechende mRNA anzugeben. Jede Transkript_id muss einzigartig sein und sich von der protein_id unterscheiden. Bitte beachten Sie die detaillierten Anmerkungsanweisungen.


Führen Sie table2asn aus, um die Sequenzen mit Anmerkungen zu versehen

Dies ist das gleiche Konzept wie das Erstellen von .sqn-Dateien mit .tbl-Dateien als Eingabe, außer:

[2] Fügen Sie diese Argumente in die Befehlszeile ein:

Streit Wann sollte man einschließen?
-J -c w immer
-euk wenn der Organismus ein Eukaryot ist
-locus-tag-präfix <text> wenn die locus_tags nicht in der gff-Datei sind. Der Wert von 'text' ist das registrierte locus_tag-Präfix.
-lücken-min <integer> minimale Anzahl von Ns in einer Reihe, die eine Lücke darstellt
-lücken-unbekannt <integer> genaue Anzahl von Ns in einer Reihe, die eine Lücke von völlig unbekannter Länge darstellt
-l der Beweis für die Verknüpfung der Sequenzen auf beiden Seiten der Lücken. Am häufigsten "paired-ends" oder "align-genus"
-Hilfe Druckverwendung, Beschreibung und Argumente des Programms

[a] Damit die Gene richtig eingeschlossen werden, müssen die locus_tags in der .gff-Datei vorhanden sein (in Spalte 9 jedes Gens) ODER durch Einfügen von "-locus-tag-prefix XXXX" in die Befehlszeile hinzugefügt werden (wobei XXXX . ist) das registrierte locus_tag-Präfix dieses Genoms).

[b] Wenn der Organismus ein Prokaryot ist, dann fügen Sie den genetischen Code in die Befehlszeile ein [gcode=11].

table2asn -M n -J -cw -t template.sbt -gaps-min 10 -l paired-ends -locus-tag-prefix XXXX -j "[organism=Escherichia coli] [strain=abcd] [gcode=11]" -i fasta_file -f gff_file -o output_file.sqn -Z

  • Die Quellinformationen und der genetische Code befinden sich in der Befehlszeile, nicht in der Fasta-Datei
    • Organismus und Stamm werden zur Verfügung gestellt, die restlichen Informationen werden aus der entsprechenden BioProbe entnommen
    • immer den genetischen Code [gcode=11] einschließen, um sicherzustellen, dass die alternativen Startcodons erkannt werden

    table2asn -M n -J -cw -euk -t template.sbt -gaps-min 10 -l Paired-Ends -j "[organism=Loa loa] [isolate=F231]" -i fasta_file -f gff_file -o output_file. sqn -Z

    • Die Quellinformationen befinden sich in der Befehlszeile, nicht in der Fasta-Datei
      • der Organismus und das Isolat werden bereitgestellt, die restlichen Informationen werden aus der entsprechenden Bioprobe gezogen

      [e] Verwenden Sie die passenden Argumente für Ihre Situation. (Zu Ihrer Information, "table2asn -help" druckt alle Argumente aus)

      [3] Überprüfen Sie die Ausgabe des Validierungs- und Abweichungsberichts und beheben Sie Probleme

      • Überprüfen Sie die .stats-Datei auf Anzahl, Schweregrad und Art der Fehler, die in den .val-Dateien vorhanden sind. Alle Fehler und Ablehnungen müssen behoben werden. Das Vorhandensein von Fehlern verlangsamt die Verarbeitung. Eine Anleitung finden Sie in den Genomvalidierungsfehlern. Wenden Sie sich bei Fragen zur Validierungsausgabe an [email protected] Während der Bearbeitung können einige Fragen zu anderen Aspekten der Einreichung auftreten.
      • Überprüfen Sie die .dr-Datei auf die Ergebnisse des Diskrepanzberichts. Kategorien, denen FATAL vorangestellt ist, sind immer inakzeptabel und müssen korrigiert werden. Einige der Kategorien sind informativ. Berichte, die nicht als tödlich gekennzeichnet sind, sollten daraufhin untersucht werden, ob sie Annotationsartefakte darstellen, die korrigiert werden müssen, oder ob sie aufgrund der Biologie des Genoms akzeptabel sind. Sehen Sie sich die Beispiele und Erklärungen für Diskrepanzberichte als Anleitung an. Schreiben Sie an [email protected] und senden Sie die Discrep-Datei mit Fragen zu diesem Bericht.
      • Einige häufige Fehler umfassen
        • TÖDLICH: MISSING_GENES. Dies tritt normalerweise auf, weil locus_tag's nicht eingeschlossen wurden. Stellen Sie sicher, dass locus_tags vorhanden sind, indem Sie sie entweder in die GFF-Datei in Spalte 9 jedes Gens aufnehmen ODER indem Sie "locus-tag-prefix XXXX" (wobei XXXX das registrierte locus_tag-Präfix für das Genom ist) in die Befehlszeile einfügen.
        • TÖDLICH: BACTERIAL_PARTIAL_NONEXTENDABLE_PROBLEMS. Wenn es sich um ein eukaryotisches Genom handelt, können Sie diesen Fehler ignorieren. Wenn es sich um ein prokaryontisches Genom handelt, muss jedes CDS mit gültigen Start- bzw. Stoppcodons beginnen und enden oder partiell sein und sich entweder bis zum Ende der Sequenz erstrecken oder an eine Lücke innerhalb der Gerüstsequenz angrenzen. Sie sollten jedoch alle Gene, die "kaputt" sind, aber nicht als Pseudogene gelten, mit pseudo=true annotieren. Dies sind Gene, die nicht die erwartete Translation kodieren, beispielsweise wegen interner Stopcodons oder fehlender Start- oder Stopcodons, und werden oft durch Probleme mit der Sequenz und/oder Assemblierung verursacht.

        [4] Senden Sie die fehlerfreien .sqn-Dateien über das Einreichungsportal gemäß den üblichen Anweisungen.


        1 Antwort 1

        Lassen Sie uns versuchen, alle drei Teile Ihrer Frage zu beantworten.

        Sequenzierung Die allgemeine Methode ist dieselbe. Sequenzieren ist einfach Sequenzieren. Aber wie bei jeder einzelnen Sequenzierung müssen Faktoren berücksichtigt und Protokolle ausgewählt werden. Eine wichtige Sache ist, dass Sie möglicherweise vergleichsweise lange Reads benötigen, um die Wiederholungen und die allgemeine Größe von Pflanzengenomen zu bewältigen. Um lange Reads zu erhalten, benötigen Sie lange Eingabe-DNA-Sequenzen. Daher sollten Sie ein geeignetes Protokoll für Pflanzen-DNA mit hohem Molekulargewicht befolgen. Das kann schwierig sein, denn Pflanzen-DNA kann aufgrund der Pflanze und des Gewebes, die Sie haben, schwierig zu extrahieren sein, da Sie am einfachsten die Zellwand ganz am Anfang "aufbrechen" müssen. Danach ist es die allgemeine Sequenzierung. Obwohl, wie ich bereits sagte, Sie sich für lange Lesevorgänge (PacBio) und / oder eine gute Abdeckung entscheiden könnten. Wenn dies überhaupt nicht machbar ist, können Sie sich für eine gezielte Sequenzierung entscheiden und nur das gesamte Exom (oder nur die Gene, an denen Sie interessiert sind) erfassen, um sowohl die Kosten als auch die Analysekomplexität zu reduzieren.

        Montage Jetzt haben Sie wahrscheinlich viel Sequenz und möglicherweise auch lange Sequenzen angesammelt. Es gibt mehrere Werkzeuge, die Sie für die Montage verwenden können, und im Allgemeinen können Sie dieselben für Pflanzen verwenden, die Sie beispielsweise für eine menschliche Genommontage verwenden möchten. Ein Beispiel, das bei großen Pflanzengenomen gut funktioniert, ist MaSuRCA, ein weiteres Allpaths-LG. Es gibt einige Assembler, die für lange Wiederholungen entwickelt wurden, aber oft montieren Sie einfach und versuchen später, die Wiederholungsbereiche herauszufinden, zum Beispiel indem Sie eine Shotgun-Lese-Assembly mit langen Lesevorgängen aus einer anderen Technik verbessern.

        Anmerkung Dieser hat definitiv spezifische Werkzeuge für Pflanzengenome. Nun, große Genome. Die Hauptsache bei der Annotation besteht darin, potenzielle Gene zu finden und sie mit Datenbanken zu vergleichen, um sie mit Funktionen zu versehen. Pflanzen spleißen und Pflanzen können lange Introns haben, sogar solche mit langen Wiederholungen. Ein Beispiel für eine Genvorhersage-Software, die an Pflanzen funktioniert, ist Augustus, aber für einige Modellorganismen gibt es sogar organismenspezifische Pipelines und Werkzeuge für diese Aufgabe. Und natürlich würden Sie sich beim Datenbankteil für eine anlagenspezifische Datenbank entscheiden (wenn Sie NCBI-NR sowieso nicht verwenden). Diese können auch art- oder gattungsspezifisch sein, wie Sie sie im TAIR-Projekt (Arapidopsis) finden.

        TLDR: Es ist tatsächlich kompliziert. Einerseits braucht man spezielle Tools und Datenbanken, andererseits kann man mit Standardtools gut zurechtkommen, müsste aber Parameter anpassen, zusätzliche Vor- oder Nachbearbeitungsschritte durchführen und so weiter.


        DNA-Sequenzqualität – Phred – bietet Basenaufruf, Chromatogrammanzeige und hochwertige Auswertung und Darstellung von Sequenzregionen für bis zu fünf Sequenzen gleichzeitig.

        Sequenzmontage - Sie benötigen kein eigenes Contig-Assembly-Programm, wenn Sie Folgendes verwenden können:

        EGassember - richtet Sequenzfragmente aus, die aus der Shotgun-Sequenzierung resultieren, oder Gentranskripte (EST)-Fragmente, um das ursprüngliche Segment oder Gen zu rekonstruieren (Referenz: A. Masoudi-Nejad et al. 2006. Nucl. Acids Res. 34: W459-462).

        CGE Assembler 1.2 – assembliert Illumina, 454, SOLid und Ion Torrent Daten (Referenz: Larsen MV, et al. J. Clin. Micobiol. 2012. 50(4): 1355-1361).
        CGE SPAdes 3.9 – stellt Illumina- und Ion-Torrent-Daten zusammen (Referenz: S. Nurk et al. Research in Computational Molecular Biology: S. 158-170).

        GAP3 (PBIL, Frankreich ), (Referenz: Huang, X. &. Madan A. 1999. Genome Res. 9: 868-877) und hier.
        CAP-EST-Assembler (Istituto FIRC di Oncologia Molecolare, Italien) - Maximale Sequenzlänge für jede Sequenz beträgt 30 kb - Maximale Anzahl von Sequenzen 10 kb

        Die MicroScope-Website (gehostet bei Genoscope) bietet eine Umgebung für Expertenkommentare und vergleichende Genomik. Genomprojekt: Annotation und vergleichende Analysen von fertigen oder Entwurfsgenomsequenzen. Für vorannotierte Sequenzen integrieren sie nur Annotationen aus dem vollständigen Genomabschnitt von NCBI RefSeq. Metagenom-Projekt: Annotation und vergleichende Analysen von zusammengesetzten metagenomischen Sequenzen. Derzeit sind sie in der Lage, Datensätze mit weniger als 20 MB Contigs pro Bin zu integrieren.

        NanoPipe - wurde unter Berücksichtigung der Besonderheiten der MinION-Sequenzierungstechnologien entwickelt und bietet entsprechend angepasste Alignment-Parameter. Der Bereich der Zielspezies/Sequenzen für das Alignment ist nicht begrenzt, und die beschreibende Verwendungsseite von NanoPipe hilft einem Benutzer, mit der NanoPipe-Analyse erfolgreich zu sein. Die Ergebnisse enthalten Alignment-Statistiken, Konsensussequenz, Polymorphismen-Daten und Visualisierung des Alignments. (Referenz: Shabardina V et al. (2019) Gigascience 8(2). pii: giy169).


        COV2HTML: ein Visualisierungs- und Analysetool von bakteriellen Next Generation Sequencing (NGS)-Daten für Postgenomics-Lebenswissenschaftler - ermöglicht sowohl die Visualisierung der Abdeckung als auch die Analyse von NGS-Alignments, die an prokaryotischen Organismen (Bakterien und Phagen) durchgeführt wurden. Es kombiniert zwei Prozesse: ein Tool, das die riesigen NGS-Mapping- oder Coverage-Dateien in lichtspezifische Coverage-Dateien umwandelt, die Informationen über genetische Elemente enthalten, und eine Visualisierungsschnittstelle, die eine Echtzeitanalyse von Daten mit optionaler Integration statistischer Ergebnisse ermöglicht. (Referenz: Monot M. et al. 2014. OMICS 18(3): 184-95).

        DCA Divide-and-Conquer-Ausrichtung mehrerer Sequenzen ( Universität Bielefeld, Deutschland) - ist ein Programm zur Herstellung von schnellen, hochqualitativen simultanen multiplen Sequenz-Alignments von Aminosäure-, RNA- oder DNA-Sequenzen. (Referenz: Brinkmann, G. et al. Mathematische Programmierung 79: 71-97, 1997).

        PhageTerm - ist ein schnelles und benutzerfreundliches Softwarepaket, das verwendet werden kann, um Bakteriophagentermini und den Verpackungsmodus aus zufällig fragmentierten NGS-Daten zu bestimmen. Es ist Teil des Galaxy-Pakets und befindet sich im Verzeichnis "NGS: Mapping". Ideal ist eine automatisierte Antwort. (Referenz: Garneau JR, et al. 2017. Sci Rep. 7(1):8292).

        QUAST - ein Qualitätsbewertungstool zur Bewertung und zum Vergleich von Genom-Assemblies. Dieses Tool verbessert führende Baugruppenvergleichssoftware mit neuen Ideen und Qualitätsmetriken. QUAST kann Assemblies sowohl mit Referenzgenom als auch ohne Referenz auswerten. QUAST erstellt viele Berichte, zusammenfassende Tabellen und Diagramme, um Wissenschaftler bei ihrer Forschung und bei ihren Veröffentlichungen zu unterstützen. (Referenz: A. Gurevich et al. 2013. Bioinformatik, 29(8): 1072&ndash1075). Hinweis Dieser Server ist Stand April 2020, aber es besteht die Hoffnung, dass er wieder online ist (siehe hier für Software-Downloads).

        Sequenzierungsfehler: - Wenn Ihre DNA-Sequenz nicht mit der erwarteten Proteinsequenz übereinstimmt, können Sie bei GeneWise (EMBL-EBI) nach Fehlern suchen, die eine Proteinsequenz mit einer genomischen DNA-Sequenz vergleicht und Introns und Frameshift-Fehler berücksichtigt. Andere Programme sind:

        FrameD (Referenz: T. Schliex et al. 2003. Nucl. Acids Res. 31: 3738-3741)
        AMIGene - Annotation mikrobieller Gene (Referenz: BocsS. et al. (2003) Nukleinsäuren Res. 13(31): 3723-3726).
        Pfad :: Proteinrückübersetzung und -ausrichtung - befasst sich mit dem Problem des Auffindens entfernter Proteinhomologien, bei denen die Divergenz das Ergebnis von Rasterverschiebungsmutationen und -substitutionen ist. Bei zwei eingegebenen Proteinsequenzen richtet das Verfahren implizit alle möglichen Paare von DNA-Sequenzen aus, die sie codieren, indem speichereffiziente Graphendarstellungen des vollständigen Satzes von mutmaßlichen DNA-Sequenzen für jedes Protein manipuliert werden. (Referenz: Gîrdea M et al. 2010. Algorithms for Molecular Biology 5:)

        In-silico.com (Dr. Joseba Bikandi und Mitarbeiter, Fakultät für Pharmazie der Universität des Baskenlandes) - erlaubt in silico Experimente einschließlich theoretischer PCR-Amplifikation, AFLP-PCR, Restriktionsanalyse und Pulsfeld-Gelelektrophorese [PFGE] mit Bakterien- und Archaelgenomen, die in der öffentlichen Datenbank gefunden wurden.

        NCBI Prokaryotic Genomes Automatic Annotation Pipeline. Dadurch wird Ihr Bakteriengenom vollständig annotiert und Sie erhalten eine Sequin-Einreichungsdatei. Hinweis eine NCBI Phagen Automatic Annotation Pipeline befindet sich in der Entwicklung.

        RAST (Rapid Annotation using Subsystem Technology) ist ein vollautomatischer Dienst zum Annotieren von Bakterien- und Archaeengenomen. Es bietet qualitativ hochwertige Genom-Annotationen für diese Genome im gesamten phylogenetischen Baum. Erfordert eine Registrierung. (Referenz: Aziz, RK et al. 2008. BMC Genomics 9:75.).

        BASys Bacterial Annotation Tool - dieses unglaubliche Tool unterstützt die automatisierte, detaillierte Annotation bakterieller Genomsequenzen. Es akzeptiert rohe DNA-Sequenzdaten und eine optionale Liste von Genidentifikationsinformationen (Glimmer) und bietet umfangreiche Textanmerkungen und Bildausgaben mit Hyperlinks. BASys verwendet >30-Programme, um 60 Annotations-Unterfelder für jedes Gen zu bestimmen, einschließlich Gen-/Proteinname, GO-Funktion, COG-Funktion, mögliche Paraloge und Orthologe, Molekulargewicht, isoelektrischer Punkt, Operonstruktur, subzelluläre Lokalisation, Signalpeptide, Transmembranregionen, Sekundärstruktur , 3D-Struktur, Reaktionen und Wege. (Referenz: G. H. Van Domselaar et al. 2005. Nucl. Acids Res. 33(Problem mit dem Webserver): W455-W459).

        MicroScope - (CEA, Institut de Génomique - Genoscope, Frankreich) ist eine mikrobielle Genom-Annotations- und Analyseplattform, die Zugang zu einer breiten Palette von Tools bietet, darunter COG-Analyse, vergleichende Genomik . (Referenz: Vallenet D et al. (2017) Nucleic Acids Res. 45(D1): D517-D528). Erfordert eine Registrierung.

        MAKER Web Annotation Service (MWAS) ist eine einfach konfigurierbare, über das Internet zugängliche Genom-Annotationspipeline. Sein Zweck besteht darin, Forschungsgruppen mit kleinen bis mittleren Mengen an eukaryontischen und prokaryontischen Genomsequenzen (dh BAC-Klonen, kleinen ganzen Genomen, vorläufigen Sequenzierungsdaten usw.) zu ermöglichen, ihre Daten unabhängig zu kommentieren und zu analysieren und Ausgaben zu erstellen, die geladen werden können in eine Genomdatenbank. (Referenz: Holt, C. &. Yandell, M. 2011. BMC Bioinformatics 12:491).

        MITOS - eine Pipeline wurde entwickelt, um eine konsistente und qualitativ hochwertige De-novo-Annotation von mitochondrialen Genomsequenzen von Metazoen bereitzustellen. Wir zeigen, dass die Ergebnisse von MITOS in Bezug auf die Abdeckung und Qualität der Annotationen mit RefSeq und MitoZoa übereinstimmen. Gleichzeitig vermeiden wir Verzerrungen, Inkonsistenzen in der Nomenklatur und Tippfehler, die aus manuellen Kurationsstrategien resultieren. (Referenz: M. Bernt et al. 2013. Molecular Phylogenetics & Evolution 69:313-319).

        GenSAS - Genom Ssequenz EINAnmerkung Server - bietet eine One-Stop-Website mit einer einzigen grafischen Oberfläche zum Ausführen mehrerer struktureller und funktionaler Annotationswerkzeuge, die die Visualisierung und manuelle Kuration von Genomsequenzen ermöglichen. Benutzer können Sequenzen in ihr Konto hochladen und Genvorhersageprogramme ausführen, Proteinhomologiesuchen durchführen, ESTs kartieren, Wiederholungen, ORFs und SSRs mit benutzerdefinierten Parametereinstellungen identifizieren. Jede Analyse wird auf separaten Spuren der grafischen Benutzeroberfläche mit benutzerdefinierten bearbeitbaren Spuren angezeigt, um die endgültige Annotation von Funktionen auszuwählen und gff3-Dateien zum Hochladen in Genombrowser wie GBrowse zu erstellen. Zusätzliche Programme können mit dieser Drupal-basierten Software einfach hinzugefügt werden.

        Viral genom ÖHF Reader (VIGOR) - unterstützt Feature-Vorhersage und Annotation mit hohem Durchsatz. VIGOR verwendet eine extrinsische Strategie und weist eine Sensitivität und Spezifität von über 98% für die von uns getesteten viralen RNA-Genome auf. Von VIGOR identifizierte genomspezifische Merkmale umfassen Frameshifts, ribosomales Slippage, RNA-Editing, Stop-Codon-Read-Through, überlappende Gene, eingebettete Gene und reife Peptidschnittstellen. Die Genotypisierungsfunktion für Influenza und Rotavirus ist in das Programm integriert.
        (Referenz: S. Wang et al. 2011. BMC Bioinformatics 2010, 11:451)

        TORTE (FLdu EINNotation) ist ein NCBI-Webserver für die Genom-Annotation von Influenza-Virus ist ein Tool für vom Benutzer bereitgestellte Influenza-A-Virus- oder Influenza-B-Virussequenzen. Es kann Proteinsequenzen validieren und vorhersagen, die von einer Eingangsgrippesequenz kodiert werden. (Referenz: Y. Bao et al. 2007. Nucleic Acids Res. Webserver-Problem) 35: W280-W284.)

        CpGAVAS ( ChalloPletzte genom EINAnmerkung, VVerallgemeinerung, EINAnalyse und GenBank SSubmission Tool) - ermöglicht eine genaue Annotation des Chloroplasten-Genoms, die Erstellung von kreisförmigen Karten, die Bereitstellung nützlicher Analyseergebnisse des annotierten Genoms, die Erstellung von Dateien, die direkt an GenBank übermittelt werden können. (Referenz: C. Liu et al. 2012. BMC Genomics 13: 715)

        genom EINAnmerkung Tübertragen Utilität (GATU) annotiert ein Genom basierend auf einem sehr eng verwandten Referenzgenom. Die Proteine/reifen Peptide des Referenzgenoms werden gegen das zu annotierende Genom BLASTed, um die Gene/reifen Peptide im zu annotierenden Genom zu finden (Referenz: T. Tcherepano v et al. 2006. BMC Genomics 7:150.)

        BioGPS (Das Scripps Research Institute, USA) - ist ein Portal für Genanmerkungen aus einer Hand, das die Anpassbarkeit durch den Benutzer und die Erweiterbarkeit durch die Community betont.

        BAGEL (Groningen Biomolecular Sciences and Biotechnology Institute, Haren, Niederlande) - bestimmt anhand einer bestehenden oder nicht eingereichten GenBank-Datei das Vorhandensein von Bakteriocinen auf der Grundlage einer Datenbank, die Informationen über bekannte Bakteriozine und benachbarte Gene enthält, die an der Bakteriocin-Aktivität beteiligt sind. Eine alternative Site für Bakteriocine ist BACTIBASE, ein Datenarchiv für natürliche antimikrobielle Peptide von Bakteriocin. Sehen . LABioicin, wenn Sie sich für das Thema Milchsäurebakterien (LAB) und deren Bakteriocine interessieren.

        MICheck (MImikrobielles Genom Prüfener) - ermöglicht eine schnelle Überprüfung von Sätzen annotierter Gene und Frameshifts in zuvor veröffentlichten Bakteriengenomen oder Genomen, für die der Benutzer eine *.gbk-Datei hat. Dieses Tool kann als Vorstufe vor dem funktionalen Re-Annotation-Schritt angesehen werden, um schnell auf fehlende oder falsch annotierte Gene zu prüfen. Es funktionierte gut mit Phagengenomen von 43-135 kb. (Referenz: S. Cruveiller et al. 2005. Nucl. Acids Res. 33: W471-W479).

        WebGeSTer - Genicht ich SKonservenfabrikant für Terminators - mein liebstes Terminator-Suchprogramm ist endlich webfähig. Bitte beachten Sie, dass Sie, wenn Sie Daten aus einer *.gbk-Datei analysieren möchten, zuerst deren Konvertierungsprogramm "GenBank2GeSTer" verwenden müssen. Eine vollständige Beschreibung jedes Terminators einschließlich eines Diagramms wird von diesem Programm erstellt. Diese Site verlinkt auf eine umfangreiche Datenbank transkriptionaler Terminatoren im bakteriellen Genom (WebGeSTer DB) (Referenz: Mitra A. et al. 2011. Nucl. Acids Res. 39(Datenbankausgabe):D129-35).

        RibEx: Rippeoschalter Explorer - scannt <40kb DNA nach potentiellen Genen (die mit BLASTP verbunden sind) und mehreren hundert regulatorischen Elementen, einschließlich Riboswitches. Wenn Sie auf "Abschwächer suchen" klicken, werden Terminatoren und Antiterminatoren gefunden. Es präsentiert die eingekapselten Gene und eine BLAST-Analyse beim NCBI (Referenz: C. Abreu-Goodger & E. Merino. 2005. Nucl. Acids Res. 33: W690-W692).

        tRNAs: tRNAscan-SE - ist unglaublich empfindlich und liefert auch Sekundärstrukturdiagramme der tRNA-Moleküle (Referenz: Schattner, P. et al. 2005. Nucleic Acids Res. 33: W686-689). Alternativ verwenden Sie ARAGORN (Referenz: Laslett, D. &. Canback. 2004. Nucleic Acids Research 32:11-16).
        Testsequenzen.

        LTR_Finder - ist ein effizientes Programm zum Auffinden von LTR-Retrotranspsons voller Länge in Genomsequenzen. Die Größe der Eingabedatei ist jetzt auf 50 MB begrenzt ( Referenz: Z. Xu & H. Wang. 2007. Nucl. Acids Res.35(Webserverproblem): W265-W268).
        RTAnalyzer – findet Retrotransposons und erkennt L1-Retrotranspositionssignaturen (Referenz: J-F. Lucier et al. 2007. Nucl. Acids Res. 35(Webserverproblem):W269-W274

        MG-RAST (mEtagenom Rapid EINAnmerkung mit SUntersystem Technology) ist ein vollautomatischer Dienst zum Annotieren von Metagenomproben. Es bietet eine Annotation von Sequenzfragmenten, ihre phylogenetische Klassifizierung und eine erste metabolische Rekonstruktion.Der Dienst bietet auch Möglichkeiten zum Vergleich phylogenetischer Klassifikationen und metabolischer Rekonstruktionen von Metagenomen ( Referenz: F. Meyer et al. 2008. BMC Bioinformatics 9: 386).

        Die folgenden vier Programme können zur Vorhersage von Phagenproteinen verwendet werden:

        PVPred (Referenz: Ding H et al. (2014) Mol Biosyst 10(8): 2229-2235).
        PHPred (Referenz: Ding H (2016) Computer Biol Med 71: 156&ndash161).
        PVP-SVM (Referenz: Manavalan B et al. (2018) Front Microbiol 9: 476).
        PVPred-SCM (Referenz: Charoenkwan P et al. (2020) Zellen 9(2) pii: E353.

        Ursprung der Chromosomenreplikation:

        Ori-Finder und Ori-Finder 2 - sind nützliche Plattformen für die Identifizierung und Analyse von Replikationsstartpunkten (oriCs) im bakteriellen bzw. archaealen Genom. (Referenz: Luo H et al. (2019) Kurze Bioinform 20(4): 1114-1124). Bitte beachten Sie, dass diese Werkzeuge verwendet wurden, um DoriC zu erstellen – eine Datenbank mit Replikationsstartpunkten in prokaryontischen Genomen, einschließlich Chromosomen und Plasmiden. (Referenz: Luo H & Gao F (2019) Nucleic Acids Res. 47(D1): D74-D77).

        Eines der Probleme bei GenBank besteht darin, dass Wissenschaftler ihre Einreichungsdaten weder aktualisieren noch Fehler korrigieren. Dies liegt zum Teil an Faulheit, aber auch daran, dass GenBank in den meisten Fällen nicht bereit ist, eine neue Version der Sequin-Datei zu akzeptieren. Tbl2asn ist ein Befehlszeilenprogramm, das die Erstellung von Sequenzdatensätzen für die Übermittlung an GenBank automatisiert, aber aus meiner Sicht nicht einfach zu verwenden ist. Das einzige Online-Programm ist GenBank 2 Sequin, das nicht nur eine Sequin-Datei (*.sqn), sondern auch eine fünfspaltige "Annotation Table" (*.tbl) erzeugt. Diese kann zusammen mit der fasta-formatierten DNA-Sequenz per E-Mail ( [email protected] ) an die GenBank gesendet werden. In Ermangelung dessen empfehle ich das Perl-Skript gbf2tbl.pl zum Download hier.


        PlasmidFinder 1.3 - identifiziert Plasmide in vollständig oder teilweise sequenzierten Bakterienisolaten. Das Verfahren verwendet BLAST zur Identifizierung von Replikons von Plasmiden, die zu den Hauptinkompatibilitätsgruppen (Inc) von gehören Enterobakterien. Als Input kann die Methode sowohl vorgefertigte, vollständige oder partielle Genome als auch kurze Sequenz-Reads von vier verschiedenen Sequenzierungsplattformen verwenden. Siehe auch pMLST (Referenz: Carattoli A et al. 2014. Antimicrob. Agents Chemother. 58: 3895-903)

        PHACTS kann verwendet werden, um die Lebensweise eines Phagen (gemäßigt oder lytisch) schnell zu klassifizieren. Alles, was benötigt wird, ist das Proteom des zu klassifizierenden Phagen, und PHACTS sagt den Lebensstil dieses Phagen vorher und gibt einen Konfidenzwert für diese Vorhersage zurück. (Referenz: K. McNair et al. 2012. Bioinformatik 28: 614-618).

        Artenfinder 1.0 (Dänische Technische Universität) - sagt die Bakterienart aus vorgefertigten, vollständigen oder partiellen Genomen und kurzen Sequenzen voraus. Die Vorhersage basiert auf dem 16S rRNA-Gen.

        CSI Phylogeny 1.1 (Call SNPs & Infer Phylogeny) - ruft SNPs auf, filtert die SNPs, führt eine Site-Validierung durch und leitet eine Phylogenie basierend auf der verketteten Ausrichtung der hochwertigen* SNPs ab. (Referenz: Kaas, R.S. et al. PLoS ONE 2014 9: e104984.)

        KmerFinder 2.0 &ndash sagt die Bakterienarten aus vormontierten, vollständigen oder partiellen Genomen und kurzen Sequenzen vorher. Die Vorhersage basiert auf der Anzahl der gleichzeitig auftretenden k-mere (Teilstrings von k Nukleotiden in DNA-Sequenzdaten, in diesem Fall 16-mere) zwischen den Genomen von Referenzbakterien in einer Datenbank und dem vom Benutzer bereitgestellten Genom. (Referenz: Hasman H et al. 2013. J Clin Microbiol. 52:139-146)

        VIOLIN: Vaccine Investigation and Online Information Network – ermöglicht die einfache Kuratierung, den Vergleich und die Analyse von impfbezogenen Forschungsdaten zu verschiedenen Humanpathogenen VIOLIN soll eine zentrale Quelle für Impfstoffinformationen werden und Ermittler in den Grundlagen- und klinischen Wissenschaften mit kuratierten Daten versorgen und Bioinformatik-Tools für die Impfstoffforschung und -entwicklung. VBLAST: Customized BLAST Search for Vaccine Research ermöglicht verschiedene Suchstrategien gegen 77 Genome von 34 Krankheitserregern. (Referenz: He, Y. et al. 2014. Nucleic Acids Res. 42 (Datenbankproblem):D1124-32).

        MLST 1.8 (MultiLocus Sequence Typing) – funktioniert derzeit nur mit zusammengesetzten Genomen und Contigs (Referenz: Larsen MV et al. 2012. J. Clin. Micobiol. 50: 1355-1361).

        ECFfinder - Extrazytoplasmatische Funktion (ECF) Sigmafaktoren - die größte Gruppe alternativer Sigmafaktoren - stellen den dritten grundlegenden Mechanismus der bakteriellen Signalübertragung dar, mit durchschnittlich etwa sechs solcher Regulatoren pro Bakteriengenom. Zusammen mit ihren verwandten Anti-Sigma-Faktoren stellen sie ein hochmodulares Design dar, das in erster Linie die transmembrane Signaltransduktion erleichtert. (Referenz: Staron A et al. (2009) Mol Microbiol 74(3): 557-581).

        BacWGSTdb - dient zur Überwachung des Auftretens und Ausbruchs wichtiger bakterieller Krankheitserreger. Im Detail dient es zwei besonderen Zwecken: Eingabe und Tracking. Ersteres bezieht sich auf eine integrierte Genotypisierung sowohl auf der Ebene der traditionellen Multi-Locus-Sequenztypisierung (MLST) als auch der Gesamtgenom-Sequenzierungstypisierung (WGST). Letzteres bezieht sich auf die Quellenverfolgung (d. h. das Auffinden sehr ähnlicher Isolate) gemäß dem Typisierungsergebnis und isoliert in BacWGSTdb gespeicherte Informationen. (Referenz: Z. Ruan 7 Y. Feng, Nucleic Acids Research. 2016 44(D1): D682-D687).

        SISTR: SAlmonellen ichn Silico Typing RQuelle - (Public Health Agency of Canada, Labor für lebensmittelbedingte Zoonosen) ist eine Bioinformatik-Ressource für die schnelle Interpretation von In-silico-Daten für mehrere Salmonella-Subtypisierungsmethoden aus Entwürfen bakterieller Genomanordnungen. Neben der Serovarvorhersage durch Genoserotypisierung integriert diese Ressource sequenzbasierte Typisierungsanalysen für: Multi-Locus Sequence Typing (MLST), ribosomale MLST (rMLST) und Core Genom MLST (cgMLST). Google Chrome wird empfohlen Firefox wird ebenfalls unterstützt, aber die SVG-Visualisierungen in dieser App sind möglicherweise nicht so reaktionsschnell. Internet Explorer wird nicht unterstützt.

        FSFinder2 (FRamenverschiebung Signal Finder) - Programmiertes ribosomales Frameshifting ist an der Expression bestimmter Gene aus einer Vielzahl von Organismen wie Viren, Bakterien und Eukaryoten einschließlich des Menschen beteiligt. Beim programmierten Frameshifting wechselt das Ribosom als Reaktion auf ein spezielles Signal in einer Boten-RNA zu einem alternativen Frame an einer bestimmten Stelle. Programmierte Rasterverschiebung spielt eine Rolle bei der Morphogenese viraler Partikel, der autogenen Kontrolle und alternativen enzymatischen Aktivitäten. Der übliche Frameshift ist ein -1 Frameshift, bei dem das Ribosom ein einzelnes Nukleotid stromaufwärts verschiebt. Die Hauptelemente des -1 Frameshifting bestehen aus einer rutschigen Stelle, an der das Ribosom die Leserahmen ändert, und einer stimulierenden RNA-Struktur wie Pseudoknoten oder Stammschleife, die sich einige Nukleotide stromabwärts befindet. +1 Frameshifts sind viel seltener als -1 Frameshifting, werden aber in verschiedenen Organismen beobachtet.

        InBase, The Intein Database and Registry - Protein-Spleißen ist definiert als das Herausschneiden einer dazwischenliegenden Proteinsequenz (INTEIN) aus einem Proteinvorläufer und die gleichzeitige Ligation der flankierenden Proteinfragmente (die EXTEINS), um ein reifes Extein-Wirtsprotein und die freies Intein (Perler 1994). Das Spleißen von Proteinen führt zu einer nativen Peptidbindung zwischen den ligierten Exteinen. Dies ist eine Datenbank-Site, die eine BLAST-Analyse ermöglicht. (Referenz: Perler, F. B. 2002. Nucleic Acids Res. 30: 383-384).

        P2RP (Predicted Prokaryotic Regulatory Proteins) – Benutzer können Aminosäure- oder genomische DNA-Sequenzen eingeben und vorhergesagte Proteine ​​darin werden auf den Besitz von DNA-bindenden Domänen und/oder Zweikomponenten-Systemdomänen gescannt. Auf diese Weise identifizierte RPs werden in Familien kategorisiert und eindeutig kommentiert. (Referenz: Barakat M, et al. 2013. BMC Genomics 14:269).

        P2CS (Prokaryotic 2-Component Systems) ist eine umfassende Ressource für die Analyse von prokaryotischen Zweikomponentensystemen (TCS). TCS bestehen aus einer Rezeptor-Histidin-Kinase (HK) und einem Partner-Response-Regulator (RR) und kontrollieren wichtige prokaryontische Verhaltensweisen. Es kann mit BLASTP gesucht werden. (Referenz: P. Ortet et al. 2015. Nucl. Acids Res. 43 (D1): D536-D541).

        COG-Analyse - CGlanz von Örthologe gGruppen - Die COG-Proteindatenbank wurde durch den Vergleich vorhergesagter und bekannter Proteine ​​in allen vollständig sequenzierten mikrobiellen Genomen erstellt, um Sätze von Orthologen abzuleiten. Jedes COG besteht aus einer Gruppe von Proteinen, von denen festgestellt wurde, dass sie in mindestens drei Abstammungslinien ortholog sind und wahrscheinlich einer alten konservierten Domäne (CloVR) entspricht. Zu den Websites, die diese Analyse anbieten, gehören:

        WebMGA (Referenz: S. Wu et al. 2011. BMC Genomics 12:444), RAST (Referenz: Aziz RK et al. 2008. BMC Genomics 9:75) und BASys (Bartikel EINAnmerkung SSystemreferenz: Van Domselaar GH et al. 2005. Nukleinsäuren Res. 33(Webserverproblem):W455-459.) und JGI IMG (ichintegriert mmikrobiell gEnome Referenz: Markowitz VM et al. 2014. Nukl. Säuren Res. 42: D560-D567. )

        Andere Seiten:

        EggNOG - Eine Datenbank orthologer Gruppen und funktionaler Anmerkungen, die abgeleitet werden nonsupervised Örthologe gGruppen (NOGs) aus vollständigen Genomen und wendet dann eine umfassende Charakterisierungs- und Analysepipeline auf die resultierenden Genfamilien an. (Referenz: Powell S et al. 2014. Nucleic Acids Res. 42 (D1): D231-D239

        OrthoMCL - ist ein weiterer Algorithmus zum Gruppieren von Proteinen in Ortholog-Gruppen basierend auf ihrer Sequenzähnlichkeit. Der Prozess dauert normalerweise zwischen 6 und 72 Stunden. (Referenz: Fischer S et al. 2011. Curr Protoc Bioinformatics Kapitel 6: Einheit 6.12.1-19).

        KAAS (KEI EINautomatisch EINAnmerkung Server) bietet eine funktionale Annotation von Genen durch BLAST- oder GHOST-Vergleiche mit der manuell kuratierten KEGG GENES-Datenbank. Das Ergebnis enthält KO-Zuordnungen (KEGG Orthology) und automatisch generierte KEGG-Pfade. (Referenz: Moriya Y et al. 2007. Nucleic Acids Res. 35(Webserverproblem):W182-185).

        ResFinder (Erworbener antimikrobieller Resistenzgenfinder) - verwendet BLAST zur Identifizierung erworbener antimikrobieller Resistenzgene in Gesamtgenomdaten. Als Input kann die Methode sowohl vorgefertigte, vollständige oder partielle Genome als auch kurze Sequenz-Reads von vier verschiedenen Sequenzierungsplattformen verwenden. Getestet mit 1411 verschiedenen Resistenzgenen mit 100% Identität. (Referenz: Zankari E et al. 2012. J Antimicrob Chemother. 67:2640-2644)

        ARG-ANNOT (EINAntibiotikum RWiderstand gen-ANMERKUNGation) ist ein neues Werkzeug, das entwickelt wurde, um bestehende und mutmaßliche neue Antibiotikaresistenzgene (AR) in bakteriellen Genomen zu erkennen. ARG-ANNOT verwendet ein lokales Sprengprogramm in der Bio-Edit-Software, das es dem Benutzer ermöglicht, Sequenzen ohne Webschnittstelle zu analysieren (Referenz: Gupta, S.K. et al. 2014. Antimicrob Agents Chemother. 58: 212&ndash220).

        KARTE (Die Cumfassend EINAntibiotikum RWiderstand Database) - eine streng kuratierte Sammlung bekannter Resistenzdeterminanten und zugehöriger Antibiotika, organisiert von den Antibiotic Resistance Ontology (ARO)- und AMR-Gendetektionsmodellen (Referenz: Jia, B. et al. 2017. Nucleic Acids Research, 45: D566-573).

        MEGARes - ist eine von Hand kuratierte Datenbank und Anmerkungsstruktur für antimikrobielle Resistenzen, die eine Grundlage für die Entwicklung von azyklischen Hochdurchsatz-Klassifikatoren und hierarchischen statistischen Analysen von Big Data bietet (Referenz: Lakin, S.N. et al. 2017. Nucleic Acids Research, 45: D574-D580 ) .

        BacMet (AntiBacteriales Biozid & Getroffenal Resistance Genes Database) - eine Datenbank von Biozid- und Metallresistenzgenen mit sehr zuverlässigem Inhalt. In BacMet Version 1.1 enthält die experimentell bestätigte Datenbank 704 Resistenzgene, während die vorhergesagte Datenbank 40.556 Resistenzgene enthält (Referenz: Pal, C. et al. 2014. Nucleic Acids Research, 42: D737-743) .

        Spezialisierte Annotation - CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats):

        CRISPRfinder - ermöglicht die einfache Erkennung von CRISPRs in lokal produzierten Daten und die Abfrage der in der Datenbank vorhandenen CRISPRs. Es gibt auch Informationen über das Vorhandensein von CRISPR-assoziierten (cas) Genen, wenn sie als solche annotiert wurden. . (Referenz: I. Grissa et al. 2007. Nucl. Acids Res. 35 (Problem mit dem Webserver): W52-W57).

        CRISPRmap -bietet einen schnellen und detaillierten Einblick in die Wiederholungskonservierung und Diversität von bakteriellen und archaealen Systemen. Es umfasst den bisher größten Datensatz von CRISPRs und ermöglicht umfassende unabhängige Clustering-Analysen, um konservierte Sequenzfamilien, potenzielle Strukturmotive für Endoribonukleasen und evolutionäre Beziehungen zu bestimmen. (Referenz: S.J. Lange et al. 2013. Nucleic Acids Research, 41: 8034-8044).

        CRISPI: eine interaktive CRISPR-Datenbank – enthält ein vollständiges Repertoire der assoziierten CRISPR-assoziierten Gene (CAS). Eine benutzerfreundliche Weboberfläche mit vielen grafischen Tools und Funktionen ermöglicht es Benutzern, Ergebnisse zu extrahieren, CRISPR in persönlichen Sequenzen zu finden oder Sequenzähnlichkeiten mit Spacern zu berechnen. (Referenz: Rousseau C et al. 2009. Bioinformatics. 25: 3317&ndash3318).

        CRISPRTarget - das die wahrscheinlichsten Ziele von CRISPR-RNAs vorhersagt. Dies kann verwendet werden, um Ziele in neu sequenzierten genomischen oder metagenomischen Daten zu entdecken. (Referenz: Biswas A et al. 2013. RNA Biol. 10:817-827).

        CRISPy-web - ist ein einfach zu bedienendes Web-Tool basierend auf CRISPy, um sgRNAs für jedes vom Benutzer bereitgestellte mikrobielle Genom zu entwerfen. Mit CRISPy-web können Forscher interaktiv eine Region ihres Genoms von Interesse auswählen, um nach möglichen sgRNAs zu suchen. Nach Überprüfungen auf potenzielle Off-Target-Übereinstimmungen werden die resultierenden sgRNA-Sequenzen grafisch angezeigt und können in Textdateien exportiert werden. (Referenz: K. Blin et al. 2016. Synthetic and Systems Biotechnology 1(2): 118-121).

        Spezialisierte Annotation - Virulenzdeterminanten: Dies ist insbesondere für diejenigen interessant, die an Bakteriophagen für die Therapie arbeiten

        VirulenzFinder (Dänische Technische Universität) &ndash Identifizierung von Virulenzgenen. Die Methode verwendet BLAST zur Identifizierung bekannter Virulenzgene in Escherichia coli. Die Methode wird erweitert, um auch Virulenzgene für Enterokokken und Staphylococcus aureus. Als Input kann die Methode sowohl vorgefertigte, vollständige oder partielle Genome als auch kurze Sequenz-Reads von vier verschiedenen Sequenzierungsplattformen verwenden.

        ClanTox: ein Klassifikator für kurze Tiertoxine - sagt voraus, ob jede Sequenz Toxin-ähnlich ist und liefert eine Rangliste positiv vorhergesagter Kandidaten nach statistischer Konfidenz. Für jedes Protein werden zusätzliche Informationen präsentiert, einschließlich der Anwesenheit eines Signalpeptids, der Anzahl der Cysteinreste und der zugehörigen funktionellen Anmerkungen. (Referenz: G. Naamati et al. 2009. Nucleic Acids Res. 37 (Problem mit dem Webserver): W363&ndashW368).

        t3db die Toxin- und Toxinzieldatenbank - kombiniert detaillierte Toxindaten mit umfassenden Informationen zu Toxinzielen. Die Datenbank enthält derzeit 3.053 Toxine, die mit 1.670 entsprechenden Toxinzieldatensätzen verknüpft sind. Jeder Toxineintrag (ToxCard) enthält über 50 Datenfelder und enthält Informationen wie chemische Eigenschaften und Deskriptoren, Toxizitätswerte, molekulare und zelluläre Wechselwirkungen sowie medizinische Informationen. (Referenz: Lim E et al. 2010. Nucleic Acids Res. 38 (Datenbankproblem): D781-786).

        TAfinder 2.0 - ist ein webbasiertes Tool zur Identifizierung von Typ-II-Toxin-Antitoxin-Loci im bakteriellen Genom (Referenz: Xie Y et al. (2018) Nucleic Acids Res. 46(D1): D749-D753 ).

        DBETH Database of Bacterial ExoToxins for Humans ist eine Datenbank mit Sequenzen, Strukturen, Interaktionsnetzwerken und Analyseergebnissen für 229 Exotoxine aus 26 verschiedenen humanpathogenen Bakteriengattungen. Alle Toxine werden in 24 verschiedene Toxinklassen eingeteilt. Ziel von DBETH ist es, eine umfassende Datenbank für humanpathogene bakterielle Exotoxine bereitzustellen. (Referenz: Chakraborty A et al. 2012. Nucleic Acids Res. 40 (Datenbankproblem): D615-620).

        VFDB - ist eine integrierte und umfassende Datenbank von Virulenzfaktoren für bakterielle Krankheitserreger (einschließlich Chlamydien und Mykoplasmen). (Referenz: L. H. Chen et al. 2012. Nucleic Acids Res. 40 (Datenbankproblem): D641-D645).

        BEZAHLT (Pathogenität ichVerleumdung Dan einerBase) - Pathogenitätsinseln (PAIs) und Resistenzinseln (REIs) sind der Schlüssel zur Evolution von Krankheitserregern und scheinen im Prozess der bakteriellen Infektion komplementäre Rollen zu spielen. Während PAIs die Krankheitsentwicklung fördern, bieten REIs dem Wirt einen Fitnessvorteil gegenüber mehreren antimikrobiellen Wirkstoffen. Ein Zusatzprogramm, PAI Finder, identifiziert PAI-ähnliche Regionen oder REI-ähnliche Regionen in einer Abfrage mit mehreren Sequenzen. (Referenz: S.H. Yoon et al. 2015. Nucl. Acids Res. 43 (D1): D624-D630).

        IslandViewer - enthält ein neues interaktives Genom-Visualisierungstool, IslandPlot, und erweiterten Virulenzfaktor, antimikrobielle Resistenzgene und Pathogen-assoziierte Genannotationen sowie Homologe dieser Gene in eng verwandten Genomen. Insbesondere werden unvollständige Genome als Eingabe in IslandViewer 3 akzeptiert, obwohl sie die Benutzer dringend auffordern, nach Möglichkeit vollständige Genome zu verwenden. (Referenz: B.K. Dhillon et al. 2015. Nucl. Acids Res. 43 (W1): W104-W108).

        Gypsy Database - eine offen editierbare Datenbank über die evolutionäre Verwandtschaft von Viren, mobilen genetischen Elementen (MGEs Ty3/Gypsy, Retroviridae, Ty1/Copia und Bel/Pao LTR Retroelemente und die Caulimoviridae Pararetroviren von Pflanzen) und andere genomische Wiederholungen. Ausgerüstet für BLAST- und HMM-Suchen. (Referenz: Llorens, C et al. 2011. Nucl. Acids Res. 39(Zusatz 1): D70-D74).

        PanDaTox (Pfanne Genomik Database für genomische Elemente Toxic to Bacteria) - ist eine Datenbank mit Genen und intergenischen Regionen, die in E. coli nicht klonierbar sind, um die Entdeckung neuer Antibiotika und biotechnologisch nützlicher funktioneller Gene zu unterstützen. Es wurde auch entwickelt, um die Effizienz des Metabolic Engineering zu verbessern. BLAST-Suchfunktion enthalten. (Referenz: Mitai G & Sorek R. 2012. Bioengineered, 3: 218-221.)

        PathogenFinder (prognostiziert pathogenes Potenzial) &ndash Basierend auf vollständigen Genomen von 513 als humanpathogen annotierten Bakterien und 372 als humanpathogen annotierten Bakterien wurde eine Datenbank von Proteinfamilien erstellt, die entweder hauptsächlich mit nicht-pathogenen oder mit Pathogenen assoziiert sind. Diese Datenbank wird dann verwendet, um das pathogene Potenzial von Bakterien vorherzusagen. Als Input kann die Methode sowohl vorgefertigte, vollständige oder partielle Genome als auch kurze Sequenz-Reads von vier verschiedenen Sequenzierungsplattformen verwenden. (Referenz: Cosentino S et al. 2013. PLoS ONE 8: e77302)

        VirulentPred - ist eine SVM-basierte Methode zur Vorhersage bakterieller virulenter Proteinsequenzen, die zum Screening virulenter Proteine ​​in Proteomen verwendet werden kann. Zusammen mit experimentell verifizierten virulenten Proteinen wurden mehrere mutmaßliche, nicht annotierte und hypothetische Proteinsequenzen durch das Vorhersageverfahren als hoch bewertete virulente Proteine ​​vorhergesagt. (Referenz: Garg A & Gupta G. 2008. BMC Bioinformatics 9: 62).

        Das Sekretionssystem vom Typ III (T3SS) ist ein wesentlicher Mechanismus für die Wirt-Erreger-Interaktion im Infektionsprozess. Die Proteine, die durch die T3SS-Maschinerie vieler gramnegativer Bakterien sezerniert werden, sind als T3SS-Effektoren (T3SEs) bekannt.Diese können entweder subzellulär im Wirt lokalisiert sein oder Teil der Nadelspitze des T3SS sein, die direkt mit der Wirtsmembran interagiert, um andere Effektoren in die Zielzelle zu bringen. T3SEdb stellt einen solchen Versuch dar, eine umfassende Datenbank aller experimentell bestimmten und mutmaßlichen T3SEs in einer Web-zugänglichen Site zusammenzustellen. BLAST-Suche ist verfügbar. (Referenz: Tay DM et al. 2010. BMC Bioinformatics. 11 Ergänzung 7:S4).

        Wirksam (Universität Wien, Österreich & Technische Universität München, Deutschland) - Bakterielle Proteinsekretion ist der wichtigste Virulenzmechanismus symbiotischer und pathogener Bakterien. Dabei werden Effektorproteine ​​aus dem bakteriellen Zytosol in das extrazelluläre Medium oder direkt in die eukaryontische Wirtszelle transportiert. Das Effective Portal bietet vorberechnete Vorhersagen zu bakteriellen Effektoren in allen öffentlich zugänglichen pathogenen und symbiontischen Genomen sowie die Möglichkeit für den Benutzer, Effektoren in eigenen Proteinsequenzdaten vorherzusagen.

        SIEVE Server ist ein öffentliches Webtool zur Vorhersage von Typ-III-sekretierten Effektoren. Der SIEVE Server bewertet potenzielle sekretierte Effektoren aus Genomen bakterieller Pathogene mit Typ III-Sekretionssystemen unter Verwendung eines Modells, das aus bekannten sekretierten Proteinen gelernt wurde. Der SIEVE Server erfordert nur das Screening von Proteinsequenzen von Proteinen und gibt eine konservative Wahrscheinlichkeit zurück, dass jedes Inputprotein ein sezernierter Effektor vom Typ III ist. (Referenz: McDermott JE et al. 2011. Infect Immun. 79:23-32).

        T3SE - Typ-III-Sekretionssystem-Effektor-Vorhersage (Referenz: Löwer M, & Schneider G. 2009. PLoS One. 4:e5917. Erratum in: PLoS One. 20094(7).

        Phage_Finder - wurde entwickelt, um Prophagenregionen in abgeschlossenen Bakteriengenomen zu identifizieren. Anhand eines Testdatensatzes von 42 Bakteriengenomen, deren Prophagen manuell identifiziert wurden, Phage_Finder fanden 91 % der Regionen, was zu 7 % falsch positiven und 9 % falsch negativen Prophagen führte. Eine Suche von 302 vollständigen Bakteriengenomen sagte 403 mutmaßliche Prophagenregionen voraus, die 2,7% der gesamten bakteriellen DNA ausmachen. Die Analyse der 285 mutmaßlichen Bindungsstellen ergab, dass tRNAs etwas häufiger (33%) Ziele für die Integration sind als intergene (31%) oder intragene (28%) Regionen, während tmRNAs in 8% der Regionen gezielt wurden. (Referenz: D. E. Fouts. 2006. Nucleic Acids Res. 34: 5839 &ndash 5851).

        Prophinder - ist das Werkzeug zum Nachweis von Prophagen in bakteriellen Genomen. Wählen Sie eine GenBank-formatierte Datei aus.

        PHAST (PHAge Sohren Tool) - wurde entwickelt, um Prophagensequenzen in bakteriellen Genomen oder Plasmiden schnell und genau zu identifizieren, zu kommentieren und grafisch darzustellen. Es akzeptiert entweder DNA-Rohdaten oder teilweise annotierte GenBank-formatierte Daten und führt schnell eine Reihe von Datenbankvergleichen sowie Schritte zur Identifizierung von Phagen-&ldquocornerstone&rdquo-Features durch, um Prophagensequenzen und -merkmale zu lokalisieren, zu kommentieren und anzuzeigen. Im Vergleich zu anderen Prophagen-Identifikationstools ist PHAST bis zu 40-mal schneller und bis zu 15 % empfindlicher. Es ist auch in der Lage, sowohl Roh-DNA-Sequenzdaten als auch Genbank-Dateien zu verarbeiten und mit Anmerkungen zu versehen, reich kommentierte Tabellen zu Prophagen-Merkmalen und Prophagen &ldquoquality&rdquo zu liefern und zwischen intakten und unvollständigen Prophagen zu unterscheiden. PHAST generiert auch herunterladbare, qualitativ hochwertige, interaktive Grafiken, die alle identifizierten Prophagenkomponenten sowohl in zirkulärer als auch in linearer genomischer Ansicht darstellen. Darüber hinaus zeigen Tests, dass PHAST mit einer Sensitivität von 85,4% genauso genau oder etwas genauer ist als alle verfügbaren Phagen-Suchtools und positiver Vorhersagewert von 94,2 %. (Referenz: Zhou, Y. et al. 2011. Nucl. Acids Res. 39(Zusatz 2): W347-W352).

        PHASTER PHAge Sohren Tool Everbessert Release - ist ein bedeutendes Upgrade von PHAST für die schnelle Identifizierung und Annotation von Prophagensequenzen in bakteriellen Genomen und Plasmiden. Zahlreiche Software-Verbesserungen und signifikante Hardware-Erweiterungen haben PHASTER nun schneller, effizienter, optisch ansprechender und deutlich benutzerfreundlicher gemacht. Insbesondere ist PHASTER jetzt 4,3x schneller als PHAST. (Referenz: D. Arndt et al. Nucleic Acids Res. 2016 44(W1):W16-21).

        Prophagen Hunter - bietet einen Webservice aus einer Hand, um Prophagengenome aus bakteriellen Genomen zu extrahieren, die Aktivität der Prophagen zu bewerten, phylogenetisch verwandte Phagen zu identifizieren und die Funktion von Phagenproteinen zu kommentieren. (Referenz: Song W et al. (2019) Nucleic Acids Res 47(W1): W74&ndashW80).

        IslandViewer - integriert zwei GI-Vorhersagemethoden für die Sequenzzusammensetzung SIGI-HMM und IslandPath-DIMOB und eine einzige vergleichende GI-Vorhersagemethode IslandPick (Referenz: Langille et al. 2008. BMC Bioinformatics 9: 329).

        BEZAHLT (PAthogenität ichVerleumdung Dan einerBase) hat sich bemüht, bekannte PAIs zu sammeln und die potentiellen PAI-Regionen in den prokaryotischen vollständigen Genomen nachzuweisen. Pathogenitätsinseln (PAIs) sind verschiedene genetische Elemente von Krankheitserregern, die für verschiedene Virulenzfaktoren kodieren. (Referenz: Yoon SH et al. 2007. Nucleic Acids Res. 35 (Datenbankproblem): D395-D400).

        MTGIpick kann genomische Inseln aus einem einzelnen Genom identifizieren, ohne annotierte Genominformationen oder Vorkenntnisse aus anderen Datensätzen. In Simulationen mit außerirdischen Fragmenten aus künstlichen und echten Genomen berichtete MTGIpick über robuste Ergebnisse in verschiedenen Experimenten (Referenz: Dai Q et al. (2018) Brief Bioinform 19(3): 361-373).


        SyntTax - ist ein Webserver, der Synteny mit der prokaryotischen Taxonomie verbindet. SyntTax enthält einen vollständigen hierarchischen taxonomischen Baum, der einen intuitiven Zugriff auf alle vollständig sequenzierten Prokaryoten (Archaea und Bakterien) ermöglicht. Einzelne oder mehrere Organismen können aufgrund ihrer Abstammung ausgewählt werden, indem die entsprechenden Rangknoten im Baum ausgewählt werden. Dies ist mein Favorit unter den Synteny-Programmen (Referenz: Oberto J. 2013. BMC Bioinformatics. 14:4). Die folgenden Ergebnisse wurden unter Verwendung des Hitzeschock-Sigma-Faktors (RpoH) von Salmonella typhimurium gegen das Pseudomonaden.

        Cinteny Server zur Synteny-Identifikation und Analyse der Genomumlagerung (A. U. Sinha &. J. Meller, University of Cincinnati, USA) - Dieser Server kann verwendet werden, um über mehrere Genome hinweg syntenische Regionen zu finden und das Ausmaß der Genomumlagerung unter Verwendung der Umkehrdistanz als Maß zu messen. Sie können ein Projekt erstellen und Ihre eigenen Daten hochladen oder mit vorinstallierten Prokaryonten- oder Eukaryonten-Daten arbeiten.

        SimpleSynteny - bietet eine Pipeline zur Bewertung der Syntenie eines vorausgewählten Satzes von Genzielen über mehrere Organismengenome hinweg. Es wurde Wert auf Benutzerfreundlichkeit gelegt, und Benutzer müssen nur FASTA-Dateien für ihre Genome und interessierenden Gene einreichen. SimpleSynteny führt den Benutzer dann durch einen iterativen Prozess, bei dem Genome einzeln untersucht und angepasst werden, bevor sie zu einer endgültigen hochauflösenden Figur kombiniert werden. (Referenz: Veltri D et al. 2016. Nucleic Acids Res. 44(Webserver-Problem): W41&ndashW45).

        Synteny-Portal - Benutzer von eukaryotischen Genomen können leicht (i) Synteny-Blöcke zwischen mehreren Arten konstruieren, indem sie vorgefertigte Alignments in der UCSC-Genom-Browser-Datenbank verwenden, (ii) syntenische Beziehungen als hochwertige Bilder visualisieren und herunterladen, (iii) Synteny-Blöcke mit genetischen . durchsuchen Informationen und (iv) Herunterladen der Details von Synteny-Blöcken, die als Eingabe für nachgelagerte synteny-basierte Analysen verwendet werden sollen, alles in einer intuitiven und benutzerfreundlichen webbasierten Schnittstelle. (Referenz: Lee J et al. 2016. Nucleic Acids Res 44(W1): W35&ndashW40).

        AutoGRAPH ist ein integrierter Webserver für die vergleichende Genomanalyse mehrerer Arten. Es dient zur Erstellung und Visualisierung von Synteniekarten zwischen zwei oder drei Arten, zur Bestimmung und Darstellung von Makrosyntenie- und Mikrosyntenie-Beziehungen zwischen Arten und zum Hervorheben von evolutionären Breakpoints.
        Der Webserver erstellt Synteny Maps durch paarweisen Vergleich von Marker-/Ankerordnungen zwischen einem Referenzchromosom und einem oder zwei getesteten Genom(en). Es ermöglicht Benutzern, verschiedene Funktionen zu visualisieren und zu charakterisieren: Conserved Segments (CS), Conserved Segments Ordered (CSO) und Breakpoints. (Referenz: Derrien T et al. 2007. Bioinformatik 23:498-499).

        Sibelien (Universität von Kalifornien San Diego, USA) - ist ein Werkzeug zum Auffinden von Syntenieblöcken in mehreren eng verwandten mikrobiellen Genomen unter Verwendung von iterativen de Bruijn-Graphen. Im Gegensatz zu den meisten anderen Tools kann Sibelia Synteny-Blöcke finden, die innerhalb von Genomen wiederholt werden, sowie Blöcke, die von mehreren Genomen geteilt werden. Es stellt Synteny-Blöcke in einer hierarchischen Struktur mit mehreren Schichten dar, von denen jede eine andere Granularität darstellt.

        Kablammo hilft Ihnen, interaktive Visualisierungen von BLAST-Ergebnissen über Ihren Webbrowser zu erstellen. Finden Sie Ihre interessantesten Ausrichtungen, listen Sie detaillierte Parameter für jede auf und exportieren Sie ein publikationsfähiges Vektorbild. Unglaublich einfach zu bedienen - hier die Ergebnisse für einen BLASTN-Vergleich zu Escherichia Phagen T1 (Abfrage) und ADB-2. (Referenz: Wintersinger JA et al. Bioinformatik 31:1305-1306).


        M1CR0B1AL1Z3R - ist ein "One-Stop-Shop" für die Durchführung von mikrobiellen Genomik-Datenanalysen über eine einfache grafische Benutzeroberfläche. Einige der in M1CR0B1AL1Z3R implementierten Funktionen sind: (i) Extraktion mutmaßlicher offener Leserahmen und vergleichende genomische Analyse des Geninhalts (ii) Extraktion orthologer Sets und Analyse ihrer Größenverteilung (iii) Analyse von Genpräsenz-Abwesenheitsmustern (iv) Rekonstruktion einer phylogenetischen Baum basierend auf dem extrahierten orthologen Satz (v) der GC-Gehaltsvariation zwischen den Abstammungslinien herleitet. M1CR0B1AL1Z3R erleichtert die Gewinnung und Analyse von Dutzenden von Bakteriengenomen mit fortschrittlichen Techniken. (Referenz: Avram O et al. (2019) Nucleic Acids Res. 47(W1): W88-W92).

        GeneOrder 4.0 (D. Seto, Bioinformatik und Computerbiologie, George Mason Univ., USA) wurde entwickelt, um die Genreihenfolge zwischen zwei bakteriellen Genomen zu vergleichen (Referenz: Mahadevan P. & Seto D. 2010. BMC Research Notes 3:41).
        CoreGenes (D. Seto und P. Mahadevan, Bioinformatik und Computerbiologie, George Mason Univ., USA) - zählt die Gesamtzahl der gemeinsamen Gene zwischen den beiden zu vergleichenden Genomen zeigt den prozentualen Wert der Gene an, die mit einem bestimmten Genom gemeinsam sind bestimmt die einzigartigen Gene, die in einem Proteompaar enthalten sind. CoreGenes 3.5 ist der Batch-CoreGenes-Server. Ich habe diese Ressourcen bei der Klassifizierung bakterieller Viren ausgiebig verwendet.

        Wenn Sie eine gbk-Datei für einen Phagen haben, die noch nicht in der GenBank hinterlegt wurde, können Sie mit dieser Anleitung Ihre Daten in das CoreGenes-Format umwandeln und hier verwenden.

        WebACT - Dies ist die Webversion von ACT (Artemis Comparison Tool), einem auf Artemis basierenden DNA-Sequenzvergleichs-Viewer (Referenz: 21: 3422 - 3423 Besuchen Sie die Datenbankseite von EMBL-EBI und wählen Sie EMBL und "Standard Query Form", um die EMBL-Zugangsnummer für die gewünschte Sequenz zu ermitteln.

        Panseq (Chad Laing, kanadische Gesundheitsbehörde) - eine Gruppe von Werkzeugen für die Analyse des 'Pan-Genoms' einer Gruppe von Genomsequenzen. Das Pangenom einer Bakterienart besteht aus einem Kerngenom und einem akzessorischen Genpool, wobei letzterer Subpopulationen des Organismus die Anpassung an bestimmte Umgebungen ermöglicht. Dazu gehört der Novel Region Finder, der Sequenzen findet, die für einen Stamm oder eine Stammgruppe in Bezug auf einen anderen Stamm oder eine Stammgruppe einzigartig sind. Die Pan-Genom-Analyse identifiziert das Pan-Genom unter Ihren Sequenzen und findet SNPs im Kerngenom und bestimmt die Verteilung der akzessorischen Genomregionen. Loci Selector identifiziert Loci, die die beste Unterscheidung zwischen Ihrem Datensatz bieten. (Referenz: Laing, C. et al. 2010. BMC Bioinformatics. 11: 461).

        PARIGA - ermöglicht es Benutzern, BLAST-Suchen mit zwei Sätzen von Sequenzen durchzuführen, die vom Benutzer ausgewählt werden. Da die beiden BLAST-Ausgaben in einer Python-serialized-Objects-Datenbank gespeichert werden, können die Ergebnisse außerdem nach mehreren Parametern in Echtzeit gefiltert werden, ohne den Prozess erneut auszuführen und zusätzlichen Programmieraufwand zu vermeiden. (Referenz: Orsini M. et al. 2013. PLoS One 8(5):e62224).

        EDGAR (Etüchtig Datbase-Framework für vergleichende genom EINAnalysen mit BLAST-Score Ratios) - EDGAR wurde entwickelt, um Genomvergleiche in einem Hochdurchsatz-Ansatz automatisch durchzuführen und kann für die Kerngenom-, Pan-Genom- und Singleton-Analyse sowie die Konstruktion von Venn-Diagrammen verwendet werden. (Referenz: Blom J. et al. 2009. BMC Bioinformatics 10: 154).

        OrthoVenn - ist ein Webserver für den genomweiten Vergleich und die Annotation orthologer Cluster über mehrere Arten hinweg. Es deckt Wirbeltiere, Metazoen, Protisten, Pilze, Pflanzen und Bakterien für den Vergleich orthologer Cluster ab und unterstützt auch das Hochladen benutzerdefinierter Proteinsequenzen von benutzerdefinierten Arten. Als Teil des OrthoVenn-Ergebnisses werden ein interaktives Venn-Diagramm, zusammenfassende Zählungen und funktionale Zusammenfassungen der Disjunktion und Schnittmenge von Clustern angezeigt, die zwischen Arten geteilt werden. OrthoVenn enthält auch detaillierte Ansichten der Cluster mit verschiedenen Sequenzanalysewerkzeugen. Darüber hinaus identifiziert es orthologe Cluster von Single-Copy-Genen und ermöglicht eine maßgeschneiderte Suche nach Clustern spezifischer Gene anhand von Schlüsselwörtern oder BLAST. (Referenz: Y. Yang et al. 2015. Nucl. Acids Res. 43 (W1): W78-W84). Auch hier zu finden.

        BEACON ist ein Softwaretool, das Annotationen eines bestimmten Genoms aus verschiedenen Annotation Methods (AMs) vergleicht. Es verwendet das GenBank-Format als Eingabe und leitet Extended Annotation (EA) ab, neben der Originalannotationen von einzelnen AMs aufgelistet werden. (Referenz: Kalkatawi M, BMC Genomics. 201516(1): 1-8).

        ANI (EINDurchschnitt nUcleotid ichDentity)-Rechner - schätzt die durchschnittliche Nukleotididentität unter Verwendung sowohl der besten Treffer (Einweg-ANI) als auch der reziproken besten Treffer (Zweiweg-ANI) zwischen zwei genomischen Datensätzen. Typischerweise liegen die ANI-Werte zwischen Genomen derselben Spezies über 95 % (z. B. Escherichia coli). Werten unter 75% ist nicht zu trauen, stattdessen sollte AAI verwendet werden. Dieses Tool unterstützt sowohl vollständige als auch Entwurfsgenome (multi-fasta). (Referenz: Goris J et al. 2007. Int J Syst Evol Microbiol. 57 (Teil 1): 81-91).

        Average Nucleotide Identity (ANI) -Rechner - ihr ANI-Rechner verwendet den OrthoANIu-Algorithmus, eine verbesserte Iteration des ursprünglichen OrthoANI-Algorithmus, der USEARCH anstelle von BLAST verwendet (Referenz: Yoon, S. H. et al. (2017). Antonie van Leeuwenhoek. 110:1281, 1286).

        VIRIDISCH (Viruns ichintergenomisch DiHaltung CRechner C. Moraru, Institut für Chemie und Biologie der Meeresumwelt, Deutschland) - Die erste Stufe der Bakteriophagen-Klassifizierung durch ICTV umfasst die Berechnung der Gesamtidentität der DNA-Sequenz zwischen zwei Viren. Dieses neue Tool berechnet paarweise intergenomische Abstände/Ähnlichkeiten zwischen Phagengenomen. Um es auszuführen, laden Sie eine einzelne Fasta-Datei mit allen interessierenden Phagengenomen hoch, erstellen Sie ein Projekt und klicken Sie auf Ausführen. Speichern Sie die Projekt-ID, die beim Erstellen des Projekts angezeigt wird. Sie benötigen es, um auf die Daten zuzugreifen, wenn die Berechnungen lange dauern.

        GGDC (genome-zu-genom DPosition Calculator) - bietet Methoden zum Ableiten von Gesamtgenom-Abständen, die eine DNA-DNA-Hybridisierung (DDH) gut nachahmen können. Mit GGDC berechnete Werte ergeben eine etwas bessere Korrelation mit Nasslabor-DDH-Werten als alternative Ansätze wie "ANI". Diese Distanzfunktionen kommen auch mit stark reduzierten Genomen und repetitiven Sequenzbereichen zurecht. Einige von ihnen sind auch sehr robust gegenüber fehlenden Bruchteilen genomischer Informationen (aufgrund unvollständiger Genomsequenzierung). Somit kann dieser Webservice zur genombasierten Artenbeschreibung verwendet werden. (Referenz: Meier-Kolthoff JP et al. 2013. BMC Bioinformatics 14: 60).

        POGO-DB - Basierend auf rechenintensiven Gesamtgenom-BLASTs bietet POGO-DB mehrere Metriken zum paarweisen Genom: (a) Durchschnittliche Aminosäureidentität aller bidirektionalen besten BLAST-Treffer, die mindestens 70% der Sequenz abdeckten und 30 % Sequenzidentität (b) Genomische Fluidität, die die Ähnlichkeit des Gengehalts zwischen zwei Genomen abschätzt (c) Anzahl der Orthologe, die zwischen zwei Genomen geteilt werden (wie durch zwei Kriterien definiert) (d) Paarweise Identität der ähnlichsten 16S rRNA-Gene (e) Paarweise Identität von 73 weiteren global konservierten Markergenen (von denen von uns festgestellt wurde, dass sie in mindestens 90% aller Genome vorkommen). (Referenz: Lan Y et al. 2014. Nucl. Acids Res. 42 (D1): D625-D632).

        SIEGER (Virus CKlassifizierung und Tree Gebäude Önline RRessource Leibniz-Institut DSMZ-Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH). Dieser Webservice vergleicht Bakterien- und Archaeenviren ("Phagen") anhand ihrer Genom- oder Proteomsequenzen. Die Ergebnisse umfassen phylogenomische Bäume, die mit der Methode Genome-BLAST Distance Phylogeny (GBDP) abgeleitet wurden, mit Astunterstützung, sowie Vorschläge für die Klassifizierung auf Arten-, Gattungs- und Familienebene. (Der Dienst kann auch auf andere Arten von Viren angewendet werden, wurde diesbezüglich jedoch noch nicht getestet.) Laden Sie Ihre FASTA-Dateien, GenBank-Dateien und/oder GenBank-Zugangs-IDs hoch. (Referenz: JP Meier-Kolthoff &. M. Göker. 2017. Bioinformatik 33(21): 3396&ndash3404).

        VIRFAM widmet sich der Erkennung von Kopf-Hals-Schwanz-Modulen und von Rekombinase-Genen in Phagengenomen. Sie können diesen Server verwenden, um in Proteinsequenzen von Bakteriophagen nach entfernten Homologen bestimmter Proteinfamilien zu suchen. Eingabe: Proteinsequenzen Ihre Phagenausgabe enthält einen phylogenetischen Baum mit der Platzierung Ihres Virus. (Referenz: Lopes A et al. Nucleic Acids Res. (2010) 38(12): 3952-62).

        Seeker - ist ein Deep-Learning-Tool zur referenzfreien Identifizierung von Phagensequenzen. Seeker ermöglicht den schnellen Nachweis von Phagen in Sequenzdatensätzen und die saubere Unterscheidung von Phagensequenzen von bakteriellen, selbst für Phagen mit geringer Sequenzähnlichkeit zu etablierten Phagenfamilien. Wir validieren umfassend die Fähigkeit von Seeker, unbekannte Phagen zu identifizieren, und setzen Seeker ein, um unbekannte Phagen zu erkennen, von denen einige stark von bekannten Phagenfamilien abweichen. (Referenz: Auslander N et al. (2020) doi.org/10.1101/2020.04.04.025783)

        VipTree – erzeugt einen "proteomischen Baum" viraler Genomsequenzen basierend auf genomweiten Sequenzähnlichkeiten, die durch tBLASTx berechnet wurden. Das ursprüngliche Konzept des Proteomic Tree (d. h. "The Phage Proteomic Tree&rdquo) wurde von Rohwer und Edwards, 2002, entwickelt. Ein Proteomic Tree ist ein Dendrogramm, das globale genomische Ähnlichkeitsbeziehungen zwischen Dutzenden, Hunderten und Tausenden von Viren aufdeckt. Es wurde gezeigt, dass virale Gruppen, die in einem proteomischen Baum identifiziert wurden, gut mit etablierten viralen Taxonomien übereinstimmen. (Referenz: Nishimura Y et al. (2017) Bioinformatik 33: 2379&ndash2380).

        MiGA (Microbial genome EINtlas) - ein Webserver, der die Klassifizierung einer unbekannten genomischen Abfragesequenz, ganz oder teilweise, gegen alle taxonomisch klassifizierten Taxa mit verfügbaren Genomsequenzen sowie Vergleiche mit anderen verwandten Genomen, einschließlich unkultivierter, ermöglicht, basierend auf dem Genomaggregat Average Nucleotide und Konzepte der Aminosäureidentität (ANI/AAI).(Referenz: Rodriguez-R et al. (2018) Nucleic Acids Research 46(W1): W282-W288).

        CGView Server - ist ein vergleichendes Genomik-Tool für zirkuläre Genome, das die Visualisierung von Sequenzmerkmalsinformationen im Kontext von Sequenzanalyseergebnissen ermöglicht. Dem Programm wird eine Genomsequenz im FASTA-, GenBank-, EMBL- oder Raw-Format zugeführt. Es können auch bis zu drei Vergleichssequenzen (oder Sequenzsätze) im FASTA-Format eingereicht werden. Der CGView Server verwendet BLAST, um die Genomsequenz mit den Vergleichssequenzen zu vergleichen, und wandelt dann die Ergebnisse und alle verfügbaren Funktionsinformationen (aus der GenBank, EMBL oder optionale GFF-Datei) oder Analyseinformationen (aus einer optionalen GFF-Datei) in eine hoch- hochwertige grafische Karte, die die gesamte Genomsequenz zeigt, oder eine gezoomte Ansicht einer Region von Interesse. Es stehen mehrere Optionen zur Verfügung, um festzulegen, wie die BLAST-Vergleiche durchgeführt werden, und um zu steuern, wie die Ergebnisse angezeigt werden. (Referenz: Grant JR & Stothard P. 2008. Nucleic Acids Res. 36 (Problem mit dem Webserver): W181-184)

        Jen Prokaryotisch genom Viewer (JPGV) - erzeugt aus einem GenBank Flatfile (*.gbk) lineare oder kreisförmige Plots, die auf Wunsch GC-Gehalt, GC-Skew, Purin-Überschuss und Keto-Überschuss anzeigen können. Ermöglicht auch die BLAST-Analyse gegen verwandte Genome. Erfordert eine kostenlose Registrierung.

        GenomeVx - macht bearbeitbare, publikationsfähige Karten von Mitochondrien- und Chloroplastengenomen und von großen Plasmiden. Diese Karten zeigen die Lage von Genen und chromosomalen Merkmalen sowie eine Positionsskala. Das Programm verwendet als Eingabe entweder rohe Merkmalspositionen oder GenBank-Datensätze. Im letzteren Fall werden Merkmale automatisch extrahiert und eingefärbt, wofür ein Beispiel gegeben wird. Die Ausgabe erfolgt im Adobe Portable Document Format (PDF) und kann von Programmen wie Adobe Illustrator bearbeitet werden. (Referenz: G. Conant & K. Woolfe. 2008. Bioinformatics 24:861-862).

        myGenomeBrowser - ist eine webbasierte Umgebung, die Biologen die Möglichkeit bietet, ihre Genombrowser zu erstellen, abzufragen und zu teilen. Dieses auf JBrowse aufbauende Tool wurde entwickelt, um Benutzern mehr Autonomie zu geben und gleichzeitig die Eingriffe von Systemadministratoren zu vereinfachen und zu minimieren. Sie verfügen über erweiterte Grundfunktionen des Genom-Browsers, damit Benutzer ihre Daten abfragen, analysieren und teilen können. (Referenz: S. Carrere &. J. Gouzy. Bioinformatik (2017) 33 (8): 1255-1257).

        DNAPlotter - ist eine interaktive Java-Anwendung zum Generieren zirkulärer und linearer Darstellungen von Genomen. Es nutzt die Artemis-Bibliotheken, um eine benutzerfreundliche Methode zum Laden von Sequenzdateien (EMBL, GenBank, GFF) sowie von Daten aus relationalen Datenbanken bereitzustellen, und filtert interessante Merkmale, um sie auf separaten benutzerdefinierten Spuren anzuzeigen. Es kann verwendet werden, um Bilder in Publikationsqualität für Papiere oder Webseiten zu erstellen. (Referenz: Carver, T. et al. 2008. Bioinformatics 25:119-120)

        GeneWiz (Zentrum für biologische Sequenzanalyse, Dänische Technische Universität) produziert lineare oder zirkuläre Genomaltasen wie die folgende. Sie haben für die meisten Bakterien fertige Namen, aber durch das Hochladen benutzerdefinierter Daten im GenBank-Format (.gbk) kann man ein eigenes Diagramm erstellen, das die genetischen und physikalischen Eigenschaften Ihres Genoms zeigt.

        OrganellarGenomeDRAW - ist eine Suite von Softwaretools, die es Benutzern ermöglicht, qualitativ hochwertige visuelle Darstellungen von sowohl zirkulären als auch linear annotierten Genomsequenzen zu erstellen, die als GenBank-Dateien oder Zugangsnummern bereitgestellt werden. Obwohl alle Arten von DNA-Sequenzen als Eingabe akzeptiert werden, wurde die Software speziell optimiert, um die Merkmale von organellen Genomen richtig darzustellen. Eine neuere Erweiterung ermöglicht das Plotten quantitativer Genexpressionsdaten, wie Transkript- oder Proteinabundanzdaten, direkt auf die Genomkarte (Referenz: Lohse M, et al. 2013. Nucleic Acids Res. 41(Webserverproblem):W575-81) .

        PlasmaDNA – Beginnend mit einer primären DNA-Sequenz sucht PlasmaDNA nach Restriktionsstellen, offenen Leserahmen, Primer-Annealing-Sequenzen und verschiedenen gemeinsamen Domänen. Die Datenbanken können vom Benutzer leicht erweitert werden, um seine häufigsten Klonanforderungen zu erfüllen. PlasmaDNA kann mehrere Sequenzen gleichzeitig verwalten und grafisch darstellen und behält die Überhänge am Ende der Sequenzen, falls vorhanden, im Gedächtnis. Dies bedeutet, dass es möglich ist, Fragmente virtuell zu verdauen, die Verdauungsprodukte dem Projekt hinzuzufügen und Fragmente mit kompatiblen Enden zusammenzuligieren, um die neuen Sequenzen zu generieren. Ausgezeichnetes Paket für Plasmide. (Referenz: Angers-Loustau A et al. 2007. BMC Mol Biol. 2007 8:77).

        GSDraw (Gene Structure Draw Server) ist ein Webserver für Genfamilien zum Zeichnen von schematischen Genstrukturdiagrammen. Benutzer können Genom-, CDS- und Transkriptsequenzen einreichen. GSDraw verwendet diese Informationen, um die Genstruktur, das Proteinmotiv und den phylogenetischen Baum zu erhalten und dann ein Diagramm dafür zu zeichnen. (Referenz: Wang Y, et al. 2013. Nucleic Acids Res. 41 (Datenbankausgabe): D1159-66).

        GECA ist ein benutzerfreundliches Werkzeug, um die Exon-/Intron-Organisation von Genen darzustellen und Veränderungen in der Genstruktur unter Mitgliedern einer Genfamilie hervorzuheben. Es basiert auf dem Protein-Alignment, das mit der Identifizierung gemeinsamer Introns in den entsprechenden Genen mit CIWOG abgeschlossen wird. GECA erstellt eine grafische Hauptdarstellung, die den resultierenden ausgerichteten Satz von Genstrukturen zeigt, wobei Exons maßstabsgetreu sind. Das wichtige und originelle Merkmal von GECA besteht darin, dass es diese Genstrukturen mit einem symbolischen Display kombiniert, das die Sequenzähnlichkeit zwischen nachfolgenden Genen hervorhebt. Es ist erwähnenswert, dass diese Kombination der Genstruktur mit den Hinweisen auf Ähnlichkeiten zwischen verwandten Genen eine schnelle Identifizierung möglicher Ereignisse des Gewinns oder Verlusts von Introns ermöglicht oder auf fehlerhafte strukturelle Anmerkungen hinweist. Das Ausgabebild wird in einem tragbaren Netzwerkgrafikformat erzeugt, das für wissenschaftliche Publikationen verwendet werden kann. (Referenz: Fawal N, et al. 2012. Bioinformatik 28:1398-9).

        GeneDesign - ist eine ausgezeichnete Ressource für das Design synthetischer Gene. Es enthält Werkzeuge zur Codon-Optimierung und Entfernung von Restriktionsstellen (Referenz: Richarson, S. M. et al. 2006. Genome Research 16: 550-556)

        Orphelia - Orphelia ist ein metagenomisches ORF-Suchwerkzeug zur Vorhersage von proteinkodierenden Genen in kurzen, umweltbedingten DNA-Sequenzen mit unbekannter phylogenetischer Herkunft. Orphelia basiert auf einem zweistufigen Machine-Learning-Ansatz, der kürzlich von unserer Gruppe eingeführt wurde. Nach der anfänglichen Extraktion von ORFs werden lineare Diskriminanten verwendet, um Merkmale aus diesen ORFs zu extrahieren. Anschließend kombiniert ein künstliches neuronales Netz die Merkmale und berechnet für jeden ORF in einem Fragment eine Genwahrscheinlichkeit. Eine gierige Strategie berechnet eine wahrscheinliche Kombination von ORFs mit hoher Bewertung mit einer Überlappungsbeschränkung. (Referenz: K. J. Hoff et al. 2009. Nucl. Acids Res. 37(Webserver-Ausgabe: W101-W105).

        WebMGA ist ein anpassbarer Webserver für die schnelle metagenomische Analyse, der über 20 häufig verwendete Tools für Analysen wie ORF-Calling, Sequenz-Clustering, Qualitätskontrolle von Raw-Reads, Entfernung von Sequenzierungsartefakten und Kontaminationen, taxonomische Analyse, funktionale Annotation usw. umfasst. Alle Tools hinter WebMGA wurden so implementiert, dass sie parallel auf unserem lokalen Computercluster laufen. (Referenz: Wu S, et al. 2011. BMC Genomics. 12:444).

        MG-RAST (der Metagenomics RAST)-Server ist eine automatisierte Analyseplattform für Metagenome, die quantitative Einblicke in mikrobielle Populationen basierend auf Sequenzdaten liefert. Der Server bietet in erster Linie Upload, Qualitätskontrolle, automatisierte Annotation und Analyse für prokaryontische metagenomische Schrotflintenproben. (Referenz: Wilke A, et al. 2016. Nucleic Acids Res. 44(D1):D590-4).

        MetaBin Umfassende taxonomische Zuordnung metagenomischer Sequenzen (Laboratory for Integrated Bioinformatics, RIKEN, Japan) Webserver und eigenständiges Programm ermöglichen eine schnellere und genauere taxonomische Zuordnung von Einzel- und Paired-End-Sequenz-Reads unterschiedlicher Länge (&ge45 bp), die von Sanger und next erhalten wurden -Generation-Sequencing-Plattformen. Hat eine Anleitung.

        AmphoraNet - verwendet 31 bakterielle und 104 für Archaeenproteine ​​kodierende Markergene für die metagenomische und genomische Phylotypisierung. Die meisten davon sind Single-Copy-Gene, daher eignet sich AmphoraNet zur Schätzung der taxonomischen Zusammensetzung von Bakterien- und Archaeengemeinschaften aus metagenomischen Shotgun-Sequenzierungsdaten. (Referenz: Kerepesi C, et al. 2014. Gene. 533:538-40).

        METAGENassist - ermöglicht es Benutzern, Bakterienzählungsdaten von verschiedenen Umweltstandorten oder verschiedenen biologischen Wirten zu erfassen und umfassende multivariate statistische Analysen der Daten durchzuführen. Diese multivariaten Analysen können entweder mit taxonomischen oder automatisch generierten phänotypischen Labels durchgeführt und mit einer Vielzahl hochwertiger grafischer Tools visualisiert werden. Die Bakterienzählungsdaten können aus 16S-rRNA-Daten, NextGen-Shotgun-Sequenzierung oder sogar klassischen mikrobiellen Kultivierungstechniken abgeleitet werden. Enthält eine Anleitung. (Referenz: Arndt D, et al. 2012. Nucleic Acids Res. 40(Webserverproblem):W88-95).

        Echtzeit-Metagenomik (Dr. Robert Edwards, San Diego State University, USA) - ist die nächste Revolution in der Metagenom-Annotation: Echtzeit-Datenverarbeitung und -analyse. Endlich können Sie ein Metagenom ohne Wartezeit in Echtzeit kommentieren. Sie können Ihre eigenen Daten zur Analyse hochladen. Sie akzeptieren entweder fasta- oder fastq-Dateien, und Sie können zip- oder gzip-komprimierte Daten bereitstellen.

        EBI Metagenomik (EMBL-EBI) - ist eine automatisierte Pipeline zur Analyse und Archivierung metagenomischer Daten, die Einblicke in die phylogenetische Vielfalt sowie das funktionelle und metabolische Potenzial einer Probe geben soll. Sie können alle öffentlichen Daten im Repository frei durchsuchen. Der Dienst identifiziert rRNA-Sequenzen mithilfe von rRNASelector und führt mithilfe von Qiime taxonomische Analysen von 16S-rRNAs durch. Die verbleibenden Reads werden zur funktionellen Analyse von vorhergesagten Protein-kodierenden Sequenzen unter Verwendung der InterPro-Sequenzanalyse-Ressource eingereicht. InterPro verwendet diagnostische Modelle, um Sequenzen in Familien zu klassifizieren und das Vorhandensein von funktionell wichtigen Domänen und Stellen vorherzusagen. Durch die Nutzung dieser Ressource bietet der Dienst eine leistungsstarke und ausgereifte Alternative zu BLAST-basierten funktionellen metagenomischen Analysen. Die an den EBI Metagenomics-Dienst übermittelten Daten werden automatisch im European Nucleotide Archive (ENA) archiviert. Zugriffsnummern werden für Sequenzdaten bereitgestellt.

        Kaiju - ist eine schnelle und sensible taxonomische Klassifizierung für die Metagenomik, die Nukleotidsequenzen im komprimierten FASTA- oder FASTQ-Format verwendet. Reads werden mithilfe der NCBI-Taxonomie und einer Referenzdatenbank mit Proteinsequenzen aus bakteriellen, archaealen und viralen Genomen direkt Taxa zugeordnet. Kaiju verwendet standardmäßig entweder die verfügbaren vollständigen Genome von NCBI RefSeq oder die mikrobielle Teilmenge der nicht redundanten Proteindatenbank nr, die von NCBI BLAST verwendet wird. Kaiju übersetzt Reads in Aminosäuresequenzen, die dann in der Datenbank mit einer modifizierten Rückwärtssuche auf einer speichereffizienten Implementierung der Burrows-Wheeler-Transformation durchsucht werden, die maximale exakte Übereinstimmungen (MEMs) findet und optional Fehlpaarungen im Protein-Alignment ermöglicht. (Referenz: Menzel P et al. 2016. (Nat. Commun. 7:11257)

        PhyloPythiaS - ist ein schneller und genauer Klassifikator auf der Grundlage der Sequenzzusammensetzung, der die hierarchischen Beziehungen zwischen Kladen nutzt. Taxonomische Zuordnungen mit dem Webserver können mit einem generischen Modell oder mit probenspezifischen Modellen vorgenommen werden, die Benutzer spezifizieren und erstellen können. Mehrere interaktive Visualisierungsmodi und mehrere Download-Formate ermöglichen eine schnelle und bequeme Analyse und Weiterverarbeitung taxonomischer Zuordnungen. (Referenz: Patil KR, et al. 2012. PLoS One. 7:e38581).

        Virtual Metagenome - Ein Webserver zur Rekonstruktion von Metagenomen aus 16S rRNA-Sequenzen. eine neuartige Methode zur schnellen und effizienten Rekonstruktion eines virtuellen Metagenoms in mikrobiellen Umweltgemeinschaften ohne groß angelegte Genomsequenzierung. Wir demonstrieren diesen Ansatz unter Verwendung von 16S rRNA-Gensequenzen, die aus einer denaturierenden Gradienten-Gelelektrophorese-Analyse erhalten wurden und vollständig sequenzierten Genomen zugeordnet sind, um virtuelle metagenomähnliche Organisationen zu rekonstruieren. (Referenz: Okuda S, et al. 2012. Nat Commun. 3:1203.)

        MetaPhlAn2 (Version 2.0.0) - ist ein Computertool zur Profilierung der Zusammensetzung mikrobieller Gemeinschaften (Bakterien, Archaeen, Eukaryoten und Viren) aus metagenomischen Shotgun-Sequenzierungsdaten mit Auflösung auf Speziesebene. Es ist auch in der Lage, spezifische Stämme zu identifizieren und Stämme über Proben für alle Arten hinweg zu verfolgen. Es ermöglicht eine eindeutige taxonomische Zuordnung, eine genaue Schätzung der relativen Häufigkeit von Organismen und eine Auflösung auf Artenebene für Bakterien, Archaeen, Eukaryoten und Viren. (Referenz: Segata N, et al. 2012. Nature Methods 8: 811&ndash814).

        CoMet-Universe &ndash ein Webserver zur vergleichenden Analyse von Metagenomen basierend auf Proteindomänensignaturen. Beginnend mit dem Hochladen Ihrer DNA-Sequenzen führt die CoMet-Pipeline alle notwendigen Schritte für eine umfassende Metagenomanalyse durch, einschließlich Genvorhersage, Proteindomänenerkennung mit Pfam 27, metabolisches Profiling basierend auf KEGG-Wegen und Schätzung der Taxonhäufigkeit über alle Lebens- und Virendomänen. (Referenz: Aßhauer KP et al. Int J Mol Sci. 2014 15(7):12364-78).

        16S Classifier - ist ein Werkzeug für die schnelle und genaue taxonomische Klassifizierung von hypervariablen Regionen der 16S rRNA in metagenomischen Datensätzen. Auf echten metagenomischen Datensätzen zeigte es eine Genauigkeit von bis zu 99,7 % auf Stammebene und eine Genauigkeit von bis zu 99,0 % auf Gattungsebene. (Referenz: N. Chaudhary et al. 2015. PLoS One 10(2): e0116106). Es ist auch hier abrufbar

        DNAATLAS (DNA2.0 Inc., USA) - Ein Ort für alle Ihre Sequenzen. Importieren Sie ganz einfach alle Ihre Konstrukte, einschließlich Genbank, Gene Designer, Excel, Word und fast jedes textbasierte Format. DNA Atlas analysiert sofort Ihre Upload-Dateien und leitet daraus ab, ob jede Sequenz ein Merkmal, ein Konstrukt, ein Primer, eine DNA oder eine Aminosäure ist. Laden Sie Features und Primer hoch, um sie in Ihren Sequenzen mit Anmerkungen zu versehen. Sehen Sie sich sofort Konstrukte an, die mit unserer kuratierten Liste mit über 1000 Funktionen versehen sind, oder fügen Sie Ihre eigenen hinzu. Verwenden Sie die BLAST-basierte Sequenzsuche, um Ihre Sequenzen schnell abzugleichen und zu vergleichen. Behalten Sie den Überblick über Ihre Sequenzen, Funktionen und Primer. Kategorisieren Sie sie mithilfe von Tags – von Gefrierstandorten bis hin zu Charakterisierungsdaten. (erfordert eine Anmeldung).

        SuperPhy (Chad Laing und Vic Gannon, kanadische Gesundheitsbehörde) ist ein Online-Tool für die prädiktive Genomik von Escherichia coli. Die Plattform integriert die Analysetools und Genomsequenzdaten für alle öffentlich zugänglichen E coli Genome und erleichtert das Hochladen neuer Genomsequenzen von Benutzern unter öffentlichen oder privaten Einstellungen. SuperPhy bietet Echtzeitanalysen von Tausenden von Genomsequenzen auf der Grundlage von Stammmetadaten, einschließlich des räumlichen und phylogenetischen Kontexts.

        Benennen Sie Ihren Bakteriophagen: Dies ist für Mitglieder der bakteriellen Virusgemeinschaft von größter Bedeutung, um ihre neu isolierten Phagen angemessen zu benennen. Ein guter Ausgangspunkt ist "How to Name and Classify Your Phage: An Informal Guide." (Referenz: Adriaenssens E & Brister JR. 2017. Viren 9(4). pii: E70), denen ich die folgenden Punkte hinzufügen werde (a) überprüfen Sie bitte, ob der von Ihnen vorgeschlagene Name nicht bereits verwendet wurde und (b) nennen Sie Ihren Phagen nicht Enterobacter ia phage ø1234 oder Enterobacteria phage 2017/ABC_567, da diese Namen sind nicht mit der Schaffung neuer Arten- und Gattungstaxa durch das Internationale Komitee für die Taxonomie von Viren (ICTV) vereinbar. Um herauszufinden, ob Ihr vorgeschlagener Name eindeutig ist, wenden Sie sich an:

        Prüfung des Phagennamens (Stephen T. Abedon, Ohio State University, USA) - um zu sehen, ob 'Ihr'Phagenname derzeit bei Google Scholar, Google Books, PubMed oder sogar Bacteriophage Names 2000 gefunden wird.

        CPT-Phagennamensuche (Zentrum für Phagentechnologie an der Texas A&M University)


        LABGeM

        Das LABGeM ist ein Bioinformatik-Team des UMR 8030 Genomics Metabolics, der Grundlagenforschungsstruktur von Genoscope (dem nationalen Sequenzierungszentrum), das jetzt Teil der France Génomique-Infrastruktur ist.

        Die aus den eigentlichen Sequenzierungstechnologien gewonnenen genomischen Daten sind als solche von begrenztem Interesse, und außerdem erhöht diese Datenflut tendenziell die Zahl der Gene, deren Funktionen völlig unbekannt sind. Das Hauptziel unseres Forschungsteams ist es, biologisches Wissen aus prokaryotischen Organismen durch die Entwicklung von Bioinformatik-Tools zu extrahieren, die sehr unterschiedliche Quellen integrieren: Rohsequenzierungsdaten, Ergebnisse von in silico Analysetools, Daten aus generischen oder spezifischen Datenbanken, Omics-Daten wie transkriptomische, proteomische, metabolomische und phänomenale Daten. Diese Tools und Daten werden im Allgemeinen über MicroScope zur Verfügung gestellt, eine integrierte Plattform für die mikrobielle Genom-Annotation und vergleichende Analyse MicroScope, die der wissenschaftlichen Gemeinschaft einen kostenlosen Service für die Integration neuer (Meta)-Genome bietet.
        Die wissenschaftlichen Aktivitäten des LABGeM konzentrieren sich auf die bioinformatische (und biostatistische) Analyse von
        Mikrobielle (Meta)Genome: Dynamik und Evolution bakterieller Genome, funktionelle Annotation von (Meta)Genomen, taxonomische Zuordnung von Metagenomdaten

        Bakterienmetabolismus und Systembiologie: Vorhersage, Kuration und Vergleich von Stoffwechselnetzwerken, Untersuchung auf ‘orphane’E-Enzyme, Entdeckung neuer enzymatischer Aktivitäten. Diese F&E-Aktivitäten sind Teil eines der Hauptforschungsthemen der UMR „Genomics Metabolics“: der Aufklärung des Stoffwechsels von Prokaryonten durch die Entdeckung neuer chemischer Reaktionen, die von der lebenden Welt katalysiert werden.

        Durch vielfältige Forschungsprojekte, intern oder in nationalen oder internationalen Kooperationen, fokussieren wir uns auf biologische Anwendungen in den Bereichen: Epidemiologie und Gesundheit, Umweltbiologie und Biotechnologie (grün und weiß).


        7.13B: Annotation von Genomen - Biologie

        DNA-Supercoiling bezieht sich auf das Über- oder Unterwinden eines DNA-Strangs und ist ein Ausdruck der Belastung dieses Strangs. Supercoiling ist bei einer Reihe von biologischen Prozessen wichtig, wie zum Beispiel beim Kompaktieren von DNA. Darüber hinaus sind bestimmte Enzyme wie Topoisomerasen in der Lage, die DNA-Topologie zu ändern, um Funktionen wie die DNA-Replikation oder -Transkription zu erleichtern. Mathematische Ausdrücke werden verwendet, um Supercoiling zu beschreiben, indem verschiedene Coiled-Zustände mit relaxierter B-Form-DNA verglichen werden.

        Supercoiled-Struktur zirkulärer DNA: Dies ist eine supercoiled-Struktur aus ringförmigen DNA-Molekülen mit geringer Krümmung. Beachten Sie, dass die helikale Natur des DNA-Duplex der Übersichtlichkeit halber weggelassen wurde.

        Als allgemeine Regel gilt, dass die DNA der meisten Organismen negativ supercoiled ist.

        In einem “entspannten” doppelhelikalen Segment der B-DNA verdrehen sich die beiden Stränge einmal alle 10,4 bis 10,5 Basenpaare der Sequenz um die helikale Achse. Das Hinzufügen oder Entfernen von Drehungen, wie es einige Enzyme tun können, führt zu einer Belastung. Wenn ein DNA-Segment unter Verdrehungsspannung durch Zusammenfügen seiner beiden Enden zu einem Kreis geschlossen und dann frei bewegt würde, würde sich die kreisförmige DNA in eine neue Form verformen, beispielsweise eine einfache Acht. Eine solche Verdrehung ist eine Superspule.

        Die einfache Acht ist die einfachste Superspule und ist die Form, die eine kreisförmige DNA annimmt, um eine zu viele oder eine zu wenige helikale Verdrillung aufzunehmen.Die beiden Lappen der Acht erscheinen entweder im Uhrzeigersinn oder gegen den Uhrzeigersinn gedreht, je nachdem, ob die Helix über- oder unterwunden ist. Für jede zusätzliche schraubenförmige Verdrehung, die aufgenommen wird, zeigen die Lappen eine weitere Drehung um ihre Achse.

        Die Substantivform “supercoil” wird im Kontext der DNA-Topologie selten verwendet. Stattdessen werden globale Verrenkungen einer zirkulären DNA, wie die Rotation der Achterlappen oben, als Writhe bezeichnet. Das obige Beispiel veranschaulicht, dass Twist und Writhe ineinander umwandelbar sind. “Supercoiling” ist eine abstrakte mathematische Eigenschaft, die die Summe von Drehung und Krümmung darstellt. Der Twist ist die Anzahl der helikalen Windungen in der DNA und der Writhe ist die Anzahl der Überkreuzungen der Doppelhelix (dies sind die Supercoils).

        Extra spiralförmige Verdrillungen sind positiv und führen zu einer positiven Superspirale, während eine subtraktive Verdrillung eine negative Superspirale verursacht. Viele Topoisomerase-Enzyme erkennen Supercoiling und erzeugen es entweder oder zerstreuen es, wenn sie die DNA-Topologie ändern. Die DNA der meisten Organismen ist negativ supercoiled.

        Da die Chromosomen teilweise sehr groß sein können, können Segmente in der Mitte so wirken, als ob ihre Enden verankert wären. Infolgedessen sind sie möglicherweise nicht in der Lage, überschüssigen Twist auf den Rest des Chromosoms zu verteilen oder Twist zu absorbieren, um sich von einer Unterwindung zu erholen – mit anderen Worten, die Segmente können sich superspiralisieren. Als Reaktion auf das Supercoiling nehmen sie eine gewisse Krümmung an, so als ob ihre Enden verbunden wären.

        Supercoiled DNA bildet zwei Strukturen, ein Plektonem oder ein Toroid oder eine Kombination aus beiden. Ein negativ superspiralisiertes DNA-Molekül erzeugt entweder eine eingängige linksgängige Helix, das Toroid, oder eine zweigängige rechtsgängige Helix mit Endschleifen, das Plektonem. Plektoneme kommen in der Natur normalerweise häufiger vor, und dies ist die Form, die die meisten bakteriellen Plasmide annehmen werden. Bei größeren Molekülen kommt es häufig vor, dass sich Hybridstrukturen bilden – eine Schleife auf einem Toroid kann sich zu einem Plektonem erstrecken. Wenn sich alle Schleifen eines Toroids erstrecken, wird er zu einem Verzweigungspunkt in der plektonemischen Struktur.

        Die Bedeutung des DNA-Supercoilings

        DNA-Supercoiling ist wichtig für die DNA-Verpackung in allen Zellen. Da die DNA-Länge das Tausendfache einer Zelle betragen kann, ist es schwierig, dieses genetische Material in die Zelle oder den Zellkern (bei Eukaryoten) zu packen. Das Supercoiling von DNA reduziert den Platz und ermöglicht das Verpacken von viel mehr DNA. Bei Prokaryoten sind plektonemische Supercoils aufgrund des kreisförmigen Chromosoms und der relativ geringen Menge an genetischem Material vorherrschend. In Eukaryoten existiert DNA-Supercoiling auf vielen Ebenen sowohl von plektonemischen als auch von Solenoid-Supercoils, wobei sich das Solenoid-Supercoiling bei der Verdichtung der DNA als am effektivsten erweist. Solenoides Supercoiling wird mit Histones erreicht, um eine 10 nm Faser zu bilden. Diese Faser wird weiter zu einer 30-nm-Faser gewickelt und noch viele Male auf sich selbst gewickelt.

        Die DNA-Verpackung wird während Kernteilungsereignissen wie Mitose oder Meiose stark erhöht, bei denen DNA verdichtet und in Tochterzellen segregiert werden muss. Kondensine und Cohesine sind strukturelle Aufrechterhaltung von Chromosomen (SMC)-Proteinen, die bei der Kondensation von Schwesterchromatiden und der Bindung des Zentromers in Schwesterchromatiden helfen. Diese SMC-Proteine ​​induzieren positive Supercoils.

        Supercoiling ist auch für die DNA- und RNA-Synthese erforderlich. Da die DNA für die DNA- und RNA-Polymerase-Wirkung abgewickelt werden muss, entstehen Supercoils. Der Bereich vor dem Polymerasekomplex wird abgewickelt, dieser Stress wird mit positiven Supercoils vor dem Komplex kompensiert. Hinter dem Komplex wird DNA zurückgespult und es werden kompensierende negative Supercoils geben. Es ist wichtig zu beachten, dass Topoisomerasen wie die DNA-Gyrase (Topoisomerase Typ II) eine Rolle bei der Linderung eines Teils des Stresses während der DNA- und RNA-Synthese spielen.


        Abstrakt

        Kokosnuss (Cocos nucifera L.), eine wichtige Quelle für Pflanzenöl, Nutrazeutika, funktionelle Lebensmittel und Gehäusematerialien, liefert Rohstoffe für ein Repertoire von Industrien, die unter anderem Kosmetika, Seifen, Waschmittel, Farben, Lacke und Emulgatoren herstellen. Die Palme spielt eine entscheidende Rolle bei der Erhaltung und Förderung der Nachhaltigkeit der landwirtschaftlichen Systeme der fragilen Ökosysteme der Inseln und Küstenregionen der Tropen. In dieser Studie präsentieren wir das Genom einer Zwergkokosnusssorte „Chowghat Green Dwarf“ (CGD) aus Indien, die eine erhöhte Resistenz gegen Wurzelkrankheiten (Welke) besitzt. Unter Verwendung von kurzen Reads von der Illumina HiSeq 4000-Plattform und langen Reads von der Pacific Biosciences RSII-Plattform haben wir den Entwurf des Genom-Assemblys von 1,93 Gb zusammengestellt. Das Genom ist auf 26.855 Gerüste verteilt, wobei 81,56 % des zusammengesetzten Genoms in Gerüsten mit einer Länge von mehr als 50 kb vorhanden sind. Etwa 77,29 % des Genoms bestanden aus transponierbaren Elementen und Wiederholungen. Die Genvorhersage ergab 51.953 Gene, die nach strenger Filterung, basierend auf Annotation Edit Distance, zu 13.707 Genen führten, die für 11.181 Proteine ​​kodierten. Unter diesen sammelten wir Beweise auf Transkriptebene für insgesamt 6828 vorhergesagte Gene basierend auf den RNA-Seq-Daten aus verschiedenen Kokosnussgeweben, da sie assemblierte Transkripte innerhalb der Genom-Annotationskoordinaten präsentierten. Insgesamt wurden 112 Nukleotid-bindende und leucinreiche Wiederholungs-Loci aus sechs Klassen nachgewiesen. Wir haben auch die Zusammenstellung und Annotation der CGD-Chloroplasten- und Mitochondrien-Genome übernommen. Die Verfügbarkeit des Zwergkokosnuss-Genoms wird sich als unschätzbar erweisen, um den Ursprung von Zwergkokosnuss-Sorten abzuleiten, Gene zu zerlegen, die den Pflanzenhabitus und die Fruchtfarbe kontrollieren, und die beschleunigte Züchtung für verbesserte agronomische Merkmale.