Information

Wie wird die Wahrscheinlichkeit berechnet, dass eine Sequenz bei BLAST auftritt?

Wie wird die Wahrscheinlichkeit berechnet, dass eine Sequenz bei BLAST auftritt?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Wie groß ist die Wahrscheinlichkeit, dass eine bestimmte Nukleotid-/Aminosäuresequenz in dem gesamten Datenbankprogramm vorkommt, in dem BLAST sucht? Wie wird diese Wahrscheinlichkeit berechnet?


Laut BLAST-Dokumentation werden Statistiken zum lokalen Sequenz-Alignment bei Datenbanksuchen erstellt

indem die Datenbank als eine einzelne lange Sequenz der Länge N behandelt wird.

N ist daher eine Summe aller Sequenzen mit unterschiedlicher Größe aus einer gegebenen Datenbank.

Die zugrunde liegende Annahme ist, dass

Abfrage ist a priori eher mit einer langen als mit einer kurzen Sequenz verwandt, da lange Sequenzen oft aus mehreren unterschiedlichen Domänen bestehen.

Um die Wahrscheinlichkeit zu berechnen, müssen wir ein Scoring-Schema wählen (für das nicht-geappte Beispiel: Wählen Sie eine Mismatch-Strafe), das uns für eine Abfragesequenz einen statistischen Signifikanzwert $S$ gibt. Die erwartete Anzahl von Ausrichtungen mit einer Punktzahl von mindestens $S$ folgt der Gumbel-Extremwertverteilung:

$$ E = Kmncdot e^{-lambda S} $$

wo m ist die Abfragelänge, $n=N$ und $K$ und $lambda$ sind Verteilungsparameter.

Auch hier wäre gemäß den Dokumenten und ihren Referenzen die Wahrscheinlichkeit, mindestens eine solche Sequenz zu finden, $P=1-e^{-E_{(N)}}$, wobei $E_{(N)}$ die E-Zahl ist für verkettete N-Sequenz und Abfragesequenz.


Die Wahrscheinlichkeit ist das Maß für die Wahrscheinlichkeit des Eintretens eines Ereignisses. Sie wird als Zahl zwischen 0 und 1 quantifiziert, wobei 1 Gewissheit und 0 bedeutet, dass das Ereignis nicht eintreten kann. Daraus folgt, dass je höher die Wahrscheinlichkeit eines Ereignisses ist, desto sicherer ist es, dass das Ereignis eintritt. Im allgemeinsten Fall kann die Wahrscheinlichkeit numerisch als die Anzahl der gewünschten Ergebnisse dividiert durch die Gesamtzahl der Ergebnisse definiert werden. Dies wird unter anderem dadurch beeinflusst, ob die untersuchten Ereignisse unabhängig, sich gegenseitig ausschließen oder bedingt sind. Der bereitgestellte Rechner berechnet die Wahrscheinlichkeit, dass ein Ereignis A oder B nicht eintritt, die Wahrscheinlichkeit A und/oder B, wenn sie sich nicht gegenseitig ausschließen, die Wahrscheinlichkeit, dass sowohl Ereignis A als auch B eintritt, und die Wahrscheinlichkeit, dass entweder Ereignis A oder Ereignis B kommt vor, aber nicht beides.

Ergänzung von A und B

Gegeben eine Wahrscheinlichkeit EIN, bezeichnet durch P(A), ist es einfach, das Komplement oder die Wahrscheinlichkeit zu berechnen, dass das durch beschriebene Ereignis P(A) tritt nicht auf, P(A'). Wenn zum Beispiel P(A) = 0,65 die Wahrscheinlichkeit darstellt, dass Bob seine Hausaufgaben nicht macht, kann seine Lehrerin Sally die Wahrscheinlichkeit, dass Bob seine Hausaufgaben macht, wie folgt vorhersagen:

In diesem Szenario besteht daher eine 35-prozentige Chance, dass Bob seine Hausaufgaben macht. Irgendein P(B') würde auf die gleiche Weise berechnet, und es ist erwähnenswert, dass im obigen Rechner unabhängig sein kann, d.h. wenn P(A) = 0,65, P(B) muss nicht unbedingt gleich sein 0.35, und kann gleich sein 0.30 oder eine andere Nummer.

Schnittpunkt von A und B

Der Schnittpunkt der Ereignisse EIN und B, geschrieben als P(A 𢊛) oder P(A UND B) ist die gemeinsame Wahrscheinlichkeit von mindestens zwei Ereignissen, unten in einem Venn-Diagramm dargestellt. In dem Fall, wo EIN und B sind sich gegenseitig ausschließende Ereignisse, P(A ∩ B) = 0. Betrachten Sie die Wahrscheinlichkeit, eine 4 und 6 bei einem einzigen Würfelwurf zu würfeln, es ist nicht möglich. Diese Ereignisse würden daher als sich gegenseitig ausschließend betrachtet. Computer P(A 𢊛) ist einfach, wenn die Ereignisse unabhängig sind. In diesem Fall sind die Ereigniswahrscheinlichkeiten EIN und B werden multipliziert. Um die Wahrscheinlichkeit zu ermitteln, dass zwei getrennte Würfelwürfe jeweils 6 ergeben:

Der bereitgestellte Rechner berücksichtigt den Fall, in dem die Wahrscheinlichkeiten unabhängig sind. Die Berechnung der Wahrscheinlichkeit ist etwas komplizierter, wenn die Ereignisse abhängig sind, und erfordert ein Verständnis der bedingten Wahrscheinlichkeit oder der Ereigniswahrscheinlichkeit EIN angesichts dieses Ereignisses B ist vorgefallen, P(A|B). Nehmen Sie das Beispiel einer Tüte mit 10 Murmeln, von denen 7 schwarz und 3 blau sind. Berechnen Sie die Wahrscheinlichkeit, eine schwarze Murmel zu ziehen, wenn eine blaue Murmel ersatzlos abgezogen wurde (die blaue Murmel wird aus dem Beutel genommen, wodurch sich die Gesamtzahl der Murmeln im Beutel verringert):

Wahrscheinlichkeit, eine blaue Murmel zu zeichnen:

Wahrscheinlichkeit, eine schwarze Murmel zu zeichnen:

Wahrscheinlichkeit, eine schwarze Murmel zu zeichnen, wenn eine blaue Murmel gezeichnet wurde:

Wie zu sehen ist, wird die Wahrscheinlichkeit, dass eine schwarze Murmel gezogen wird, von jedem vorherigen Ereignis beeinflusst, bei dem eine schwarze oder blaue Murmel ersatzlos gezogen wurde. Wenn also eine Person die Wahrscheinlichkeit bestimmen möchte, eine blaue und dann eine schwarze Murmel aus dem Beutel zu ziehen:

Wahrscheinlichkeit, eine blaue und dann eine schwarze Murmel mit den oben berechneten Wahrscheinlichkeiten zu ziehen:

Vereinigung von A und B

Wahrscheinlich ist die Vereinigung von Ereignissen, P(A U B), beinhaltet im Wesentlichen die Bedingung, bei der einige oder alle der in Betracht gezogenen Ereignisse eintreten, wie im untenstehenden Venn-Diagramm gezeigt. Beachten Sie, dass P(A U B) kann auch geschrieben werden als P(A ODER B). In diesem Fall wird das "inklusive ODER" verwendet. Das bedeutet, dass, während mindestens eine der Bedingungen innerhalb der Union erfüllt sein muss, alle Bedingungen gleichzeitig wahr sein können. Es gibt zwei Fälle für die Vereinigung von Ereignissen, die Ereignisse schließen sich entweder gegenseitig aus oder die Ereignisse schließen sich nicht gegenseitig aus. Für den Fall, dass sich die Ereignisse gegenseitig ausschließen, ist die Berechnung der Wahrscheinlichkeit einfacher:

Ein grundlegendes Beispiel für sich gegenseitig ausschließende Ereignisse wäre das Würfeln, bei dem Ereignis EIN ist die Wahrscheinlichkeit, dass eine gerade Zahl gewürfelt wird, und Ereignis B ist die Wahrscheinlichkeit, dass eine ungerade Zahl gewürfelt wird. In diesem Fall ist klar, dass sich die Ereignisse gegenseitig ausschließen, da eine Zahl nicht sowohl gerade als auch ungerade sein kann, also P(A U B) wäre 3/6 + 3/6 = 1, da ein Standardwürfel nur ungerade und gerade Zahlen hat.

Der obige Rechner berechnet den anderen Fall, in dem die Ereignisse EIN und B schließen sich nicht gegenseitig aus. In diesem Fall:

Bestimmen Sie am Beispiel des Würfelns erneut die Wahrscheinlichkeit, dass eine gerade Zahl oder eine Zahl, die ein Vielfaches von 3 ist, gewürfelt wird. Hier wird das Set durch die 6 Werte der Würfel dargestellt, geschrieben als:

S =
Wahrscheinlichkeit einer geraden Zahl:P(A) = <2,4,6>= 3/6
Wahrscheinlichkeit eines Vielfachen von 3:P(B) = <3,6>= 2/6
Schnittpunkt von A und B: P(A ∩ B) = <6>= 1/6
P(A U B) = 3/6 + 2/6 -1/6 = 2/3

Exklusives ODER von A und B

Ein weiteres mögliches Szenario, das der obige Rechner berechnet, ist P(A XOR B), dargestellt im Venn-Diagramm unten. Die Operation "Exklusives ODER" ist definiert als das Ereignis, dass A oder B auftritt, aber nicht gleichzeitig. Die Gleichung lautet wie folgt:

Stellen Sie sich zum Beispiel vor, es ist Halloween und zwei Eimer mit Süßigkeiten stehen vor dem Haus, einer mit Snickers und der andere mit Reese. Mehrere blinkende Neonschilder sind um die Süßigkeiteneimer herum angebracht, die darauf bestehen, dass jeder Trick-or-Treater nur einen Snickers ODER Reese braucht, aber nicht beide! Es ist jedoch unwahrscheinlich, dass sich jedes Kind an die blinkenden Neonschilder hält. Gegeben eine Wahrscheinlichkeit, dass Reese ausgewählt wird als P(A) = 0,65, oder Snickers wird ausgewählt mit P(B) = 0,349, und ein P(unwahrscheinlich) = 0,001 dass ein Kind Zurückhaltung übt, während es die Nachteile eines möglichen zukünftigen Hohlraums berücksichtigt, berechnen Sie die Wahrscheinlichkeit, dass Snickers oder Reese gewählt wird, aber nicht beide:

0.65 + 0.349 - 2 × 0.65 × 0.349 = 0.999 - 0.4537 = 0.5453

Daher besteht eine Chance von 54,53%, dass Snickers oder Reese gewählt wird, aber nicht beides.


Wie man die Wahrscheinlichkeit von zwei Ereignissen kombiniert

Die Wahrscheinlichkeit eines Ereignisses ist die Wahrscheinlichkeit, dass das Ereignis in einer bestimmten Situation eintritt. Die Wahrscheinlichkeit, bei einem einzelnen Münzwurf "Zahlen" zu bekommen, beträgt beispielsweise 50 Prozent, obwohl in der Statistik ein solcher Wahrscheinlichkeitswert normalerweise im Dezimalformat als 0,50 geschrieben wird. Die einzelnen Wahrscheinlichkeitswerte mehrerer Ereignisse können kombiniert werden, um die Wahrscheinlichkeit für das Eintreten einer bestimmten Folge von Ereignissen zu bestimmen. Dazu müssen Sie jedoch wissen, ob die Ereignisse unabhängig sind oder nicht.

Sehen Sie sich zunächst das Video unten an, um eine kurze Auffrischung der grundlegenden Wahrscheinlichkeit zu erhalten:

  1. Bestimmen Sie die individuelle Wahrscheinlichkeit (P) jedes Ereignisses, das kombiniert werden soll. Berechnen Sie das Verhältnis m/M, wobei m die Anzahl der Ergebnisse ist, die sich im interessierenden Fall ergeben, und M alle möglichen Ergebnisse. Zum Beispiel kann die Wahrscheinlichkeit, bei einem einzigen Würfelwurf eine Sechs zu würfeln, berechnet werden mit m = 1 (da nur eine Seite ein Ergebnis von sechs ergibt) und M = 6 (da es sechs mögliche Seiten gibt, die auftauchen könnten) für P = 1/6 oder 0,167.
  2. Bestimmen Sie, ob die beiden einzelnen Ereignisse unabhängig sind oder nicht. Unabhängige Ereignisse werden nicht voneinander beeinflusst. Die Wahrscheinlichkeit von Kopf bei einem Münzwurf wird beispielsweise nicht von den Ergebnissen eines vorherigen Münzwurfs beeinflusst und ist daher unabhängig.
  3. Bestimmen Sie, ob die Ereignisse unabhängig sind. Wenn nicht, passen Sie die Wahrscheinlichkeit des zweiten Ereignisses an, um die für das erste Ereignis angegebenen Bedingungen widerzuspiegeln. Wenn es beispielsweise drei Schaltflächen gibt – eine grüne, eine gelbe, eine rote – möchten Sie vielleicht die Wahrscheinlichkeit ermitteln, die rote und dann die grüne Schaltfläche auszuwählen. P für den ersten roten Knopf ist 1/3, aber P für den zweiten grünen Knopf ist 1/2, da ein Knopf jetzt weg ist.
  4. Multiplizieren Sie die einzelnen Wahrscheinlichkeiten der beiden Ereignisse miteinander, um die kombinierte Wahrscheinlichkeit zu erhalten. Im Button-Beispiel beträgt die kombinierte Wahrscheinlichkeit, zuerst den roten Button und dann den grünen Button zu wählen, P = (1/3)(1/2) = 1/6 oder 0,167.

Spitze: Der gleiche Ansatz kann verwendet werden, um die Wahrscheinlichkeit von mehr als zwei Ereignissen zu ermitteln.


So berechnen Sie die Wahrscheinlichkeit

Dieser Artikel wurde von Mario Banuelos, Ph.D. Mario Banuelos ist Assistenzprofessor für Mathematik an der California State University in Fresno. Mit über acht Jahren Lehrerfahrung ist Mario spezialisiert auf mathematische Biologie, Optimierung, statistische Modelle für die Genom-Evolution und Datenwissenschaft. Mario hat einen BA in Mathematik von der California State University, Fresno, und einen Ph.D. in Angewandter Mathematik von der University of California, Merced. Mario hat sowohl an der High School als auch auf College-Ebene unterrichtet.

In diesem Artikel werden 15 Referenzen zitiert, die am Ende der Seite zu finden sind.

wikiHow markiert einen Artikel als vom Leser genehmigt, sobald er genügend positives Feedback erhält. In diesem Fall haben uns mehrere Leser geschrieben, um uns mitzuteilen, dass dieser Artikel für sie hilfreich war und ihm unseren Status als vom Leser genehmigt verliehen wurde.

Dieser Artikel wurde 2.814.300 Mal angesehen.

Wenn Sie die Wahrscheinlichkeit berechnen, versuchen Sie, die Wahrscheinlichkeit zu ermitteln, dass ein bestimmtes Ereignis bei einer bestimmten Anzahl von Versuchen eintritt. [1] X Forschungsquelle Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass ein bestimmtes Ereignis eintritt, und wir können die Wahrscheinlichkeit eines Ereignisses mithilfe des Verhältnisses ermitteln Anzahl der positiven Ergebnisse / Gesamtzahl der Ergebnisse. Um die Wahrscheinlichkeit mehrerer Ereignisse zu berechnen, muss das Problem in separate Wahrscheinlichkeiten zerlegt und die einzelnen Wahrscheinlichkeiten miteinander multipliziert werden.


Komplexere Wahrscheinlichkeiten

Weißt du, wie man sagt, dass Geld dir Glück kaufen kann? Nun, es ist wahr, dass Es gibt Zeiten, in denen eine Münze nicht ausreicht wenn Sie die Wahrscheinlichkeit zählen möchten, dass etwas passiert. Wenn Ihr Problem immer noch unter den Begriff der klassischen Wahrscheinlichkeit fällt – d. h. Sie können feststellen, wie viele erfolgreiche Ergebnisse es gibt und wie viele Möglichkeiten es im Allgemeinen gibt – dann wird die Münzwurf-Wahrscheinlichkeitsformel aus dem ersten Abschnitt gut funktionieren. Wenn Sie auf einer einsamen Insel nach Ihren Chancen suchen, im Lotto zu gewinnen oder zu überleben, werden die Dinge komplizierter als eine einfache Münzwurfwahrscheinlichkeit. Schauen Sie sich unseren Statistikbereich an, um Ihnen auf Ihrer Reise bei der Suche nach der wahrscheinlichsten Wahrscheinlichkeit zu helfen, die es wahrscheinlich geben kann!


Wie wird die Wahrscheinlichkeit berechnet, dass eine Sequenz bei BLAST auftritt? - Biologie

Ihr Warenkorb ist derzeit leer. i <p>Wenn Sie verschiedene UniProt-Proteine ​​durchsuchen, können Sie sie im 'Warenkorb' speichern, damit Sie sie später wiederfinden oder analysieren können.<p><a href='/help/basket' target='_top'> Mehr. </a></p>

Artikel auswählen und auf "In den Warenkorb" klicken, um hier Ihre eigene Kollektion zu erstellen
(400 Einträge max.)

Sequenzähnlichkeitssuchen

Zuletzt geändert am 30. April 2021

Wähle aus Sprengen Registerkarte der Symbolleiste, um eine Sequenzähnlichkeitssuche mit dem Programm BLAST (Basic Local Alignment Search Tool) durchzuführen:

  1. Geben Sie entweder eine Protein- oder Nukleotidsequenz (Rohsequenz oder Fasta-Format) oder eine UniProt-Kennung in das Formularfeld ein.
  2. Drücke den Sprengen Taste.

Die folgenden Arten von UniProt-Kennungen werden unterstützt:

P00750UniProtKB-Eintrag
P00750-2UniProtKB-Eintragsisoformsequenz
P00750[1-20]Teil der UniProtKB-Eintragssequenz, vom 1. bis zum 20. Aminosäurerest (einschließlich)
A4_MENSCHUniProtKB-Eintragsname
UPI0000000001UniParc-Eintrag
UniRef100_P00750UniRef-Eintrag

Wenn Sie die auswählen Sprengen Registerkarte der Symbolleiste von einer UniProtKB-, UniRef- oder UniParc-Einstiegsseite aus, wird die aktuelle Sequenz im Formular vorausgefüllt.


Multiplikationsregel für unabhängige Ereignisse (Regel sechs)

Wir wenden uns nun den Berechnungsregeln zu

beginnend mit der Multiplikationsregel für unabhängige Ereignisse.

Mit einem Venn-Diagramm können wir “A und B” visualisieren, was durch die Überlappung zwischen den Ereignissen A und B dargestellt wird:

Wahrscheinlichkeitsregel Sechs (Die Multiplikationsregel für unabhängige Ereignisse):

  • Beim Umgang mit Wahrscheinlichkeit Regeln, das Wort “und” wird immer mit dem Betrieb von Multiplikation daher der Name dieser Regel, “Die Multiplikationsregel.”

Sich gegenseitig ausschließende und nicht-exklusive Veranstaltungen

Gegenseitig exklusive Veranstaltungen sind Ereignisse, die nicht zusammen auftreten können. Beim Würfeln zum Beispiel kann eine 5 und eine 6 gleichzeitig vorkommen. Ein weiteres Beispiel ist das Kommissionieren von bunten Süßigkeiten aus einem Glas. wenn ein Event eine rote Bonbons pflückt und ein anderes Event eine blaue Bonbons pflückt, wenn eine blaue Bonbons gepflückt wird, kann es auch eine rote Bonbons sein und umgekehrt.

Beidseitig nicht-exklusive Veranstaltungs sind Ereignisse, die zusammen auftreten können. Zum Beispiel, wenn eine Karte aus einem Stapel gezogen wird und das Ereignis eine schwarze Karte oder eine Ass-Karte ist. Wenn ein Schwarz gezogen wird, schließt dies nicht aus, dass es ein Ass ist. Wenn ein Ass gezogen wird, schließt dies ebenso aus, dass es keine schwarze Karte ist.


Bedeutung von Myc, Max und Mad Proteins

Das Myc-Max-Mad-Transkriptionsnetzwerk von bHLH-Proteinen ist für die Kontrolle von Zellwachstum, Proliferation, Differenzierung und Apoptose essentiell (2-6). Mein C ist ein gut etabliertes Onkogen, dessen deregulierte Expression für ein breites Spektrum menschlicher Krebsarten verantwortlich ist. Ungefähr 70.000 Krebstote in den USA pro Jahr sind auf die Fehlregulierung von Mein C. Protein-Protein-Interaktionen mit Max sind ein Schlüsselelement für das reibungslose Funktionieren des Myc-Max-Mad-Transkriptionsfaktornetzwerks. Mad-Max-Heterodimere unterdrücken den Ausdruck von Mein C und Differenzierung einleiten. Obwohl eine schwache Homodimerisierung möglich ist, erfordert die richtige Myc-Funktion eine Heterodimerisierung mit Max (7). Umfangreiche Bemühungen haben versucht, diese Onkoproteine ​​in einer Vielzahl von Organismen durch molekulare und computergestützte Ansätze zu isolieren. Tatsächlich war die Entwicklung eines prädiktiven Motivs für bHLH-Proteine ​​(1) sehr erfolgreich, wenn es auf verschiedene Gruppen angewendet wurde, wie z Ascidien, Drosophila, Würmer und Pflanzen (8-12).

Mindestens sechs Arten von Myc-Protein spiegeln separate evolutionäre Abstammungslinien wider (W.R.A., unveröffentlichte Daten). Am umfassendsten untersucht ist c-Myc, das zelluläre Homolog zum viralen Onkoprotein (v-Myc) des aviären Myelozytomatose-Retrovirus (13). Darüber hinaus umfasst die Myc-Familie L-Myc, N-Myc, S-Myc und B-Myc, die gewebespezifisch exprimiert werden (5). L-Myc ist mit Lungenkarzinomen assoziiert, während N-Myc mit Neuroblastomen assoziiert ist (13). B- und S-Myc weisen signifikant mehr Sequenz- und funktionelle Divergenz auf als c-, L- und N-Myc. B-Myc ist homolog zur N-terminalen Transaktivierungsdomäne, aber es fehlt die bHLH-Dimerisierungsdomäne. Wir betrachten Myc von Protostomen (Drosophila und Anopheles) aufgrund der abweichenden Sequenzattribute jeder Gruppe als separate Klade von der Deuterostoma-Linie (14).


Glossar

Die folgende Liste von Begriffen enthält einige Definitionen aus dem Glossar des NCBI, andere sind Originale und einige wurden aus Büchern extrahiert, wie einzeln angegeben. Die Bilder wurden, sofern sie nicht original sind, von der University of Washington entliehen unter: http://www.cs.washington.edu/education/courses/590bi/98wi .

Schnellindex: A-B, C-D, E-F, G-H, I-J, K-L, M-N, O-P, Q-R, S-T, U-Z.
Zugangsnummer Ein eindeutiger Code, der eine Sequenz in einer Datenbank identifiziert. Für fortgeschrittene Benutzer ist die primäre Zugangsnummer der Primärschlüssel einer Tabelle in der relationalen Genbank-Datenbank. Sekundäre Zugangsnummern sind andere Codes, die ebenfalls die Sequenz identifizieren, aber nicht mehr als primäre Codes verwendet werden. Einer Zugangsnummer kann am Ende eine Versionsnummer angehängt werden, wenn die Sequenz aktualisiert wurde (d. h. wenn ihr mehr Sequenz hinzugefügt oder korrigiert wurde). Die Zugangsnummer bringt den Benutzer in seiner neuesten Form (neueste Version) zur Sequenz. Dies unterscheidet sich von Gi-Nummern.
Ausrichtung Der Prozess der Aneinanderreihung von zwei oder mehr Sequenzen, um ein maximales Maß an Identität (und Konservierung im Fall von Aminosäuresequenzen) zu erreichen, um den Ähnlichkeitsgrad und die Möglichkeit der Homologie zu beurteilen. Sehen Sie sich dieses einfache Beispiel für eine Buchstabenausrichtung an:

Algorithmus Ein festes Verfahren, das in einem Computerprogramm verkörpert ist. Aus Gusfields Buch: "Eine Beschreibung auf hoher Ebene eines mechanistischen Wegs, ein Problem zu lösen oder eine Funktion zu berechnen."
ASN.1 Im NCBI-Kontext ist ASN.1 eine Darstellung aller Informationen, die eine biologische Sequenz begleiten (Sequenz des DNA-RNA-Protein-Moleküls, zusammen mit allen anderen Daten wie Autoren, Datum, Annotation usw.), jedoch im Gegensatz zu das GENBANK-Format, ASN1 ist für das Parsen durch Maschinen (Manipulieren der Daten) geeignet und weniger geeignet für das menschliche Lesen. ASN1 ist ein Standard für die Informationsübertragung und ist nicht auf biologische Informationen beschränkt, sondern wird seit langem von der Telekommunikationsindustrie verwendet.
Bioinformatik Die Verschmelzung von Biotechnologie und Informationstechnologie mit dem Ziel, neue Erkenntnisse und Prinzipien in der Biologie zu erschließen.
SPRENGEN Basic Local EINAusrichtung Sohren Tool. (Altschul et al.) Ein auf Geschwindigkeit optimierter Sequenzvergleichsalgorithmus, der verwendet wird, um Sequenzdatenbanken nach optimalen lokalen Alignments zu einer Abfrage zu durchsuchen. Die anfängliche Suche wird nach einem Wort der Länge "W" durchgeführt, das im Vergleich mit der Abfrage unter Verwendung einer Substitutionsmatrix mindestens "T" bewertet. Worttreffer werden dann in beide Richtungen ausgedehnt, um zu versuchen, eine Ausrichtung mit einer Punktzahl zu erzeugen, die den Schwellenwert von "S" überschreitet. Der Parameter "T" bestimmt die Geschwindigkeit und Empfindlichkeit der Suche. Weitere Details finden Sie in einem der BLAST-Tutorials.
Bit-Score Der Wert S' wird aus dem rohen Alignment-Score S abgeleitet, in dem die statistischen Eigenschaften des verwendeten Bewertungssystems berücksichtigt wurden. Da Bitbewertungen in Bezug auf das Bewertungssystem normalisiert wurden, können sie verwendet werden, um Ausrichtungsbewertungen von verschiedenen Suchen zu vergleichen.
BLOSUM Blocks Substitution matrix. Eine Substitutionsmatrix, in der die Punktzahlen für jede Position abgeleitet werden aus Beobachtungen der Häufigkeiten von Substitutionen in Blöcken lokaler Ausrichtungen in verwandten Proteinen. Jede Matrix ist auf eine bestimmte evolutionäre Distanz zugeschnitten. In der BLOSUM62-Matrix wurde beispielsweise das Alignment, aus dem die Scores abgeleitet wurden, unter Verwendung von Sequenzen erstellt, die nicht mehr als 62 % Identität aufweisen. Sequenzen, die mehr als 62 % identisch sind, werden durch eine einzige Sequenz im Alignment repräsentiert, um eine Übergewichtung eng verwandter Familienmitglieder zu vermeiden. (Henikoff und Henikoff)
Klient
Ein Computer oder die auf einem Computer ausgeführte Software, die mit einem anderen Computer an einem entfernten Standort (Server) interagiert. Dieses Konzept unterscheidet sich von "Benutzer".
Erhaltung Veränderungen an einer bestimmten Position einer Aminosäure oder (seltener DNA) Sequenz, die die physikalisch-chemischen Eigenschaften des ursprünglichen Rests bewahren.
Dynamische Programmierung Dynamische Programmierung ist eine sehr allgemeine Optimierungstechnik, die auf Probleme angewendet werden kann, die in ähnliche Teilprobleme kleinerer Größe unterteilt werden können, sodass die Lösung des größeren Problems durch Kombinieren der Lösungen der Teilprobleme erhalten werden kann. Diese "Teile und Herrsche"-Verfahren werden häufig verwendet, um Ausrichtungsprobleme zu lösen.

Aus http://www.mpri.lsu.edu/Chapter7.htm : "Dynamische Programmierung wandelt ein großes, kompliziertes Optimierungsproblem in eine Reihe miteinander verbundener kleinerer um, die jeweils nur wenige Variablen enthalten. Das Ergebnis ist eine Reihe von Teiloptimierungen einen geringeren Aufwand erfordert, um das Optimum zu finden".
Domain Ein diskreter Teil eines Proteins, von dem angenommen wird, dass er sich unabhängig vom Rest des Proteins faltet und eine eigene Funktion besitzt.
STAUB Ein Programm zum Filtern von Regionen geringer Komplexität aus Nukleinsäuresequenzen.
E-Wert Erwartungswert. Die Anzahl der verschiedenen Alignents mit Scores gleich oder besser als S, die bei einer Datenbanksuche zufälligerweise auftreten. Je niedriger der E-Wert, desto signifikanter die Punktzahl.
Europäische Sommerzeit Steht für "Expressed Sequence Tag", eine Sequenz von einem der Enden (entweder vom 5'- oder 3'-Ende) eines Expressionsklons, wie einem cDNA-Klon aus einer Expressionsbibliothek (eine Momentaufnahme von mRNAs aus einem Gewebe zu einem bestimmten Zeitpunkt Entwicklungszeit).
Aufgrund der Natur der gegenwärtigen Technologie überspannt eine EST-Sequenz selten die vollständige Insert-Sequenz. Der Trend besteht nun darin, von beiden Enden des Klons zu sequenzieren (und, wenn möglich, die gesamte Sequenz des Inserts zu erhalten).
ESTs liefern auch die Markerposition in einer genomischen Karte (bei Kartierung durch Rekombinationsfrequenzkartierung) und in einer physischen Kartierung (bei Kartierung durch PCR-Amplifikation von oder Hybridisierung an einen Satz geordneter großer Klone) in analoger Weise zu STS-Markern mit dem Vorteil, dass ESTs sind eine direkte Verbindung zu den exprimierten Genen.
Öffentliche EST-Sequenzen werden in der dbEST-Datenbank bei Genbank gespeichert.
FASTA Der erste weit verbreitete Algorithmus für die Datenbank-Ähnlichkeitssuche. Das Programm sucht nach optimalen lokalen Ausrichtungen, indem es die Sequenz nach kleinen Übereinstimmungen, den sogenannten "Wörtern", durchsucht. Zunächst werden die Scores von Segmenten berechnet, in denen es mehrere Worttreffer gibt ("init1"). Später können die Bewertungen mehrerer Segmente summiert werden, um eine "initn"-Bewertung zu erzeugen. Eine optimierte Ausrichtung, die Lücken enthält, wird in der Ausgabe als "opt" angezeigt. Die Sensitivität und Geschwindigkeit der Suche stehen in einem umgekehrten Verhältnis und werden durch die Variable "k-tup" gesteuert, die die Größe eines "Wortes" angibt. (Pearson und Lipman)
Filtern Auch als Maskierung bekannt. Der Prozess des Verbergens von Regionen einer (Nukleinsäure- oder Aminosäure-)Sequenz mit Eigenschaften, die häufig zu falschen hohen Werten führen. Siehe SEG und STAUB.
Lücke Ein Raum, der in ein Alignment eingefügt wird, um Insertionen und Deletionen in einer Sequenz relativ zu einer anderen zu kompensieren. Um die Anhäufung von zu vielen Lücken in einer Ausrichtung zu verhindern, bewirkt die Einführung einer Lücke den Abzug eines festen Betrags (die Lückenbewertung) von der Ausrichtungsbewertung. Die Erweiterung der Lücke, um zusätzliche Nukleotide oder Aminosäuren einzuschließen, wird auch bei der Bewertung eines Alignments bestraft.
GI-Nummer Eine Gi-Nummer ist wie eine Zugangsnummer eine eindeutige Kennung für eine bestimmte Sequenz. Eine gi-Nummer führt den Benutzer zur Sequenz in dem Zustand, in dem sie eingegeben oder geändert wurde. Jedes Mal, wenn eine Sequenz aktualisiert wird, behält sie ihre Zugangsnummer (mit einer angehängten neuen Versionsnummer) bei, erhält jedoch eine NEU gi-Nummer, die seinen neuen Zustand darstellt. Einige Sequenzen, die aktualisiert wurden, haben eine "Historie" von mehr als einer Gi-Nummer, und ihre verschiedenen Zustände der Sequenz können abgerufen werden.
Globale Ausrichtung Das Alignment zweier Nukleinsäure- oder Proteinsequenzen über ihre gesamte Länge.
h H ist die relative Entropie der Ziel- und Hintergrund-Restfrequenzen. (Karlin und Altschul, 1990). H kann man sich als Maß für die durchschnittliche Information (in Bits) vorstellen, die pro Position verfügbar ist und eine Ausrichtung vom Zufall unterscheidet. Bei hohen H-Werten können zufällig kurze Alignments unterschieden werden, während bei niedrigeren H-Werten ein längeres Alignment erforderlich sein kann. (Altschul, 1991)
Heuristik Eine Heuristik in einer sehr vereinfachten Definition ist ein Verfahren, das auf wirtschaftlichere oder schnellere Weise eine Annäherung an die tatsächliche Antwort eines Problems ableitet als die Verwendung des mathematisch "strengeren" Algorithmus. Es ist jedoch nicht zu 100 % garantiert, die Antwort "wahr" zu erhalten.
In der Informatik werden Heuristiken angewendet, wenn es rechnerisch nicht möglich ist, die genaue Lösung eines Problems über strenge Algorithmen zu finden.
Homologie Ähnlichkeit wird auf die Abstammung von einem gemeinsamen Vorfahren zurückgeführt. Vergleichen Sie dies mit "Homoplasie". Aus einer anderen Definition an anderer Stelle (Virginia Tech, Dept. of Biochem): Man muss erkennen, dass Homologie nicht notwendigerweise Ähnlichkeit impliziert. Homologie hat eine genaue Definition: einen gemeinsamen evolutionären Ursprung haben. Somit ist Homologie eine qualitative Beschreibung der Natur der Beziehung zwischen zwei oder mehr Dingen, und sie kann nicht partiell sein. Entweder gibt es eine evolutionäre Beziehung oder nicht. Eine Homologiebehauptung muss in der Regel eine Hypothese bleiben. Unterstützende Daten für eine homologe Beziehung können Sequenz- oder dreidimensionale Ähnlichkeiten umfassen, deren Beziehungen quantitativ beschrieben werden können. Eine wichtige Beobachtung bei der Homologiemodellierung ist, dass für einen Satz von Proteinen, von denen angenommen wird, dass sie homolog sind, ihre dreidimensionalen Strukturen in einem größeren Ausmaß konserviert sind als ihre Primärstrukturen. Diese Beobachtung wurde verwendet, um Modelle von Proteinen aus Homologen mit sehr geringen Sequenzähnlichkeiten zu erzeugen. In der Homologiemodellierung versuchen wir daher, Modelle eines Unbekannten aus homologen Proteinen zu entwickeln. Diese Proteine ​​werden ein gewisses Maß an Sequenzähnlichkeit aufweisen, aber wir verlassen uns auch auf die Erhaltung der Faltungen zwischen Homologen, um uns zu leiten.
Homoplasie Ähnlichkeit, die sich unabhängig entwickelt hat und nicht auf eine gemeinsame Abstammung hinweist.
HSP Segmentpaar mit hoher Punktzahl. Lokale Ausrichtungen ohne Lücken, die eine der besten Ausrichtungsbewertungen in einer bestimmten Suche erzielen.
Identität Das Ausmaß, in dem zwei (Nukleotid- oder Aminosäure-)Sequenzen invariant sind.
K Ein statistischer Parameter, der bei der Berechnung von BLAST-Scores verwendet wird und als natürliche Skala für die Suchraumgröße betrachtet werden kann. Der Wert K wird beim Umwandeln einer Rohbewertung (S) in eine Bitbewertung (S') verwendet.
Lambda Ein statistischer Parameter, der bei der Berechnung von BLAST-Scores verwendet wird und als natürliche Skala für das Bewertungssystem angesehen werden kann. Der Wert Lambda wird beim Umwandeln einer Rohbewertung (S) in eine Bitbewertung (S') verwendet.
Lokale Ausrichtung Das Alignment eines Teils von zwei Nukleinsäure- oder Proteinsequenzen
Region mit niedriger Komplexität (LCR) Regionen mit verzerrter Zusammensetzung, einschließlich homopolymerer Läufe, Wiederholungen mit kurzer Periode und subtilerer Überrepräsentation eines oder weniger Reste. Das SEG-Programm wird verwendet, um LCRs in Aminosäureabfragen zu maskieren oder zu filtern. Das Programm DUST wird verwendet, um LCRs in Nukleinsäureabfragen zu maskieren oder zu filtern.
Maskierung Auch als Filtern bekannt. Das Entfernen von wiederholten oder Regionen geringer Komplexität aus einer Sequenz, um die Sensitivität von Sequenzähnlichkeitssuchen, die mit dieser Sequenz durchgeführt werden, zu verbessern.
Motiv Eine kurze konservierte Region in einer Proteinsequenz. Motive sind häufig hochkonservierte Teile von Proteindomänen.
Ausrichtung mehrerer Sequenzen Ein Alignment von drei oder mehr Sequenzen mit in die Sequenzen eingefügten Lücken, so dass Reste mit gemeinsamen strukturellen Positionen und/oder Vorfahrenresten in derselben Spalte ausgerichtet werden. Clustal W ist eines der am häufigsten verwendeten multiplen Sequenz-Alignment-Programme. Siehe das einfache Beispiel mit drei Buchstabenfolgen


Optimale Ausrichtung Ein Alignment von zwei oder mehr Sequenzen mit dem höchstmöglichen Score.
Orthologe Homologe Sequenzen in verschiedenen Arten, die während der Artbildung aus einem gemeinsamen Vorfahrengen hervorgegangen sind, können für eine ähnliche Funktion verantwortlich sein oder auch nicht. Denken Sie daran: Trennung der beiden Sequenzen aufgrund des SPECIATION-Ereignisses.
P-Wert Die Wahrscheinlichkeit, dass eine Übereinstimmung mit dem fraglichen Score oder besser auftritt. Der p-Wert wird berechnet, indem der beobachtete Alignment-Score S mit der erwarteten Verteilung von HSP-Scores aus Vergleichen von Zufallssequenzen derselben Länge und Zusammensetzung wie die Abfrage an die Datenbank in Beziehung gesetzt wird. Die höchstsignifikanten P-Werte sind die nahe 0. P-Werte und E-Werte sind unterschiedliche Arten, die Signifikanz des Alignments darzustellen.
PAM Prozent akzeptierte Mutation. Eine von Dayhoff et al. um das Ausmaß der evolutionären Veränderung in einer Proteinsequenz zu quantifizieren. 1,0 PAM-Einheit, ist der Evolutionsgrad, der durchschnittlich 1% der Aminosäuren in einer Proteinsequenz verändert. Eine PAM(x)-Substitutionsmatrix ist eine Nachschlagetabelle, in der Bewertungen für jede Aminosäuresubstitution basierend auf der Häufigkeit dieser Substitution in eng verwandten Proteinen berechnet wurden, die eine bestimmte Menge (x) an evolutionärer Divergenz erfahren haben.
Paraloge Homologe Sequenzen innerhalb einer einzigen Spezies, die durch Genduplikation entstanden sind.
Profil Eine Tabelle, die die Häufigkeiten jeder Aminosäure an jeder Position der Proteinsequenz auflistet. Die Frequenzen werden aus mehreren Alignments von Sequenzen berechnet, die eine interessierende Domäne enthalten. Siehe auch PSSM.

Proteomik Systematische Analyse der Proteinexpression von normalen und erkrankten Geweben, die die Trennung, Identifizierung und Charakterisierung aller Proteine ​​in einem Organismus beinhaltet.
PSI-BLAST PPosition-Sspezifisch ichterativer BLAST. Eine iterative Suche mit dem BLAST-Algorithmus. Nach der anfänglichen Suche wird ein Profil erstellt, das dann in nachfolgenden Suchen verwendet wird. Der Vorgang kann, falls gewünscht, mit neuen Sequenzen wiederholt werden, die in jedem Zyklus gefunden werden, der verwendet wird, um das Profil zu verfeinern. Details sind dieser Diskussion von PSI-BLAST zu entnehmen. (Altschulet al.)
PSSM Positionsspezifische Scoring-Matrix siehe Profil. Das PSSM gibt den Log-Odds-Score für das Auffinden einer bestimmten passenden Aminosäure in einer Zielsequenz an.
Anfrage Die Eingabefolge (oder ein anderer Suchbegriff), mit der alle Einträge in einer Datenbank verglichen werden sollen.
Rohwert Die Bewertung eines Alignments, S, berechnet als Summe der Substitutions- und Lückenbewertungen. Ersatzbewertungen werden durch eine Nachschlagetabelle (siehe PAM, BLOSUM) angegeben. Lückenbewertungen werden typischerweise als die Summe von G, der Lückenöffnungsstrafe und L, der Lückenerweiterungsstrafe, berechnet. Für eine Lücke der Länge n wären die Lückenkosten G+Ln. Die Wahl der Lückenkosten G und L ist empirisch, aber es ist üblich, einen hohen Wert für G (10-15) und einen niedrigen Wert für L (1-2) zu wählen.
Leserahmen Aus Gusfields Buch: "Eine von drei Stellen, an denen man mit dem Lesen beginnen kann, wenn man eine Zeichenfolge aus dem DNA-Alphabet in das Aminosäurealphabet übersetzt. Wenn auch die Richtung der Zeichenfolge nicht festgelegt ist, bezieht sie sich auf einen von sechs Leserahmen". (Drei von jedem der gegenüberliegenden Stränge).

Es ist notwendig, den Frame beizubehalten, um die richtige Aminosäuresequenz zu erzeugen: Eine Insertions-/Deletionsmutation kann dazu führen, dass sich der Frame verschiebt und eine von mehreren Konsequenzen hat, zum Beispiel: 1) sie kann die ursprüngliche Lesart der Codons ändern, Generieren einer neuen Aminosäuresequenz oder/und 2) es kann ein neues Stop-Condon einführen, wodurch ein verkürztes Protein erzeugt wird, oder es kann, je nachdem, wo die Mutation stattfindet, die Translation vollständig blockieren.
SEG Ein Programm zum Filtern von Regionen geringer Komplexität in Aminosäuresequenzen. Maskierte Reste werden in einem Alignment als "X" dargestellt. Die SEG-Filterung wird standardmäßig in der blastp-Unterroutine von BLAST 2.0 durchgeführt. (Wootton und Federhen)
Stille Mutationen Aus Gusfields Buch: "Eine Mutation in einem DNA-Codon, die die angegebene Aminosäure nicht verändert. Meistens befindet sich eine stille Mutation im dritten Nukleotid im Kondon."
Ähnlichkeit Das Ausmaß, in dem Nukleotid- oder Proteinsequenzen verwandt sind. Das Ausmaß der Ähnlichkeit zwischen zwei Sequenzen kann auf der prozentualen Sequenzidentität und/oder Konservierung basieren. In BLAST bezieht sich Ähnlichkeit auf einen positiven Matrix-Score.
Single-Pass-Sequenz Single pass means that a sequence has been analized on the sequencer machine only once. Generally, when the researcher is looking for the precise sequence of a clone, the sequencing reaction is served serveral times, each at a different time interval and in a separate lane of the sequencing gel. This is to produce an overlaping series of reads (all coming from the same clone and same reaction) that is used both to corroborate the sequence (by depth provided by overlap) and to extend beyond the natural length achievable in one lane by the size of the gel and by band distorsions at the bottom of the gel. It is sometimes called walking reads in a directed approach (new primers can be designed from the learned sequence to amplify and continue the walking).

Single pass is avoiding all these expensive checkups, and a reaction is loaded only one time in one lane, meaning that only one sample sequence is obtained from a given clone. Instead it relies in finding random overlaps with other clones in a shotgun sequencing approach. NOTE: In this past definition, I assume that a single lane is enough to see all four bases, as in multiplexed gel loading.
Zeichenfolge An ordered sequence of letters from a given alphabet. A substring is defined as a contigous subset (portion) of a string.
Sequence Tagged Site (STS) From Gusfield's book: "Roughly, a short DNA sequence that occurs only once in the genome. More exactly, a pair of PCR primers within a bounded distance, with the property that PCR succeeds using them at only one location in the genome. STS provide markers throughout the genome, but they need not be located in genes, in contrast to ESTs".
Auswechslung The presence of a non-identical amino acid at a given position in an alignment. If the aligned residues have similar physico-chemical properties the substitution is said to be "conservative".
Substitution Matrix A substitution matrix containing values proportional to the probability that amino acid i mutates into amino acid j for all pairs of amino acids. such matrices are constructed by assembling a large and diverse sample of verified pairwise alignments of amino acids. If the sample is large enough to be statistically significant, the resulting matrices should reflect the true probabilities of mutations occuring through a period of evolution.
Unitary Matrix Also known as Identity Matrix. A scoring system in which only identical characters receive a positive score.


Schau das Video: Analyzing Gene Sequence Results with BLAST (Kann 2022).