Genomik: Struktur- und Funktionsstudien der Genomik

Genomik: Struktur- und Funktionsstudien der Genomik!

Der Begriff Genom wurde von H. Winkler (1920) eingeführt, um den vollständigen Satz chromosomaler und extra chromosomaler Gene zu bezeichnen, die in einem Organismus vorhanden sind, einschließlich eines Virus.

Der von TH Roderick (1987) geprägte Begriff Genomik bedeutet Kartierung und Sequenzierung zur Analyse der Struktur und Organisation von Genomen. Gegenwärtig umfasst die Genomik jedoch die Sequenzierung von Genomen, die Bestimmung des vollständigen Satzes von Proteinen, die von einem Organismus codiert werden, sowie die Funktion von Genen und Stoffwechselwegen in einem Organismus.

Das Studium der Genomik gliedert sich in folgende zwei Bereiche:

1. Die Strukturgenomik befasst sich mit der Bestimmung der vollständigen Genomsequenz oder des kompletten Satzes von Proteinen, die von einem Organismus produziert werden. Die verschiedenen Schritte sind: (i) Konstruktion von genetischen und physikalischen Karten mit hoher Auflösung, (ii) Sequenzierung des Genoms und (iii) Bestimmung des vollständigen Proteinsatzes in einem Organismus. Dazu gehört auch die Bestimmung der dreidimensionalen Strukturen der betroffenen Proteine.

2. Die Funktionale Genomik untersucht das Funktionieren von Genen und Stoffwechselwegen, dh die Genexpressionsmuster in Organismen.

Sequenzierung von Genomen:

Die Sequenzierung von Genomen ist ein hochentwickelter und technisch anspruchsvoller Prozess. Auf einmal kann ein Fragment von 500-600 bp sequenziert werden. Im Gegensatz dazu sind Genome extrem groß, z. B. 4, 2 × 10 6 für E. coli und 3, 2 × 10 9 bp für Menschen. Daher muss die Sequenz von Genoxne in einer extrem großen Anzahl von kleinen Stücken erhalten werden, diese Stücke werden dann zu einer Sequenz für das Genom zusammengefügt.

Die zur Sequenzierung verwendeten Stücke werden durch zufälliges Aufbrechen der genomischen DNA in Fragmente erzeugt. Folglich muss der Ort des Fragments im Genom experimentell bestimmt werden. Alle aus der genomischen DNA eines Organismus erhaltenen Fragmente werden in einen geeigneten Vektor kloniert, der eine genomische Bibliothek des Organismus erzeugt. Die zwei Ansätze zur Sequenzierung von Genomen sind: (a) Klon für Klon-Sequenzierung und (b) Shot-Gun-Sequenzierung.

(a) Klon-by-Klon-Sequenzierung:

Bei diesem Verfahren werden die Fragmente zunächst in Contigs ausgerichtet, die auch als gerichtete Sequenzierung von BAC-Contigs bezeichnet werden. Ein Contig besteht aus einer Reihe von Klonen, die überlappende DNA-Stücke enthalten, die eine bestimmte Region eines Chromosoms oder sogar das gesamte Chromosom umwandeln. Sie werden normalerweise unter Verwendung von BAC (bakterielles künstliches Chromosom) und Cosmidklonen konstruiert.

Der allgemeine Ansatz bei der Erstellung von Contigs besteht darin, die Klone zu identifizieren, die benachbarte DNA-Segmente aus dem Chromosom aufweisen, z. B. das Gehen des Chromosoms, das Springen des Chromosoms usw. Daher müssen die Mitglieder eines Contig die gleiche überlappende Region enthalten, um deren Position genau bestimmen zu können -in der conting. Das ultimative Ziel physikalischer Kartierungsverfahren besteht darin, für jedes Chromosom des Genoms eine vollständige Kontrolle zu erhalten.

Die klonierten DNA-Fragmente eines Contigments können mit Positionen entlang eines Chromosoms korreliert werden, die durch Verknüpfung oder zytogenetische Kartierung erhalten werden. Dies kann erreicht werden, indem Mitglieder des Contig identifiziert werden, die Inserts mit solchen Genen enthalten, die bereits durch Verknüpfungs- oder zytologische Verfahren kartiert wurden. Dies würde die Ausrichtung der anderen Mitglieder des Contig entlang des Chromosoms ermöglichen. Alternativ können RFLP (Restriktionsfragmentlängenpolymorphismus) und andere DNA-Marker verwendet werden, um die Positionen in einer Verknüpfungskarte mit den Mitgliedern eines Contig zu korrelieren.

(b) Shot-Gun-Sequenzierung:

Bei diesem Ansatz werden zufällig ausgewählte Klone sequenziert, bis alle Klone in der Genombibliothek analysiert sind. Assembler-Software organisiert die so erhaltenen Nukleotidsequenzinformationen in eine Genomsequenz. Diese Strategie funktioniert sehr gut mit prokaryotischen Genomen, die wenig repetitive DNA haben. Bei eukaryotischen Genomen gibt es jedoch viele wiederholte Sequenzen, die bei der Ausrichtung der Sequenz zu Verwirrung führen. Diese Probleme werden gelöst, indem enorme Rechenleistungen und spezielle Software verwendet werden und solche Regionen vermieden werden, die reich an repetitiver DNA sind (z. B. zentromerische und telomerische Regionen).

Genomsequenzzusammenstellung:

Genomsequenzierungsprojekte erforderten die Entwicklung von Hochdurchsatztechnologien, die Daten sehr schnell generieren. Dies erforderte den Einsatz von Computern, um diese Informationsflut zu bewältigen, und es entstand eine neue Disziplin, die Bioinformatik. Die Bioinformatik befasst sich mit der Speicherung, Analyse, Interpretation und Nutzung der Informationen über biologische Systeme (Aktivitäten wie Zusammenstellung von Genomsequenzen, Identifizierung von Genen, Zuordnung von Funktionen zu den identifizierten Genen, Erstellung von Datenbanken usw.).

Um sicherzustellen, dass die Nukleotidsequenz eines Genoms vollständig und fehlerfrei ist, wird das Genom mehr als einmal sequenziert. Sobald das Genom eines Organismus sequenziert, kompiliert und korrigiert wurde (korrigiert die Fehler), beginnt die nächste Stufe der Genomik, dh die Annotation.

Genvorhersage und Zählung:

Nachdem eine Genomsequenz erhalten und auf Genauigkeit überprüft wurde, besteht die nächste Aufgabe darin, alle Gene zu finden, die Proteine ​​kodieren. Dies ist der erste Schritt in der Anmerkung. Annotation ist ein Prozess, der Gene, ihre regulatorischen Sequenzen und ihre Funktion (en) identifiziert. Es identifiziert auch Nicht-Protein-kodierende Gene, einschließlich solcher, die für r-RNA, t-RNA und kleine Kern-RNAs kodieren. Darüber hinaus werden mobile genetische Elemente und sich wiederholende Sequenzfamilien identifiziert und charakterisiert.

Die Lokalisierung von proteinkodierenden Genen erfolgt durch Untersuchen der Sequenz, mithilfe einer Computersoftware oder durch Auge. Proteinkodierende Gene werden durch Open Reading Frames (ORFs) identifiziert. Ein ORF hat eine Reihe a-Codons, die eine Aminosäuresequenz spezifizieren, er beginnt mit einem Initiationscodon (normalerweise ATG) und endet mit einem Terminationscodon (TAA), TAG oder TGA. ORFs werden normalerweise von einem Computer identifiziert und sind eine wirksame Methode für bakterielle Genome.

Gene in eukaryotischen Genomen (einschließlich des menschlichen Genoms) weisen mehrere Merkmale auf, die das direkte Suchen weniger nützlich machen. Erstens haben die meisten eukaryotischen Gene ein Muster von Exons (kodierende Regionen), die mit Introns (nicht kodierende Regionen) abwechseln. Daher sind diese Gene nicht als kontinuierliche ORFs organisiert. Zweitens sind Gene bei Menschen und anderen Eukaryonten oft weit voneinander entfernt, wodurch die Wahrscheinlichkeit erhöht wird, falsche Gene zu finden. Neuere Versionen der ORF-Scansoftware für eukaryotische Genome machen das Scannen jedoch effizienter.

Nachdem eine genomische Sequenz analysiert und Gene vorhergesagt wurden, wird jedes Gen einzeln untersucht, um die Funktion des kodierten Genprodukts zu identifizieren, und in funktionelle Gruppen klassifiziert. Diese Analyse beinhaltet mehrere Programme. Zum Beispiel kann man Datenbanken wie Gene Bank durchsuchen, um ähnliche Gene zu finden, die von anderen Organismen isoliert wurden. Die vorhergesagten ORFs können mit denen von bekannten, gut charakterisierten Bakteriengenen verglichen werden. Schließlich kann man nach solchen Nukleotidsequenzen nach Funktionsmotiven suchen, die für Proteindomänen kodieren, die mit spezifischen Funktionen einhergehen.

Ziel der Genomanalyse ist es daher, die Funktionen aller Gene zu bestimmen und zu verstehen, wie diese Gene in der Entwicklung und Funktion des Organismus interagieren.

Funktionelle Genomik:

Es kann definiert werden als die Bestimmung der Funktion aller Genprodukte, die vom Genom eines Organismus kodiert werden. Es umfasst die folgenden Parameter: (1) wann und wo bestimmte Gene exprimiert werden (Expressionsprofilierung), (ii) die Funktionen bestimmter Gene durch selektive Mutation der gewünschten Gene und (iii) die Wechselwirkungen zwischen Proteinen und zwischen Proteinen und andere Moleküle. Die funktionale Genomik versucht, alle im Genom vorhandenen Gene auf einmal zu untersuchen. Daher ermöglichen die in der funktionellen Genomik verwendeten Techniken eine Analyse mit hohem Durchsatz, die eine sehr schnelle Datenakkumulation ermöglicht.

(i) Ausdrucksprofilierung:

Die Bestimmung der Zelltypen / -gewebe, in denen ein Gen exprimiert wird sowie wann das Gen exprimiert wird, wird als Expressionsprofilierung bezeichnet. Ziel der funktionellen Genomik ist es, das Expressionsmuster aller im Genom vorhandenen Gene gleichzeitig zu untersuchen. Dies wird als globales Ausdrucksprofiling bezeichnet. Dies kann entweder auf RNA-Ebene oder auf Proteinebene erfolgen. Auf RNA-Ebene könnte man entweder direkte Sequenzabtastung oder DNA-Arrays verwenden.

Auf der Proteinebene kann man entweder eine zweidimensionale Elektrophorese verwenden, gefolgt von Massenspektrometrie oder Proteinarrays. Globale Expressionsprofile bieten Einblicke in komplexe biologische Phänomene, einschließlich Differenzierung, Reaktion auf Stress, Auftreten einer Krankheit usw. Außerdem bietet sie eine neue Möglichkeit, zelluläre Phänotypen zu definieren.

(ii) Genfunktionsbestimmung:

Ein wichtiger Aspekt der funktionellen Genomik ist die Bestimmung der Funktion bestimmter Gene / anonymer Sequenzen. Um dies zu erreichen, können Sie das Gen klonen, in vitro mutieren und das mutierte Gen wieder in den Wirtsorganismus einführen und seine Wirkung analysieren. Genome unter Mutantenbibliotheken wurden in verschiedenen Modellorganismen wie Bakterien, Hefen, Pflanzen und Säugetieren entwickelt. Dies wird manchmal als Mutationsgenomik bezeichnet. Eine solche Bibliothek kann auf eine der folgenden drei Arten generiert werden:

(a) Systematische Mutation jedes einzelnen Gens nacheinander, wodurch eine Bank spezifischer Mutantenstämme erzeugt wird.

(b) Beim Zufallsverfahren werden Gene mutiert, wobei unterschiedslos einzelne Mutationen charakterisiert und katalogisiert werden.

(c) Bei diesem Ansatz wird eine Gruppe von Techniken verwendet, um die Expression bestimmter Gengruppen zu verhindern.

(iii) Proteininteraktionen:

Die Genfunktion spiegelt das Verhalten von Proteinen wider, die von ihnen kodiert werden. Dieses Verhalten kann als eine Reihe von Interaktionen zwischen verschiedenen Proteinen und zwischen Proteinen und anderen Molekülen gesehen werden. Proteinwechselwirkungen werden mit Hochdurchsatzverfahren untersucht. Mit einer Reihe von auf Bibliotheken basierenden Methoden zur Kartierung von Proteininteraktionen können Hunderte oder Tausende von Proteinen gleichzeitig gescreent werden. Diese Wechselwirkungen können in vitro oder in vivo getestet werden. Proteininteraktionsdaten aus verschiedenen Quellen werden in Datenbanken assimiliert.