Bioinformatik: Ein nützlicher Essay zur Bioinformatik

Bioinformatik kann als Wissenschaftszweig definiert werden, in dem biologische Daten interpretiert, verglichen und analysiert werden können. Es hat sich als eine neue Disziplin herausgestellt, die versucht, komplexe Probleme in den Lebenswissenschaften, insbesondere in der Biotechnologie, zu lösen.

Datenerfassung, Data Warehousing und Data Mining sind für Biotechnologen und Biowissenschaftler zu einem wichtigen Problem geworden, da die quantitativen Daten in der Biologie plötzlich zunehmen, beispielsweise vollständige Genome biologischer Spezies, einschließlich des menschlichen Genoms, Proteinsequenzen, dreidimensionale Proteinstrukturen und Stoffwechselwege Datenbanken, Zelllinien, Biodiversitätsinformationen. Fortschritte in der Informationstechnologie, insbesondere im Internet, werden genutzt, um die ständig wachsenden Informationen in der Biologie und Biotechnologie zu sammeln, zugänglich zu machen und zu verbreiten.

Die Bioinformatik ist ein sehr weites Feld und umfasst Themen wie Mapping, Sequenzierung, Sequenzvergleich, Genidentifizierung, Proteinmodellierung, Netzwerkdatenbanken, Visualisierung und Ethik. Es ist ein interdisziplinäres Thema, das einerseits den Aufbau einer biologischen Informationsinfrastruktur und andererseits eine auf Berechnungen basierende biologische Forschung erfordert. All dies hängt von den großen Beständen an experimentellen und abgeleiteten Daten ab.

Die Grundlage der Bioinformatik basiert auf den Computertechniken, Algorithmen, künstlicher Intelligenz, Datenbankmanagement, Software-Engineering usw. All dies führt zur Entwicklung gemeinschaftlicher Datenressourcen und damit beginnt die Anwendungsentwicklung der Bioinformatik zur Analyse der genetischen Daten.

Die Bioinformatik mit ihren umfangreichen Datenbanken hat die Informatiker vor viele Herausforderungen gestellt. Diese sind:

1. Informationsspeicherung

2. Verwaltung und Integration biologischer Daten

3. Sequenzanalyse-Software

4. Software zur Vorhersage der Proteinfaltung

5. Kartenmontage- und Integrationssoftware

6. Vergleichende Genomik-Tools

7. Gene Mining

8. Computergestützte Drogendesign

Biologische Datenquellen:

Da eine große Datenmenge in einem schnellen Tempo generiert wird, ist es unerlässlich zu wissen, wie diese Informationen abgerufen, durchsucht und interpretiert werden können. Es gibt verschiedene Datenabrufsysteme, die für verschiedene Forschungszwecke geschaffen wurden und weit verbreitet sind. Es gibt mehrere internationale Datenbanken mit genetischen Sequenzen, die die Archivierung von Bio-Sequenzen gewissermaßen koordinieren.

Es gibt Hunderte von Nukleotid- und Proteinsequenz-Datenbanken, die für bestimmte Zwecke erstellt werden. Sie werden nach ihrer Funktion klassifiziert, die in der ersten Ausgabe von Nucleic Acids aktualisiert und aufgelistet sind. Research Journal zu Beginn eines jeden Jahres. Es gibt einen Datenbankkatalog DBCAT, der die Informationen zur Datenbank, wo sie zur Verfügung steht und an wen sie sich wenden können, um diese Datenbanken zu nutzen.

Derzeit listet DBCAT 60 DNA, 22 RNA, 75 Protein, 58 Genomic, 29 Mapping, 18 Protein Structure, 37 Literatur und 113 verschiedene Datenbanken auf. Die umfassenden Repository-Datenbanken für Nukleotid- und Proteinsequenzen, dreidimensionale Proteinstrukturen, die allgemein bekannt und weit verbreitet sind, werden über das Internet weltweit verbreitet. Dazu gehören Genbanken, Proteindatenbanken, Sequenztools usw.

Proteindatenbank (PDB):

Dreidimensionale Strukturen von Proteinen, die durch Röntgenkristallographie, Neutronenbeugung und NMR-Untersuchungen bestimmt wurden, wurden früher in der bei National Brookhaven Laboratories, New York, USA, eingerichteten Protein-Datenbank abgelegt.

Die Proteindatenbank wird derzeit von Research Collaborators of Structural Bioinformatics in Rutgers, USA, gepflegt. Derzeit befinden sich 12500 Strukturen in der Datenbank, jedoch sind 50 Prozent der Strukturen überflüssig, da die meisten Strukturen homolog sind oder unterschiedliche Auflösungen aufweisen. Ungefähr 2500 neue dreidimensionale Strukturen werden voraussichtlich jedes Jahr hinzugefügt.

Genidentifizierung / Annotation:

Die dringlichsten Aufgaben für die biologische Sequenzanalyse sind:

1. Finden Sie Gene in den DNA-Sequenzen verschiedener Organismen. Es stellt sich heraus, dass die Gene mit DNA durchsetzt sind, die andere Funktionen hat, wie z. B. die Genregulation, und es ist schwierig, die genauen Grenzen der Gene selbst zu lokalisieren, sodass sie aus der DNA-Datenbank extrahiert werden können. Gensuchprogramme wie GRAIL, Gene-lD, Gene-Parser, Gene-Lang, FGELEH, Genie und Eco-Phrase sind neuronale Netze und andere AI- oder statistische Verfahren zur Lokalisierung von Genen in DNA-Sequenzen.

2. Sobald ein Gen aus der DNA-Datenbank richtig identifiziert wurde, ist es einfach, das Protein zu bestimmen, für das es kodiert, und zwar unter Verwendung des bekannten genetischen Codes. Ein Protein kann als eine Folge von Alphabet-Aminosäuren mit 20 Buchstaben dargestellt werden.

Diese Sequenz wird entsprechend dem genetischen Code als Primärstruktur des Proteins bezeichnet. Während die Primärstruktur des Proteins leicht zu bestimmen ist, lässt sich die 3D-Struktur nur schwer vorhersagen.

In einer Zelle faltet sich die Proteinsequenz auf eine für jedes Protein einzigartige Weise, wodurch sie eine höhere Strukturordnung erhält. Das Verständnis dieser Struktur höherer Ordnung ist entscheidend für das Verständnis der Funktionen von Proteinen.

Bei RNA-Molekülen ist die Situation ähnlich. Die zweite dringende Aufgabe für die biologische Sequenzanalyse ist daher die Entwicklung von Methoden zur Vorhersage der Struktur und / oder Funktion von neu entdeckten Proteinen und einer strukturellen RNA-Sequenz.

Ein allgemeiner Ansatz für dieses Problem ist das Durchsuchen einer Datenbank bekannter Sequenzen oder Sequenzen, die der neu entdeckten Sequenz ähnlich sind. Hier ist es wichtig, nach Sequenzen zu suchen, deren Struktur und / oder Funktion den neuen Sequenzen ähnelt, anstatt einen naiveren String-Matching durchzuführen, bei dem nur Übereinstimmungen in der Primärstruktur berücksichtigt werden. Dies hat sich als äußerst herausfordernde Aufgabe erwiesen.

Sequenzanalyse (Gen / Protein):

Einige Möglichkeiten zur Analyse einer neuen DNA-Sequenz umfassen:

1. Verwenden Sie die Sequenz als Probe in einer Datenbanksuche, falls bereits jemand dieselbe Region sequenziert hat.

2. Verwenden Sie eine Methode, mit der versucht wird, codierende Bereiche zu finden.

3. Verwenden Sie eine Methode, die versucht, Signale wie Promotoren, Translationsinitiationsregionen, RNA-Prozessierungsstellen und Terminatoren im Bereich des wahrscheinlichen kodierenden Frames zu lokalisieren.

4. Versuchen Sie, die Kodierungssequenz zu einem fortlaufenden Segment zusammenzusetzen und zu übersetzen,

5. Das resultierende abgeleitete Protein sollte als Sonde bei einer Datenbanksuche verwendet werden, um festzustellen, ob homologe Proteine ​​vorhanden sind. Wenn eine ähnliche Sequenz gefunden wird, zeigt ein sorgfältiger Vergleich mögliche Fehler in der Sondensequenz, die zu einem verkürzten Produkt, einer falschen Wahl der Intron-Exon-Grenzen und eng beabstandeten Frame-Verschiebungen führen, die eine nicht codierende Sequenz einfügen.

6. Suchen Sie nach interessanten Regionen nach Stamm- und Schleifenstrukturen, die möglicherweise für die Regulation der Expression wichtig sind. Insbesondere 5'- oder 3'-nichtkodierende Regionen könnten mögliche Introns untersucht werden.

Proteomics:

Proteomik oder Proteom-Technologie wird vom Wort Proteom (Satz von Proteinen, die von einem Genom codiert werden) abgeleitet. Proteomics umfasst die physikalische Trennung von Proteinen unter Berücksichtigung der Unterschiede, die durch posttranslationale Modifikationen hervorgerufen werden, die quantitative Isolierung durch Hochdruckflüssigkeitschromatographie (HPLC) und andere Säulentypen sowie die Proteinidentifikation durch N-terminale Sequenzierung durch Massenspektroskopie. Die Messung der Proteinaktivität kann durch einen funktionellen Assay untersucht werden.

Strukturgenomik:

Die Sequenzierung von Genomen hat eine Reihe von Proteinen offenbart, deren Funktionen unbekannt sind. In solchen Fällen stellt die Fähigkeit der Struktur zur Entdeckung entfernter evolutionärer Beziehungen ein Werkzeug dar, um die biochemischen Rollen solcher Proteine ​​zu identifizieren. Computergestützte und experimentelle Ansätze spielen eine komplementäre Rolle bei dem Versuch, eine experimentelle Struktur oder ein gutes theoretisches Modell für jedes Protein bereitzustellen, das vollständig ist.

Es ist jedoch nicht möglich, die Röntgenstruktur aller isolierten Proteine ​​zu bestimmen. Die NMR-Strukturanalyse (Nuclear Magnetic Resonance) kann bis zu einem gewissen Grad hilfreich sein, ist jedoch möglicherweise nicht kosteneffektiv und hilft nicht bei der Lösung von Proteinen mit einer großen Anzahl von Aminosäureresten.

Gegenwärtig gibt es fast dreizehntausend Einträge von Proteinstrukturen in der Brookhaven Protein Data Bank, USA, verglichen mit fünfundachtzigtausend nicht redundanten Proteinsequenzen in der Swissprot-Datenbank und rund eintausend tausend Proteinsequenzen in der Protein Identification Resource-Datenbank.

Von diesen dreizehntausend Einträgen gibt es höchstens 300 bis 400 einzigartige Strukturen, die als Proteinfamilien mit ähnlicher Struktur und Funktion gruppiert werden können. Im menschlichen Proteom wurde vorhergesagt, dass es 1-Lakh-Proteine ​​geben wird und dass alle Proteine ​​nicht mehr als eintausend einzigartige Proteinfalten aufweisen dürfen.

Daher wird die Strukturanalyse eine wichtige Rolle beim Modellieren von dreidimensionalen Strukturinformationen sowie bei der Vorhersage von Algorithmen spielen, indem die Sequenz in bekannte Proteinfalten eingefädelt wird. Die neu aufgelösten oder modellierten Strukturen werden mit anderen Proteinen bekannter Struktur in Klassifizierungen wie SCOP (Strukturelle Klassifikation von Proteinen), CATH (Klasse, Architektur, Topologie und Homologie) oder FSSP (Fold-Klassifizierung basierend auf der Strukturanordnung von Proteinen) verglichen Informationen über ihre Entwicklung und Funktion.

Drug Design (Molekulare Medizin):

Die Rolle von Computern im strukturbasierten Medikamentendesign wurde in den frühen achtziger Jahren eingeführt und in den letzten Jahren spielten Computer eine immer größere Rolle im Prozess des Medikamentenentwurfs. Mit sich schnell entwickelnden superschnellen Computern, verbesserter Genauigkeit beim Liganden-Screening, verbesserten kombinatorischen Chemiekonzepten, einer virtuellen Explosion bei der Verfügbarkeit dreidimensionaler Strukturinformationen und einer Genomsequenz-Datenbank stehen die Computertechniken weiterhin im Mittelpunkt vieler verschiedener Aspekte von Arzneimitteln Design- und Entwicklungsprozess.

Strukturbasiertes Wirkstoffdesign (rationales Wirkstoffdesign) ist ein komplizierter Prozess, bei dem Informationen verwendet werden, die in dreidimensionalen Strukturen von makromolekularen Targets und den zugehörigen Target-Ligand-Komplexen enthalten sind, um neuartige Medikamente für verschiedene Krankheiten zu entwerfen.

Mithilfe rechnerischer Methoden werden alle relevanten Informationen aus den verfügbaren Strukturen für das Design von wirksamen Medikamenten extrahiert. Viele der weit verbreiteten Techniken, wie Röntgenkristallographie, molekulare Modellierung, NMR usw., erfordern umfangreiche Berechnungen. Datenbankrecherche, Target-Ligand-Docking und Ligandenoptimierungstechniken sind der Schlüssel für die Entwicklung von Leitverbindungen, und alle diese Ansätze verwenden computergestützte Methoden.

Die 2- und 3-dimensionale QSAR-Technik (Quantitative Structure Activity Relationship), die die statistische Analyse eines Satzes von Eigenschaften oder Deskriptoren für eine Reihe biologisch aktiver Moleküle zur Vorhersage der Aktivität zusätzlicher Verbindungen beinhaltet, wurde durch moderne Computer erheblich unterstützt, was dies ermöglicht schnellere und genauere Analyse.

Computergestütztes, strukturbasiertes Wirkstoffdesign spielte in der jüngsten erfolgreichen Entwicklung von Medikamenten zur Behandlung von AIDS (HIV-Protease-Inhibitoren) und von Entzündungen (COX-2-Inhibitoren) eine wichtige Rolle. Computer sind an fast allen Aspekten des heutigen Wirkstoffforschungsprozesses beteiligt.

Der traditionelle Ansatz, Tausende von Verbindungen auf Aktivität gegen ein Ziel zu screenen, um eine Leitverbindung zu finden, wird schnell durch den HTS-Ansatz (High Throughput Screening) ersetzt. Das HTS-Verfahren verwendet computergesteuerte Hochgeschwindigkeitsroboter, wodurch die Siebzeit erheblich reduziert wird.

Computertools zum Abrufen der Genomdaten, zum Identifizieren potenzieller neuer Medikamentenziele, zur Aufklärung oder Vorhersage der dreidimensionalen Struktur von Targets aus der Primärstruktur sind der Kern der heutigen Bioinformatik-Technologie. Computergestützte Ansätze werden auch weiterhin ein wesentlicher Bestandteil des laufenden und künftigen Wirkstoffdesign- und -entwicklungsprozesses sein.

Fazit:

Die computergestützte Analyse von Bio-Sequenzen beeinflusst zunehmend die Biologie. Computational Bio-Sequence-Analyse- und Datenbank-Suchwerkzeuge sind mittlerweile ein integraler und unverzichtbarer Bestandteil des Feldes und führen im letzten Jahrzehnt zu zahlreichen wichtigen wissenschaftlichen Entdeckungen. Die meisten davon sind aus Datenbankrecherchen hervorgegangen, die unerwartete Ähnlichkeiten zwischen Molekülen zeigten, von denen bisher nicht bekannt war, dass sie miteinander verwandt sind.

Diese Methoden gewinnen jedoch auch bei der direkten Bestimmung von Struktur und Funktion von Biomolekülen an Bedeutung. Normalerweise hängt dieser Prozess stark von der Anwendung biologischen Wissens und von Laborversuchen durch den Menschen ab, zusammen mit den Ergebnissen aus der Anwendung verschiedener recht einfacher Programme, die statistische Analysen der Daten durchführen und / oder einfache kombinatorische Methoden anwenden.

Die Schlüsselherausforderung für die Zukunft besteht darin, Computermethoden zu entwickeln, mit denen Bio-Sequenzen durch eine noch umfassendere Integration von biologischem Wissen und statistischen Methoden interpretiert werden können. Dies ermöglicht es dem Biologen, im Interpretationsprozess auf einer höheren Ebene tätig zu werden, wo seine Kreativität von größtem Wert sein könnte.