Algorithmusauswahl für Protein

Nachricht

HeimHeim / Nachricht / Algorithmusauswahl für Protein

Aug 28, 2023

Algorithmusauswahl für Protein

Wissenschaftliche Berichte Band 13,

Wissenschaftliche Berichte Band 13, Artikelnummer: 8219 (2023) Diesen Artikel zitieren

381 Zugriffe

1 Altmetrisch

Details zu den Metriken

Die vorliegende Studie untersucht die Verwendung der Algorithmusauswahl zur automatischen Auswahl eines Algorithmus für eine bestimmte Protein-Ligand-Docking-Aufgabe. Bei der Entdeckung und Entwicklung von Arzneimitteln ist die Konzeptualisierung der Protein-Ligand-Bindung ein großes Problem. Die Lösung dieses Problems durch rechnerische Methoden ist von Vorteil, um den Ressourcen- und Zeitbedarf für den gesamten Arzneimittelentwicklungsprozess erheblich zu reduzieren. Eine Möglichkeit, das Protein-Ligand-Docking anzugehen, besteht darin, es als Such- und Optimierungsproblem zu modellieren. Hierzu gibt es unterschiedliche algorithmische Lösungen. Es gibt jedoch keinen ultimativen Algorithmus, der dieses Problem effizient lösen kann, sowohl im Hinblick auf die Qualität als auch auf die Geschwindigkeit des Protein-Ligand-Andockens. Dieses Argument motiviert zur Entwicklung neuer Algorithmen, die auf die jeweiligen Protein-Ligand-Docking-Szenarien zugeschnitten sind. Zu diesem Zweck wird in diesem Artikel ein auf maschinellem Lernen basierender Ansatz für eine verbesserte und robuste Docking-Leistung vorgestellt. Der vorgeschlagene Aufbau ist vollständig automatisiert und funktioniert ohne Expertenmeinung oder Beteiligung sowohl an Problem- als auch an Algorithmusaspekten. Als Fallstudie wurde eine empirische Analyse an einem bekannten Protein, dem Human Angiotensin-Converting Enzyme (ACE), mit 1428 Liganden durchgeführt. Aus Gründen der Allgemeingültigkeit wurde als Dockingplattform AutoDock 4.2 verwendet. Die Kandidatenalgorithmen stammen ebenfalls aus AutoDock 4.2. 28 eindeutig konfigurierte Lamarckian-Genetic-Algorithmen (LGA) werden ausgewählt, um einen Algorithmensatz zu erstellen. ALORS, ein auf Empfehlungssystemen basierendes Algorithmusauswahlsystem, wurde bevorzugt, um die Auswahl aus diesen LGA-Varianten auf Instanzbasis zu automatisieren. Um diese Auswahlautomatisierung zu realisieren, wurden molekulare Deskriptoren und Substruktur-Fingerabdrücke als Merkmale verwendet, die jede Zielprotein-Ligand-Andockinstanz charakterisieren. Die Berechnungsergebnisse zeigten, dass die Algorithmusauswahl allen Kandidatenalgorithmen überlegen ist. Im Bereich der Algorithmen wird über weitere Bewertungen berichtet, in denen die Beiträge der LGA-Parameter erörtert werden. Was das Protein-Ligand-Andocken betrifft, werden die Beiträge der oben genannten Merkmale untersucht, die Aufschluss über die kritischen Merkmale geben, die sich auf die Andockleistung auswirken.

Im Zuge neu auftretender Krankheiten und des zunehmenden Bewusstseins für den Wunsch, das menschliche Wohlbefinden zu verbessern, gibt es anhaltende Bemühungen, neue medizinische Innovationen umzusetzen. Ein breites Spektrum an Konzepten im Bereich Drug Discovery/Design (DD)1 war das Hauptthema des Interesses. Der DD-Prozess ist jedoch zeitaufwändig und teuer. Die gesamte DD-Pipeline kann bis zu 15 Jahre dauern, was hohe Budgets und die Beteiligung großer Wissenschaftlergruppen erfordert. In dieser Hinsicht ist der traditionelle DD-Prozess oft mit hohen Kosten und Risiken sowie einer geringen Erfolgsquote verbunden, Faktoren, die neue Forschungen entmutigen und wesentliche Fortschritte in diesem Bereich behindern2. Ein wesentlicher Faktor, der zu dieser Tatsache beiträgt, ist, dass DD im Wesentlichen ein Suchproblem im riesigen chemischen Raum zur Erkennung von Arzneimitteln darstellt3,4. Der wohl kritischste Schritt in diesem mühsamen Prozess ist die Identifizierung der neuen chemischen Verbindungen, die zu neuen Medikamenten entwickelt werden könnten.

Computeransätze haben sich im Allgemeinen als praktisch erwiesen, da sie wirksame Mechanismen darstellen, um den DD-Prozess schneller voranzutreiben und bessere Erfolgsergebnisse zu erzielen. Computer-Aided DD (CADD)5,6,7,8,9,10 ist ein Überbegriff für diese Rechenverfahren. Konkret handelt es sich bei CADD um eine Sammlung mathematischer und datengesteuerter Tools, die hinsichtlich ihrer Verwendung in DD disziplinübergreifend sind. Diese Werkzeuge werden als Computerprogramme implementiert und in Verbindung mit verschiedenen experimentellen Methoden eingesetzt, um die Entdeckung neuer chemischer Einheiten zu beschleunigen. Die CADD-Strategien können eine sehr große Anzahl von Verbindungen schnell selektieren und Treffer identifizieren, die in Leads umgewandelt werden können. Die Labormethoden übernehmen dann die Prüfung und Finalisierung des Arzneimittels. Dieser Prozess ist iterativ und reziprok. Die Ergebnisse der CADD-Methoden werden genutzt, um Verbindungen zu entwickeln, die einer chemischen Synthese und biologischen Tests unterzogen werden. Die aus diesen Experimenten gewonnenen Informationen werden genutzt, um die Struktur-Aktivitäts-Beziehungen (SARs) und quantitativen SARs (QSARs) weiterzuentwickeln, die in den CADD-Ansätzen eingebettet sind.

Unter den CADD-Methoden erfreut sich das Molecular Docking besonderer Beliebtheit. Beim molekularen Andocken handelt es sich um den Prozess, bei dem ein kleines Molekül, im Allgemeinen als Ligand bezeichnet, rechnerisch und ohne Laborarbeit mit einem Protein oder anderen Biomolekülen interagiert. Verfahrenstechnisch variiert es die Konformation und Orientierung des Liganden in begrenzten und stochastischen Schritten. Sein Ziel besteht darin, die beste Andockkonformation oder -haltung zu finden, die die Bindungsenergie minimiert. Die von den molekularen Docking-Programmen zurückgegebenen Ergebnisse sind normalerweise der Bindungsenergiewert und eine Protein-Ligand-Komplexdatei, die Aufschluss über die tatsächliche Bindungsaffinität und -position gibt, wenn der Ligand zusammen mit dem Rezeptor kristallisiert. Das molekulare Andocken wurde bei verschiedenen CADD-Verfahren genutzt, darunter beim virtuellen Screening, einem Prozess, der die Bindung einer großen Anzahl von Molekülen an ein bestimmtes (biologisches) Krankheitsziel abfragt.

Ziel dieser Studie war die Anwendung der Algorithmusauswahl (AS)11,12, um automatisch Algorithmen vorzuschlagen, die das Protein-Ligand-Docking-Problem (PLDP) am besten lösen. Die Idee von AS basiert auf dem No Free Lunch Theorem (NFLT)13. Die NFLT besagt im Wesentlichen, dass jeder Algorithmus im Durchschnitt die gleiche Leistung erbringt, wenn er auf alle möglichen Probleminstanzen angewendet wird. Somit hat jeder Algorithmus seine eigenen Stärken und Schwächen, egal wie komplex und fortgeschritten er ist. AS versucht grundsätzlich, aus einem vorhandenen Pool von Algorithmen den am besten geeigneten Algorithmus auszuwählen, um eine bestimmte Probleminstanz einer beliebigen Domäne anzugehen. Das Ziel dieser Arbeit bestand darin, aus einem festen Pool von PLDP-Algorithmen für jede gegebene PLDP-Instanz den am besten geeigneten Algorithmus zu identifizieren. AutoDock414 wurde bevorzugt, da es ein weit verbreitetes PLDP-Tool ist, das einen günstigen Algorithmenpool bereitstellt. Ein vorhandener AutoDock-Löser, Lamarckian GA (LGA)15, der den genetischen Algorithmus (GA)7 und die lokale Suche (LS)16 integriert, wurde in parametrisierter Weise verwendet, sodass eine Reihe von Kandidatenalgorithmen abgeleitet wurde. Dieser Schritt führte zu 28 LGA-Varianten, einschließlich der LGA mit ihren Standardparameterwerten. Sie wurden bei 1428 PLDP-Instanzen verwendet, die jeweils einen Liganden von 1428 Liganden und ein einzelnes Zielprotein des menschlichen Angiotensin-Converting-Enzyms (ACE) betrafen. Diese 28 Algorithmen werden von ALORS17 verwaltet, einem auf Empfehlungssystemen basierenden AS-Ansatz. Um AS nutzen zu können, wird ein Funktionssatz zur Darstellung der PLDP-Instanzen abgeleitet, einschließlich der weit verbreiteten molekularen Deskriptoren sowie der Substruktur-Fingerabdrücke. Im Anschluss an diesen Aufbau wird über eine eingehende experimentelle Analyse berichtet, bei der zunächst jede eigenständige LGA-Variante mit ALORS verglichen wird. In Bezug auf die Analysefähigkeiten von ALORS werden die Ähnlichkeit der Kandidatenalgorithmen – in diesem Fall in Bezug auf die LGA-Parameterwerte – und die Ähnlichkeiten der PLDP-Instanzen sowie die Bedeutung der LGA-Parameter und PLDP-Instanzmerkmale untersucht. Die daraus resultierende Bewertung liefert praktische Einblicke in die Verwendung von LGA mit erhöhter Leistung und was bei der Lösung eines bestimmten PLDP-Szenarios zu beachten ist. Im Rest des Dokuments wird im Abschnitt „Methoden“ die relevante Literatur sowohl zu PLDP als auch zu AS diskutiert, nachdem sie formal beschrieben wurden. Die zur Auswahl der Algorithmen verwendete AS-Methode wird im Abschnitt „Ergebnisse und Diskussion“ ausführlich beschrieben. Eine umfassende rechnerische Analyse und Diskussion finden Sie im Abschnitt „Schlussfolgerung“.

Das Protein-Ligand-Docking spielt eine entscheidende Rolle in der modernen pharmazeutischen Forschung und Arzneimittelentwicklung. Docking-Algorithmen schätzen die Struktur des Ligand-Rezeptor-Komplexes durch Stichprobenziehung und Rangfolge. Sie testen zunächst die Konformation der Liganden im aktiven Zentrum eines Rezeptors. Als nächstes ordnen sie alle generierten Posen anhand spezifischer Bewertungsfunktionen oder einfach durch Berechnung der Bindungsenergie18. Docking-Algorithmen sind somit in der Lage, die beste Ausrichtung eines Liganden zu simulieren, wenn er an einen Proteinrezeptor gebunden ist.

Die anfängliche Andocktechnik basiert auf der Schlüssel-Schloss-Annahme von Fischer19. Diese Annahme behandelt sowohl den Liganden als auch den Rezeptor als starre Körper, deren Affinität proportional zu ihren geometrischen Formen ist. In den meisten elementaren Starrkörpersystemen wird der Ligand in einem sechsdimensionalen Rotations- oder Translationsraum gesucht, um zur Bindungsstelle zu passen. Später schlug Koshland die Theorie der induzierten Anpassung20 vor, die impliziert, dass Ligandeninteraktionen das aktive Zentrum eines Rezeptors kontinuierlich verändern würden. Im Wesentlichen gilt das Andockverfahren als dynamisch und anpassbar. In den letzten Jahrzehnten wurden zahlreiche Docking-Technologien und -Tools entwickelt, darunter DOCK21, AutoDock22, GOLD23 und Glide24. Neben den Unterschieden in der Umsetzung der 3D-Posenuntersuchung, der Proteinrezeptormodellierung usw. besteht die größte Abweichung darin in der Bewertung der Bindungsaffinität, die durch verschiedene Scoring Functions (SFs) durchgeführt wird25. Die vorhandenen Bewertungsfunktionen können in (1) kraftfeldbasiert, (2) empirisch funktionsbasiert und (3) wissensbasiert kategorisiert werden26. Aufgrund der Heterogenität der Modellierung der Protein-Ligand-Wechselwirkung in verschiedenen Bewertungsfunktionen ist es wahrscheinlich, dass unterschiedliche Leistungen beobachtet werden können, wenn eine Bewertungsfunktion auf alle Docking-Aufgaben angewendet wird.

In dieser Studie wurde AutoDock4 verwendet, da es sich um ein weit verbreitetes Open-Source-System handelt. Es ist die erste Docking-Software, die Liganden völlig flexibel modellieren kann27. AutoDock4 besteht aus zwei grundlegenden Softwarekomponenten: AutoDock und AutoGrid. Während AutoDock die Hauptsoftware ist, berechnet AutoGrid die nichtkovalente Energie von Wechselwirkungen und erstellt eine Gitterkarte des elektrostatischen Potentials28. Als Funktion von AutoDock427 ist es möglich, die Rezeptorflexibilität durch die Verschiebung von Seitenketten zu modellieren. Um die Flexibilität der Seitenkette zu berücksichtigen, wird eine Methode zur gleichzeitigen Probenahme bereitgestellt. Während die anderen Ketten steif bleiben, werden die vom Benutzer ausgewählten Ketten durch eine bestimmte Methode mit dem Liganden abgetastet. Mit AutoGrid wird der starre Teil als Gitterenergiekarte verarbeitet. Die Gitterkarten steuern zusammen mit dem flexiblen Teil des Rezeptors den Andockprozess der ausgewählten Liganden28.

AutoDock4 übernimmt die physikbasierte Kraftfeldbewertungsfunktion mit Van-der-Waals-, elektrostatischen und gerichteten Wasserstoffbrückenpotentialen, die aus einer frühen Version des AMBER-Kraftfelds29 abgeleitet wurden. Darüber hinaus sind ein paarweise additiver Desolvatisierungsterm basierend auf Teilladungen und eine einfache Konformationsentropiestrafe enthalten26. Die Bewertungsfunktion besteht aus elektrostatischen und Lennard-Jones-VDW-Termen:

wobei \(A_{ij}\) und \(B_{ij}\) die VDW-Parameter sind, \(r_{ij}\) sich auf den Abstand zwischen dem Proteinatom \(i \) und dem Ligandenatom \( j \), und \(q_{i}\) und \(q_{j}\) sind Atomladungen. \(\varepsilon \left( {r_{ij} } \right)\) wird als einfache abstandsabhängige Dielektrizitätskonstante im Coulomb-Term eingeführt. Der Desolvatisierungseffekt kann jedoch nicht im Coulomb-Term dargestellt werden26. Der ignorierte Lösungsmitteleffekt führt zu einer verzerrten Bewertungsfunktion, die diese relativ niedrig geladenen Liganden nicht berücksichtigt.

Darüber hinaus wird eine wissensbasierte Bewertungsfunktion25 basierend auf der statistischen Mechanik interagierender Atompaare etabliert. Es wird ein paarweise additiver Desolvatisierungsterm eingeführt, der sich direkt aus der Häufigkeit des Auftretens von Atompaaren durch die Boltzmann-Beziehung ergibt. Auch die aus Strukturinformationen abgeleiteten Energiepotentiale fließen in die Bestimmung atomarer Strukturen ein26. Die Potenziale werden berechnet durch

Dabei ist \(\kappa_{B}\) die Boltzmann-Konstante, \(T \) die absolute Temperatur des Systems, \(\rho \left( r \right)\) die Zahlendichte des Protein-Liganden Atompaar im Abstand \(r \), und \(\rho *\left( r \right)\) ist die Paardichte, wenn interatomare Wechselwirkungen Null sind. Der inverse Boltzmann steht für die Mittelkraftpotentiale, nicht für die wahren Potentiale, die sich deutlich vom einfachen Flüssigkeitssystem unterscheiden26. Obwohl die Auswirkungen von Volumen, Zusammensetzung usw. ausgeschlossen sind, hilft es dennoch, die Atom-Atom-Abstände in eine Funktion umzuwandeln, die für komplexe Proteinsysteme geeignet ist.

Die meisten AutoDock4-Benutzer sowie Benutzer anderer molekularer Docking-Plattformen neigen dazu, das empfohlene Docking-Protokoll mit den angegebenen Standardwerten zu befolgen. Diese Vorgehensweise wird hauptsächlich befolgt, um eine Optimierung des Docking-Programms zu vermeiden. Darüber hinaus bieten einige Docking-Programme, einschließlich AutoDock4, nur eine begrenzte Auswahl an Optionen zum Ausführen der Suche mit einer bestimmten Bewertungsfunktion, es gibt jedoch noch viele andere Kombinationen. Im Fall von AutoDock4 ist die empfohlene Wahl des Algorithmus der Lamarckian Genetic Algorithm (LGA). Allerdings ist es möglich, Docking-Szenarien darzustellen, in denen LGA relativ schlecht abschneidet.

Die Auswahl geeigneter Algorithmen zur Problemlösung in verschiedenen Kontexten hat in den letzten Jahrzehnten zunehmende Aufmerksamkeit erregt30. Ein Phänomen, das als Leistungskomplementarität bekannt ist, besagt auf der Grundlage empirischer Untersuchungen, dass ein Algorithmus in einer bestimmten Umgebung eine gute Leistung erbringen kann, während andere unter anderen Bedingungen eine bessere Leistung erbringen12.

Das Konzept der Algorithmusauswahl pro Instanz wurde vorgeschlagen und untersucht11. Diese Idee bezieht sich darauf, herauszufinden, welcher Algorithmus für eine bestimmte Instanz der beste ist12. Der Grund für die eingehende Untersuchung dieses Algorithmus ist die Auswahl eines geeigneten Algorithmus aus einer Vielzahl unterschiedlicher vorhandener Algorithmen. Es dauerte jedoch Jahrzehnte, bis es weit verbreitet war und zur Lösung von Booleschen Erfüllbarkeitsproblemen (SAT) und anderen schwierigen kombinatorischen Problemen angewendet werden konnte31. Im vorgesehenen Verfahren wird eine Regel zwischen einem geeigneten Algorithmus und einem bestimmten Szenario entwickelt. Bei Optimierungsproblemen hat daher die Auswahl des Algorithmus pro Instanz eine herausragende Rolle gespielt.

Da sich die Anwendung maschineller Lernmethoden bei vielen Aufgaben als kompetent erwiesen hat, wurde eine automatische Regelverbindungsmethode untersucht12. Für den ersten automatischen Algorithmusauswahlprozess wurden detaillierte und aufschlussreiche Anweisungen32 bereitgestellt, in denen eine Reihe wichtiger Fragen behandelt wurden, darunter die Auswahl von Regression oder Klassifizierung und die Unterscheidung zwischen dynamischen und statischen Merkmalen. Kontinuierliche Probleme wurden jedoch weggelassen. Darüber hinaus wurde eine Verallgemeinerung auf das kontinuierliche Optimierungsproblem33 vorgeschlagen, indem die Vorteile diskreter Probleme hervorgehoben werden.

Die Hauptkomponente des vorgeschlagenen Ansatzes ist das Algorithmusauswahlmodul (AS), wie in Abb. 1 dargestellt. Es ist für die Auswahl eines Algorithmus pro Instanz und für die Zuordnung eines geeigneten Algorithmus zur Adressierung einer bestimmten (PLDP)-Instanz verantwortlich. Unter Bezugnahme auf die frühere AS-Beschreibung sollte außerdem zunächst eine Gruppe von PLDP-Algorithmen, A, bereitgestellt werden. Obwohl diese Algorithmen auf feste Weise bestimmt und verwendet werden können, können Strategien zur Generierung von Algorithmenportfolios34,35,36 integriert werden, um Kandidatenalgorithmen abzuleiten. Neben einem Algorithmensatz sollte ein Instanzsatz \(I\) zur Modellierung des AS-Systems untergebracht werden. Obwohl AS eine problemunabhängige Strategie ist, wird das Verhalten von AS stark von der Auswahl dieser Instanzen beeinflusst. Wenn der Einsatz des AS zur Realisierung einer ganz bestimmten Familie von Docking-Aufgaben geplant ist, kann \(\mathcal{I}\) die Instanzen aus dieser bestimmten Familie umfassen. Ansonsten ist es für ein verallgemeinertes AS-Modell von Vorteil, wenn \(I\) eine große Bandbreite unterschiedlicher PLDP-Instanzen enthält. In der aktuellen Studie gibt es nur ein Zielprotein, dafür aber einen recht großen Satz an Liganden. Daher ist jedes hier erstellte AS-Modell spezifisch für dieses Zielprotein, weist jedoch ein gewisses Maß an Allgemeingültigkeit hinsichtlich der Liganden auf. In Bezug auf diesen Diversitätsaspekt kann eine hohe Diversität durch Komplementarität in \(\mathcal{A}\) potenziell verbesserte und robuste AS-Modelle bieten. Komplementarität bedeutet hier, dass es Algorithmen mit unterschiedlichen Fähigkeiten zur Problemlösung gibt. Während ein Algorithmus bei einem bestimmten Instanztyp gut funktioniert, kann ein anderer Algorithmus bei Instanzen gut funktionieren, bei denen die früheren Algorithmen schlecht funktionieren. Die ausgewählten \(A\) und \(I\) werden dann verwendet, um Leistungsdaten \(P(A, I)\) zu generieren, die die Leistung jedes Kandidatenalgorithmus \(a\) für jede Probleminstanz angeben , \(P(a, i) = {p}_{ai}\). Bei diesem Schritt zur Generierung von Leistungsdaten ist es wichtig, die stochastische/nichtdeterministische Natur der Kandidatenalgorithmen zu berücksichtigen. Das bedeutet, dass es irreführend wäre, den Algorithmus nur einmal auszuführen und diesen Wert in \(P\) zu verwenden, wenn ein Algorithmus nach jedem Durchlauf für genau dieselbe Probleminstanz eine andere Lösung liefert. In solchen Fällen ist es sinnvoll, diese Algorithmen mehrmals auszuführen und ihre Mittel- oder Medianwerte als Leistungsindikatoren pro Instanz zu verwenden. Ein letztes Element, das zum Erstellen eines AS-Modells erforderlich ist, besteht darin, die Anzahl der Features (F) anzugeben, die die Merkmale der Zielprobleminstanzen angemessen beschreiben. Bei Datenmanipulationen oder Datenformatkonvertierungen kann dieser Schritt übersprungen werden, da die Merkmale automatisch abgeleitet werden37. Ansonsten können mit Hilfe der Chemieexperten einigermaßen repräsentative Instanzmerkmale gesammelt werden. Dennoch ist es möglicherweise möglich, solche Merkmale unter Bezugnahme auf die einschlägige Literatur zu entwickeln, ohne dass die tatsächliche Anwesenheit von Experten erforderlich ist. Abhängig vom Zielproblem kann es jedoch ausreichend sein, ausschließlich grundlegende statistische Maße und Werte zu verwenden, die durch Landmarking38 erzielt werden. An diesem Punkt kann traditionell ein AS-Modell erstellt werden, in Form einer Leistungsvorhersage, \(\Theta :F\left(I\right)\to P\left(A,I\right)\) oder anders bestehende AS-Strategien können eingesetzt werden.

Illustration der Algorithmusauswahl. Der traditionelle Prozess der Algorithmusauswahl (AS) pro Instanz.

Dem gegebenen Rahmen folgend, visualisiert Abb. 2 die in diesem Artikel durchgeführte AS-Einstellung. Der Datengenerierungsschritt wird auf Basis von AutoDock 4.2 durchgeführt. Für die AS-Methode wird eine bestehende Technik, ALORS117, rekrutiert. ALORS ist ein Algorithmus-Empfehlungssystem, das auf kollaborativer Filterung (CF)39 basiert. Es wurde erfolgreich für verschiedene Auswahlentscheidungen zu unterschiedlichen Problemdomänen40,41,42,43 angewendet, darunter auch zu einem relevanten Problem der Proteinstrukturvorhersage44,45. CF ist eine Art Empfehlungsansatz, der vorhersagt, wie sehr Benutzern bestimmte Artikel wie Filme und Produkte gefallen. Es erstellt Vorhersagen basierend auf der Verknüpfung ähnlicher Einträge sowohl auf Benutzer- als auch auf Artikelebene. Im Gegensatz zu anderen Empfehlungsmethoden arbeitet CF mit spärlichen Einträgen. ALORS berücksichtigt die CF-Idee, indem es Probleminstanzen als Benutzer und Algorithmen als Elemente betrachtet. Das heißt, wie sehr eine Instanz einen Algorithmus mag, abhängig vom relativen Erfolg des Algorithmus im Vergleich zu allen Kandidatenalgorithmen. Ähnlich wie die CF-Anwendungen arbeitet ALORS auch mit rangbasierten Daten, den Rängen aller vorhandenen Algorithmen für alle Probleminstanzen. In dieser Hinsicht führt ALORS die Algorithmusauswahl (AS) als Rangvorhersageaufgabe durch. Im Gegensatz zu den bestehenden AS-Systemen führt ALORS jedoch indirekt Rangvorhersagen durch. Im Wesentlichen handelt es sich bei einem von ALORS abgeleiteten Vorhersagemodell um ein Merkmal-zu-Merkmal-Modell, wie in Algorithmus 1 beschrieben. Es ordnet einen Satz handverlesener Merkmale, die die Zielprobleminstanzen charakterisieren, einer anderen Gruppe von Instanzmerkmalen zu. Bei der letztgenannten Funktionsreihe handelt es sich um diejenigen, die durch Matrixfaktorisierung (MF) automatisch aus den Rangleistungsdaten extrahiert werden. Konkret wird Singular Value Decomposition (SVD)46 als MF-Methode zur Dimensionsreduktion verwendet.

Rahmenwerk von ALORS für das Protein-Ligand-Docking. Alle Liganden werden während des Datengenerierungsverfahrens mithilfe von 28 Algorithmen mit jeweils unterschiedlichen Parameterkonfigurationen in AutoDock4 an ACE angedockt. Die Algorithmuskonfiguration, die im Durchschnitt aus 50 Läufen die niedrigsten Docking-Scores erzeugt, wird als bester Algorithmus für die jeweilige Instanz ausgewählt, z. B. die 28. Algorithmuseinstellung (A28). Das ALORS-Modell wird mithilfe molekularer Deskriptoren und Fingerabdrücke sowie der besten Algorithmusbezeichnungen für jeden Liganden trainiert. Unser Modell nutzt Merkmale eines einzelnen neuen Liganden, um die beste Algorithmuskonfiguration für die Inferenz zu bestimmen.

ALORS wird hier mit k = 5 in Bezug auf den Rang von MF durch SVD angewendet. In Bezug auf die Modellierungskomponente von Random Forest (RF)47 ist die Anzahl der Bäume auf 100 festgelegt, was der Standardwert in Scikit ist.

Der Kandidatenalgorithmussatz besteht aus 28 Algorithmen, während die Anzahl der Docking-Szenarien (Instanzen) 1428 beträgt. Die Algorithmen werden im Wesentlichen durch Festlegen unterschiedlicher Parameterkonfigurationen eines Lamarckian-Genetic-Algorithmus (LGA) spezifiziert, wie in Tabelle 1 detailliert beschrieben. Die Bewertung erfolgt realisiert durch zehnfache Kreuzvalidierung (10-cv).

Bei den Liganden handelt es sich um Moleküle, die von der US-amerikanischen Food and Drug Administration (FDA) 2 in der ZINC15-Datenbank48 zugelassen sind. Als Zielrezeptor wird das humane Angiotensin-Converting-Enzym (ACE) ausgewählt, ein kritisches Membranprotein für das SARS-COV-Virus sowie die Nieren- und Herz-Kreislauf-Funktion (PDB DOI: 1O86)49. Die ursprünglichen Ligandendateien liegen im MOL2-Format vor und werden zum Andocken über Openbabel50 in das PDB-Format konvertiert. Rezeptoren und Liganden werden von AutoDock Tools vorverarbeitet und beinhalten die Hinzufügung von Wasserstoffbrückenbindungen und Ladungen in Form von PDBQT. Der gesamte Andockvorgang wird über AutoDock 4.2 durchgeführt. Der Zufallsstartwert ist für die Wiederholbarkeit des Experiments festgelegt. Jeder Algorithmus ist so eingestellt, dass er für jeden Liganden 50 Mal ausgeführt wird, und die Anzahl der Energieauswertungen ist auf 2.500.000 festgelegt. Beide sind festgelegt, um die Rechenressourcen zu steuern, die jeder Algorithmus nutzen kann. Die restlichen Einstellungen sind Standardeinstellungen mit Details, die im AutoDock4-Benutzerhandbuch 3 beschrieben werden. Für die Merkmalsextraktion wird RDKit51 verwendet, um molekulare Deskriptoren zu generieren, und die PubChem-Substruktur-Fingerabdrücke werden von PaDEL-Descriptor52 berechnet. Molekulare Deskriptoren sind die numerischen Werte der Eigenschaften eines Moleküls, die von Algorithmen berechnet werden51. Nach der Entfernung der Deskriptoren mit dem Wert 0 über alle Liganden hinweg erhält man 208 Merkmale. Nach diesem Schritt werden die Merkmale mit nahezu gleichen Werten über verschiedene Liganden hinweg verworfen, was zu 119 verwendbaren Merkmalen führt. Alle Features werden durch Min-Max-Normalisierung bestimmt, wobei die Werte jedes Features an [0, 1] angepasst werden. PubChem Substructure Fingerprint ist eine geordnete Liste binärer Werte (0/1), die die Existenz einer bestimmten Unterstruktur, beispielsweise einer Ringstruktur, darstellt53. In unserem Fall beträgt die Länge der binär codierten Liste für jeden Liganden 881.

Abbildung 3 zeigt die Ränge jedes Algorithmus in allen Docking-Szenarien für AVG bzw. BEST. Es ist ersichtlich, dass einige Algorithmen zwar im Allgemeinen eine bessere Leistung erbringen als andere, ihre relative Leistung jedoch unterschiedlich ist. Darüber hinaus gibt es keinen ultimativen Algorithmus, der die übrigen Algorithmen bei allen Protein-Ligand-Docking-Instanzen durchweg übertrifft. Diese Ansicht legt nahe, dass die Algorithmusauswahl wahrscheinlich alle diese Algorithmen übertrifft, indem sie automatisch die richtigen Algorithmen mit den Instanzen abgleicht, die von den ausgewählten Algorithmen effektiv gelöst werden können.

Ränge von Docking-Algorithmen. (A) Die Ränge der Docking-Algorithmen über alle Instanzen hinweg, basierend auf der AVG-Leistung. (B) Die Ränge der Docking-Algorithmen über alle Instanzen hinweg, basierend auf der BESTEN Leistung.

Tabelle 2 zeigt die Rangfolge jedes eigenständigen Algorithmus außer ALORS. Alle diese Algorithmen werden als Kandidatenalgorithmen für ALORS berücksichtigt. Es werden zwei getrennte Leistungsbewertungen abgegeben. Die erste konzentriert sich auf die durchschnittliche Leistung der Algorithmen unter Berücksichtigung der Tatsache, dass alle verwendeten Algorithmen stochastisch sind. Der zweite Fall bezieht sich auf die besten Docking-Lösungen aus allen Läufen auf jeder Docking-Instanz. In beiden Szenarien übertrifft ALORS alle eigenständigen Algorithmen, während der Leistungsunterschied im AVG-Fall drastischer ist als im BEST-Fall.

Insgesamt liefert ALORS bei allen Docking-Instanzen durchweg die beste und robusteste Leistung. Der Robustheitsaspekt kann anhand der Standardabweichungswerte überprüft werden. Wenn man sich die Ergebnisse genauer ansieht und sich auf die AVG-Leistungen bezieht, ist A6 zufällig der beste eigenständige Algorithmus, was bedeutet, dass er traditionell als einziger Algorithmus für alle Docking-Instanzen verwendet wird, im Gegensatz zu AS, das für jede Docking-Instanz einen Docking-Algorithmus auswählt . Während der mittlere Rang von A6 bei 7,90 liegt, ergibt sich für ALORS ein mittlerer Rang von 6,00. Auf A6 folgt A7 mit einem Durchschnittswert von 7,91. Darüber hinaus wurde festgestellt, dass die in AutoDock integrierte Standardalgorithmuseinstellung A2 der drittbeste eigenständige Ansatz in den aktuellen Testszenarien ist. Im Hinblick auf die Bereitstellung der BESTEN Docking-Ergebnisse bietet A8 im Gegensatz zum AVG-Fall unter den beteiligten Algorithmen den höchsten Durchschnittswert von 6,80, gefolgt vom Durchschnittswert von ALORS von 6,75. A1 bietet mit einem Durchschnittswert von 6,82 eine Leistung, die der von A8 recht nahe kommt. Der leistungsstärkste nach A1 ist A9 mit einem Durchschnittswert von 7,09. Die Standardkonfiguration von A2 nimmt unter diesen eigenständigen Methoden den fünften Platz ein.

Abbildung 4 veranschaulicht die durchschnittlichen Rangänderungen für AVG und BEST unter Bezugnahme auf das obere Diagramm. Es ist bemerkenswert, dass der relative Leistungstrend aller Algorithmen einigermaßen erhalten bleibt. Die verbleibenden Diagramme zeigen die sortierten Andockmethoden für AVG und BEST getrennt. Allein durch die visuelle Analyse der Diagramme können nahe beieinander liegende Methoden in Gruppen erkannt werden. Beispielsweise liefern A5, A19, A20, A25, A26 und A27 eindeutig die schlechteste Leistung aller Algorithmen.

Mittlere Ränge von Docking-Algorithmen. Die durchschnittlichen Ränge aller getesteten Andockmethoden. (A) relativer Vergleich von AVG und BEST, (B) sortierter Vergleich von AVG, (C) sortierter Vergleich von BEST.

Abbildung 5 veranschaulicht die Ähnlichkeiten zwischen allen einzelnen Algorithmen im Hinblick auf die hierarchische Clusterbildung.

Clustering von Docking-Algorithmen. Eine hierarchische Gruppierung der einzelnen Docking-Algorithmen basierend auf den latenten Merkmalen, die von SVD (k = 5) im AVG-Fall extrahiert wurden.

Auf der untersten Ebene der Cluster sind die folgenden Gruppen von Algorithmen sehr ähnlich: {A8, A9}, {A10, A21}, {A2, A7}, {A11, A12}, {A5, A19}, { A26, A27}, {A22, A23}, {A14, A17}, {A15, A16}. Bezugnehmend auf Tabelle ~ \ref{algorithm-configurations} verfügen alle gruppierten Algorithmen mit Ausnahme des Paars {A14, A17} über die gleiche Konfiguration in Bezug auf ihre Populationsgrößen und Mutationsraten. Die dritte Variante, die zur Verwendung einer anderen Konfiguration auf Algorithmusebene verwendet wird, die Fenstergröße, führt zu keinen drastischen Änderungen im Verhalten dieser Algorithmen.

In Bezug auf diesen Aspekt der Algorithmusähnlichkeit wäre ein potenzielles Unterportfolio mit vergleichbarer Leistung, wenn nur ein Algorithmus von ähnlichen Algorithmen unterschieden wird, {A1, A2, A3, A4, A5, A6, A8, A10, A11, A13, A14, A15 , A18, A20, A22, A24, A25, A26, A28}, mit 19 Algorithmen aus 28 Optionen. Durch den Bezug auf große Algorithmen-Cluster kann das Portfolio weiter reduziert werden, indem man im hierarchischen Cluster eine Ebene höher geht. Dann wäre ein Beispielportfolio {A1, A3, A6, A13, A14, A18, A20, A24, A28}.

Abbildung 6A veranschaulicht die Bedeutung der PLDP-Instanzfunktionen. Der Wichtigkeitsaspekt wird durch die Gini-Wichtigkeitswerte bestimmt, die beim Erstellen der Random Forest (RF)-Vorhersagemodelle unter ALORS untersucht wurden. Unter diesen 119 Merkmalen erhalten vier die höhere Gini-Bedeutung und sind somit im Vergleich zu den anderen die wesentlichsten. Die entsprechenden Funktionen sind.

NumRotatableBonds

BalabanJ

Kappa1

Kappa2

Gini Bedeutung von Funktionen. Die Blues sind hinsichtlich ihrer Gini-Werte deutlich kritischer als der Rest. (A) Die Gini-Wichtigkeitswerte aller Docking-Instanz-Features, (B) Die Gini-Wichtigkeitswerte der \(F_{md,top9}\)-Features, (C) Die Gini-Wichtigkeitswerte der \(F_{md, top4 + sf,top54}\) Features, (D) Die Gini-Wichtigkeitswerte der \(F_{md,top9 + sf,top54}\) Features, (E) Die Gini-Wichtigkeitswerte der \(F_{sf, top54}\) Funktionen.

Zusätzlich zu molekularen Deskriptoren wie Merkmalen (F_{md}\) werden Substruktur-Fingerabdrücke (F_{sf}\) zur Durchführung von AS verwendet. Fingerabdrücke sind binäre Formen von Merkmalen, die jeweils das Vorhandensein einer hochspezifischen Unterstruktur darstellen. In dieser Hinsicht ist es relativ schwierig, von den einzelnen Merkmalen zu profitieren, wie dies bei molekularen Deskriptoren der Fall ist. Tabelle 3 zeigt die Leistung des ALORS mit unterschiedlichen Funktionssätzen. Die Ergebnisse zeigen, dass \(F_{md}\) erwartungsgemäß informativer ist als \(F_{sf}\). Mit Fokus auf \(F_{md}\) werden zusätzlich zwei Teilmengen ausgewertet, nämlich \(F_{md,top4}\) und \(F_{md,top9}\). Sie sind im Wesentlichen die Top-Features, gemessen an ihnen Aus dem ursprünglichen ALORS-Modell extrahierte Gini-Werte. Wie oben erwähnt, bezeichnet \(F_{md,top4}\) die wichtigsten signifikant einflussreichen Merkmale, während \(F_{md,top9}\) zusätzlich zu denen in \(F_{md,top4}\) fünf zusätzliche Merkmale aufweist. Sie werden unter Berücksichtigung der Tatsache ausgewählt, dass der Gini-Wichtigkeitswert bei 0,15 liegt. Beide Teilmengen sind gut genug, um die eigenständigen Algorithmen zu übertreffen, anstatt alle 119 Funktionen zu nutzen. Allerdings liefert die größere Teilmenge \(F_{md,top9}\) bessere Ergebnisse als \(F_{md,top4}\). Abbildung 6B visualisiert die Beiträge jedes Features von \(F_{md,top9}\), wenn ein AS-Modell mit \(F_{md,top9}\) erstellt wird. Ein ähnlicher Ansatz wird für \(F_{sf}\) verfolgt, was zu einer Teilmenge von 54 Features führt, \(F_{sf,top54}\). In diesem Zusammenhang veranschaulicht Abb. 6E die Bedeutung jedes dieser Merkmale. Die Verwendung von 54 von 881 Funktionen sorgte für eine weitere Leistungsverbesserung. Da der gesamte Fingerabdruck-Funktionsumfang ziemlich umfangreich ist, wird ein zusätzliches ALORS-Modell mit einer höheren Anzahl von Tresses für RF erstellt, die von 100 auf 500 ansteigt. Obwohl im Vergleich zur Standard-ALORS-Einstellung eine bessere Leistung mit einem mittleren Rang von 6,39 bis 5,62 erreicht wird , ist die Leistung immer noch schlechter als im Szenario mit \(F_{sf}\),top54. Die abschließende Bewertung der Merkmale erfolgt unter Verwendung sowohl von \(F_{md}\) als auch von \(F_{sf}\), insbesondere der oben genannten Teilmengen \(F_{md,top4 + sf,top54}\) und \(F_{md,top9 + sf,top54}\). Diese Kombinationen verbesserten sowohl die alleinigen, \(F_{md}\) als auch \(F_{sf}\), funktionsteilmengenbasierten Ergebnisse. Dieses Ergebnis legt nahe, dass die Substruktur-Fingerabdrücke zusätzliche Informationen enthalten, die nicht direkt von den molekularen Deskriptoren stammen. Die entsprechende Merkmalsbedeutung ist in Abb. 6C und D für \(F_{md,top4 + sf,top54}\) bzw. \(F_{md,top9 + sf,top54}\) angegeben.

Unter Berücksichtigung der Gini-Bedeutung werden die Top-4-, Top-9- und Top-40-Funktionen für die Analyse des Instanzraums ausgewählt. Um die Instanzen im zweidimensionalen Raum zu visualisieren, werden Hauptkomponentenanalyse (PCA) und t-verteilte stochastische Nachbareinbettung (t-SNE) angewendet, um diese Merkmale in zwei Dimensionen zu reduzieren. Die durch PCA und t-SNE erzielten Instanzdarstellungen sind in Abb. 7A dargestellt. Im Vergleich zu den PCA-Komponenten liefert t-SNE mehr getrennte Instanzcluster. Durch Beobachtung und Analyse erweist sich die Auswahl der neun Merkmale als die aussagekräftigste. Daher wird der K-Means-Algorithmus54 angewendet, um die Instanzen mithilfe dieser 9 Funktionen zu gruppieren. Nach dem Ausprobieren verschiedener k ∈ [2, 15]-Werte wird das beste k als 2 in Bezug auf die Silhouettenbewertung ermittelt, die als mittlere Silhouettenkoeffizienten55 über alle Instanzpunkte abgeleitet wird.

Funktionen Visualisierung mit PCA, t-SNE und Kmeans. (A) 4, 9 und 40 bieten Visualisierung mit PCA und t-SNE. (B) Im 2-D-PCA- und t-SNE-Raum Kmeans-Klassifizierungsergebnisse von 9 Merkmalen. (C) Im 2-D-PCA- und t-SNE-Raum Kmeans-Klassifizierungsergebnisse von 5 latenten Merkmalen, extrahiert durch SVD, für einen anderen Merkmalssatz.

Die Endergebnisse der Clusterbildung sind in Abb. 7B dargestellt. Wie die Bewertung zeigt, ist es am besten, die 9 Top-Features in zwei Cluster zu unterteilen. Es ist zu beobachten, dass es in der Mitte der Daten eine deutliche Kluft gibt. Während wir in t-SNE eine vielfältigere Verteilung der Punkte finden können, ist die Aufteilung relativ undeutlich. In PCA, wo verschiedene Gruppen enger geclustert werden, ist die Clusterbildung für den anderen Funktionssatz klarer, wenn er in zwei Gruppen unterteilt wird. Außerdem ist bei t-SNE der Teil in der oberen linken Ecke von -10 bis 40 PC2 konzentrierter, während der andere Teil verstreut und spärlich ist. Abbildung 7C zeigt eine bemerkenswerte Situation des zweiten Merkmalssatzes, bei dem fünf latente Merkmale verwendet werden. Die Datenmengen in diesen beiden Clustern sind heterogen verteilt, wobei eine Gruppe die andere deutlich überwiegt. Dadurch kann das Muster einer bestimmten Gruppe erfasst werden.

Es ist zu beachten, dass der Silhouettenwert nicht die Situation angeben kann, in der die Punkte nur als ganze Gruppe betrachtet werden. Obwohl wir anhand der Bewertung der Punktzahl keine Ahnung haben, wie eine Gruppe abschneidet, können wir dennoch beobachten, dass die Punkte tatsächlich gleichmäßig verteilt sind, entweder in PCA oder t-SNE. Das bedeutet, dass es am besten ist, sie als Gruppe zu betrachten. Das heißt, es gibt bei der Betrachtung dieser Merkmale keine offensichtliche klare Unterteilung oder ein klares Clustermuster. Wie in Abb. 8 dargestellt, ist Gruppe 0 als Typ 0, gekennzeichnet durch die grüne Farbe, im Allgemeinen enger geclustert. Gruppe 0 weist mit Ausnahme von BalabanJ einen höheren Median auf. Obwohl die meisten Daten in Gruppe 0 geclustert sind, gibt es im Vergleich zu Gruppe 1 mehr Ausreißer. Auffallend ist, dass kappa3 ein seltsames Muster zeigt, bei dem Daten extrem gesammelt werden und mehrere Ausreißer zwei- bis dreimal größer sind als die meisten Daten.

Boxplot der Features. Typ 0 bezeichnet die gleiche Gruppe 0 bei der Durchführung von PCA und t-SNE und Typ 1 bezeichnet Gruppe 1. Die Verteilungen von 9 ausgewählten Merkmalen in den beiden Clustern werden angegeben, um die möglichen Muster für jede Gruppe zu veranschaulichen. Gruppe 0 zeigt eine gruppierte Gruppe mit mehr Ausreißern im Vergleich zu Gruppe 1.

Die Abbildungen 9A und B zeigen den Konformations- und Interaktionsunterschied einer Instanz, die mit dem Standardalgorithmus und dem besten Algorithmus angedockt ist. Da mehr Wasserstoffbrückenbindungen beobachtet werden, führt die durch die beste Parameterkonfiguration vorhergesagte Andockposition wahrscheinlich zu einer stabileren Bindung mit dem Rezeptorprotein im Vergleich zu der durch den Algorithmus mit der Standardparameterkonfiguration vorhergesagten Position.

Interaktionsdiagramm des Liganden ZINC000000000053 und ACE. (A) unter Standardparameterkonfiguration, (B) unter bester Parameterkonfiguration in AutoDock4.

Wie oben erwähnt, werden mithilfe der chemischen Deskriptoren, die von der Open-Source-Python-Bibliothek RDKit51 bereitgestellt werden, 208 Merkmale, molekulare Deskriptoren, für jedes der am Docking-Prozess beteiligten Moleküle generiert. Was ihre Bedeutung betrifft, beginnend mit dem wichtigsten, sind die neun wichtigsten Merkmale (1) die Anzahl der drehbaren Bindungen, (2) der Balaban-J-Index, (3.4.5) der Kappa-Molekülformindex einschließlich Kappa 1,2, 3, (6) die quantitative Schätzung des Arzneimittelähnlichkeitsindex, (7) der elektrotopologische Zustandsindex, (8) der Bertz-Index für die molekulare Komplexität und (9) die teilweise Angleichung des orbitalen Elektronegativitätsindex. Obwohl diese Merkmale von ALORS hervorgehoben wurden, besteht zusätzlicher Bedarf, ihre Anwendungen in QSAR-Studien dahingehend zu untersuchen, ob sie im Docking-Prozess nachvollzogen werden können.

Die Anzahl der drehbaren Bindungen kann die Flexibilität eines Moleküls widerspiegeln56. Frühere Studien legen nahe, dass dieser molekulare Deskriptor bei der Unterscheidung zwischen Arzneimitteln und anderen kleinen Molekülen hilft, da Arzneimittel eine geringere Flexibilität aufweisen57,58. Im Wesentlichen handelt es sich beim molekularen Andocken um einen Suchprozess der besten Positionen und Posen unter begrenztem Andockraum. Das Variieren der Anzahl der drehbaren Bindungen wirkt sich direkt auf die möglichen Andockstellungen aus, die AutoDock zurückgibt. Daher ist es wichtig, die Anzahl der Bindungsrotationen anzupassen, wenn Liganden über AutoDock Tools27 vorverarbeitet werden.

Der J-Index von Balaban ist einer der topologischen Indizes, die Moleküle als zusammenhängende Graphen behandeln, die die Molekülstruktur durch eine einzige numerische Zahl darstellen59. Der J-Index verbessert die Unterscheidungskraft insbesondere für Isomere, da er die durchschnittlichen Summen der Abstände innerhalb des Moleküls verwendet. Es reagiert empfindlich auf die Anzahl der Bindungen oder den Atomunterschied. Die Berechnung des Index ist recheneffizient und bewahrt gleichzeitig die physikalischen und strukturellen Informationen des Moleküls60,61.

Der Kappa-Molekülformindex ist eine andere Art von topologischem Index, der sich auf Informationen zur Molekülform konzentriert. Der Kappa-Molekülformindex quantifiziert den Unterschied zwischen der komplexesten und der potenziell einfachsten Konformation62. Kappa 1, 2 und 3 sind in der Lage, zwischen Isomeren zu unterscheiden, die anhand der Anzahl der Atome oder Bindungen nicht unterschieden werden können63. Daher sind Kappa-Molekülformindizes zuverlässige Deskriptoren zur Messung der Gesamtkonnektivität eines Moleküls.

QED ist die Abkürzung für „Quantitative Estimation of Drug-likeness“ und wurde als verfeinerte Alternative zu Lipinskis Fünferregel64 vorgeschlagen, um eine praktische Anleitung bei der Arzneimittelauswahl zu bieten. QED ist ein integrierter Index, der acht physikalische Eigenschaften von Molekülen umfasst, darunter den Oktanol-Wasser-Verteilungskoeffizienten, die Anzahl der Wasserstoffbrückenbindungsdonoren und -akzeptoren, die molekulare polare Oberfläche, die Anzahl der drehbaren Bindungen, die Anzahl der aromatischen Ringe und die Anzahl von Strukturwarnungen. QED wurde beim virtuellen Screening großer Wirkstoffdatenbanken eingesetzt, um günstige Moleküle herauszufiltern65 und um den Aufbau und das Benchmarking von Deep-Learning-Modellen für das De-novo-Arzneimitteldesign zu unterstützen66. Die Stärke von QED spiegelt sich auch in der gegebenen Gini-Bedeutung wider.

Der EState_VSA-Deskriptor beeinträchtigt sowohl EState (elektrotopologischer Zustand) als auch den VSA-Index. Der EState-Index enthält Topologieinformationen auf Atomebene und Molekülebene67. Im Gegensatz zum Kappa-Molekülformindex, der die Struktur von Molekülen hervorhebt, offenbart der elektrotopologische Zustandsindex die Elektronegativität jedes Atoms sowie den gewichteten elektronischen Effekt. Dies wurde durch seine starke Korrelation mit der 17O-NMR-Verschiebung in Ethern und der Bindungsaffinität verschiedener Liganden bestätigt68,69. VSA ist der Van-der-Waals-Oberflächenwert eines Atoms und wird verwendet, um zu bestimmen, ob EState-Indizes berechnet werden. Beim molekularen Andocken ist die elektrostatische Wechselwirkung zwischen dem Liganden und dem Rezeptor ein wesentlicher Bestandteil der Energiebewertung in der semiempirischen Kraftfeldberechnung von AutoDock, was möglicherweise erklärt, warum es auf Platz acht von 208 Deskriptoren liegt.

Der Bertz-Index wurde definiert, um die Komplexität eines Moleküls quantitativ darzustellen, abgeleitet aus molekularen Diagrammen70. Sie umfasst zwei Eigenschaften des Moleküls: die Anzahl der Linien im Liniendiagramm und die Anzahl der Heteroatome. Da sowohl Heterogenität als auch Konnektivität in einem Index integriert sind, werden zahlreiche Informationen aus dem Molekül extrahiert. BertzCT ist besonders nützlich in der organischen Synthese. Es kann verwendet werden, um die Komplexität synthetischer Produkte zu überwachen und so den beabsichtigten Syntheseweg vor der Implementierung zu bewerten71.

PEOE_VSA ist ein weiterer Hybriddeskriptor, der aus dem teilweisen Ausgleich der Orbitalelektronegativität und der Van-der-Waals-Oberfläche besteht. Der partielle Ausgleich der orbitalen Elektronegativität (PEOE) wurde erstmals vorgestellt, um die Reaktivität beim chemischen Synthesedesign zu bewerten72. PEOE ermittelt die Teilladungen basierend auf der Atomorbitalelektronegativität iterativ über das gesamte Molekül. Die Elektronegativität von Atomen kann in komplexen organischen Molekülen auch unter elektronenziehenden und -spendenden Effekten genau berechnet werden. PEOE wurde zunächst getestet, um den Geschmack von Verbindungen zu modellieren, und später auf QSAR-Studien angewendet, die die Vorhersage der anästhetischen Aktivität und der Hemmung der HIV-Integrase umfassten73,74. Um eine In-vivo-Umgebung zu simulieren, wird dringend empfohlen, den Liganden Teilladungen zuzuweisen, um eine zuverlässige Bindungsenergie in AutoDock zu erhalten.

Dieses Papier zielt darauf ab, ALORS als ein auf einem Empfehlungssystem basierendes Algorithmusauswahlsystem vorzustellen und weiter zu evaluieren, das auf AutoDock automatisch LGA-Varianten auf Instanzbasis auswählt. Zur Quantifizierung chemischer Verbindungen wurden Merkmale verwendet, die molekulare Deskriptoren und Fingerabdrücke für jede Protein-Ligand-Docking-Instanz umfassen. Die Studie hat gezeigt, dass ALORS im Vergleich zu allen Kandidatenalgorithmen aus einem festen Algorithmenpool die besten Ergebnisse liefert. Neun Merkmale wurden als wichtige Determinanten der Protein-Ligand-Wechselwirkung hervorgehoben und analysiert, um die Erforschung chemischer Merkmale anzuregen, die für die Docking-Leistung entscheidend sind. Die Ergebnisse dieser Forschung betonen die Verwendung eines geeigneten Algorithmus-Selektors und von Funktionen zur optimalen Lösung einer molekularen Docking-Aufgabe, bei der nach arzneimittelverfügbaren Verbindungen gesucht wird. ALORS hat das Potenzial, die bevorzugte Wahl für die Durchführung von Protein-Ligand-Docking-Aufgaben für die CADD-Forschung zu werden. Darüber hinaus tragen die Ergebnisse unserer Studie zu den schnell wachsenden Anwendungen der automatischen Algorithmusauswahl bei.

Eine Einschränkung unserer Studie besteht jedoch darin, dass ACE das einzige Protein war, das für die Generierung von Docking-Daten verwendet wurde. Obwohl ALORS im Docking-Fall mit ACE gut funktioniert; Dennoch muss die Verallgemeinerbarkeit unseres Modells auf andere Proteine ​​noch bestimmt werden. Um die Vielfalt der Protein-Ligand-Wechselwirkungen zu erhöhen, sollten mehr Proteine ​​in unser Modell integriert werden. Daher könnte die Erweiterung der Docking-Szenarien mit verschiedenen Zielproteinen eine umfassendere Bewertung der Leistung von ALORS als AS-Tool darstellen. Gleichzeitig sind handverlesene, aus empirischen Erkenntnissen abgeleitete Eigenschaften von Molekülen ebenso praktikable Optionen. Von Hand ausgewählte Merkmale, die spezifischer und relevanter sind, können mit vom Algorithmus ausgewählten Merkmalen gemischt werden, um mehr Relevanz und Präzision zu erreichen.

Andere Protein-Ligand-Docking-Programme wie DOCK, Glide und CABSdock werden ebenfalls empfohlen, und der zugrunde liegende Algorithmus jeder Docking-Plattform kann auf bestimmte Docking-Situationen zugeschnitten werden. AutoDock schneidet aufgrund seines verbesserten LGA-Suchalgorithmus und der empirischen bindungsfreien Bewertungsfunktion beim automatisierten Ligandenandocken an Makromoleküle gut ab. Es bleibt jedoch abzuwarten, ob umfassende suchbasierte Dockingprogramme wie Glide und DOCK, die den geometrischen Matching-Algorithmus verwenden, besser abschneiden in anderen Bereichen. Ein weiterer Schwerpunkt kann auf die Bewertung und automatische Auswahl der besten Docking-Programme in verschiedenen Docking-Szenarien gelegt werden.

Während der Studie stellten wir fest, dass die Anwendung neuronaler Netze (NN) bei der Vorhersage von Protein-Ligand-Wechselwirkungen immer häufiger eingesetzt wird. Neuronale Netze, die aus Schichten und Neuronen bestehen, um Muster wie numerische Vektoren, Bilder, Texte, Töne und sogar Zeitreihen zu erkennen, werden häufig für Klassifizierungs- oder Vorhersageaufgaben verwendet. Im Rahmen neuronaler Netze basieren Graph Neural Networks (GNNs) auf der Charakterisierung von Daten als Graphen, die aus Knoten und Kanten bestehen, und zeichnen sich im Vergleich zu herkömmlichen Regressions- oder Klassifizierungsmodellen durch die Erfassung nichtlinearer Beziehungen in Bildern aus75. GNNs sind besonders nützlich für Diagrammdaten, die relationale Informationen enthalten. Da es sich bei Molekülen um gebundene Strukturen handelt, können natürliche Informationen über Chemikalien als unregelmäßige Moleküldiagramme dargestellt werden. Die von Molekülen abgeleiteten bildbasierten Merkmale führen zu vielversprechenderen Ergebnissen als die traditionellen, von molekularen Deskriptoren abgeleiteten Merkmale76. Folglich können mehr Anstrengungen in die Implementierung von GNNs gesteckt werden, um die Protein-Ligand-Wechselwirkung besser vorhersagen zu können.

Der Rezeptor ACE ist mit PDB DOI: 1O86 zu finden und Docking-Liganden befinden sich in der ZINC15-Datenbank: https://zinc15.docking.org/catalogs/dbfda/.

Menschliches Angiotensin-Converting-Enzym

Lamarckianisch-genetischer Algorithmus

Algorithmus-Empfehlungssystem

Arzneimittelentdeckung/-design

Computergestützte Arzneimittelentdeckung/-design

Aktivitätsbeziehungen strukturieren

Quantitative Struktur-Aktivitätsbeziehungen

Auswahl des Algorithmus

Problem beim Protein-Ligand-Andocken

Kein Free-Lunch-Theorem

Genetischen Algorithmus

Lokale Suche

Kollaboratives Filtern

Matrixfaktorisierung

Einzelwertzerlegung

Zufälliger Wald

Verabreichung von Lebensmitteln und Arzneimitteln

Molekulare Datendatei

Proteindatenbank

Proteindatenbank, Teilladung (Q) und Atomtyp (T)

Durchschnitt

Hauptkomponentenanalyse

T-verteilte stochastische Nachbareinbettung

Quantitative Schätzung der Drogenähnlichkeit

Teilweiser Ausgleich der Orbitalelektronegativität

Menschlicher Immunschwächevirus

Neuronale Netze

Zeichnen Sie neuronale Netze

Everhardus, JA Arzneimitteldesign: Medizinische Chemie (Elsevier, 2017).

Google Scholar

Jeffrey, C., Carl, R. & Parvesh, K. Der Preis des Fortschritts: Finanzierung und Finanzierung der Arzneimittelentwicklung gegen Alzheimer. Alzheimer-Demenz-Trans. Res. Klin. Inter. 20, 875 (2018).

Google Scholar

Reymond, J.-L. Das chemische Weltraumprojekt. Acc. Chem. Res. 48(3), 722–730 (2015).

Artikel CAS PubMed Google Scholar

Mullard, A. FDA-Arzneimittelzulassungen 2020. Nat. Rev. Drug Discov. 20(2), 85–91 (2021).

Artikel CAS PubMed Google Scholar

Edgar, L.-L., Jürgen, B. & Jose, LM-F. Informatik für Chemie, Biologie und biomedizinische Wissenschaften. J. Chem. Inf. Modell. 61(1), 26–35 (2020).

Google Scholar

Wenbo, Y. & Alexander, DM Computergestützte Arzneimitteldesignmethoden. In Antibiotics (Hrsg. Jack, E.) 85–106 (Springer, 2017).

Google Scholar

Stephani, JYM, Vijayakumar, G., Sunhye, H. & Sun, C. Rolle des computergestützten Arzneimitteldesigns in der modernen Arzneimittelentwicklung. Bogen. Pharm. Res. 38(9), 1686–1701 (2015).

Artikel Google Scholar

Duch, W., Swaminathan, K. & Meller, J. Ansätze der künstlichen Intelligenz für rationales Arzneimitteldesign und -entdeckung. Curr. Pharm. Des. 13(14), 1497–1508 (2007).

Artikel CAS PubMed Google Scholar

Mohammad, HB et al. Computergestütztes Arzneimitteldesign: Erfolg und Grenzen. Curr. Pharm. Des. 22(5), 572–581 (2016).

Artikel Google Scholar

Fernando, DP-M., Edgar, L.-L., Juarez-Mercado, KE & Jose, LM-F. Computergestützte Arzneimitteldesignmethoden – aktuelle und zukünftige Perspektiven. In Silico Drug Des. 2, 19–44 (2019).

Google Scholar

Rice, JR Das Algorithmusauswahlproblem. Adv. Berechnen. 15, 65–118 (1976).

Artikel Google Scholar

Pascal, K., Holger, HH, Frank, N. & Heike, T. Automatisierte Algorithmenauswahl: Umfrage und Perspektiven. Entwicklung Berechnen. 27(1), 3–45 (2019).

Artikel Google Scholar

Wolpert, DH & Macready, WG Keine Free-Lunch-Theoreme zur Optimierung. IEEE Trans. Entwicklung Berechnen. 1, 67–82 (1997).

Artikel Google Scholar

David, SG, Garrett, MM & Arthur, JO Automatisiertes Andocken flexibler Liganden: Anwendungen von Autodock. J. Mol. Anerkennung. 9(1), 1–5 (1996).

3.0.CO;2-6" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291099-1352%28199601%299%3A1%3C1%3A%3AAID-JMR241%3E3.0.CO%3B2-6" aria-label="Article reference 14" data-doi="10.1002/(SICI)1099-1352(199601)9:13.0.CO;2-6">Artikel Google Scholar

Garrett, MM et al. Automatisiertes Andocken unter Verwendung eines Lamarckschen genetischen Algorithmus und einer empirischen Bindungsfunktion für freie Energie. J. Comput. Chem. 19(14), 1639–1662 (1998).

3.0.CO;2-B" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291096-987X%2819981115%2919%3A14%3C1639%3A%3AAID-JCC10%3E3.0.CO%3B2-B" aria-label="Article reference 15" data-doi="10.1002/(SICI)1096-987X(19981115)19:143.0.CO;2-B">Artikel Google Scholar

Emile, A., Emile, HLA & Jan, KL Lokale Suche in der kombinatorischen Optimierung (Princeton University Press, 2003).

MATH Google Scholar

Mısır, M. & Sebag, M. ALORS: Ein Algorithmus-Empfehlungssystem. Artif. Intel. 244, 291–314 (2017).

Artikel MathSciNet MATH Google Scholar

Meng, X.-Y., Zhang, H.-X., Mezei, M. & Cui, M. Molekulares Docking: Ein leistungsstarker Ansatz für die strukturbasierte Wirkstoffentwicklung. Curr. Berechnen. Aided Drug Des. 7(2), 146–157 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Fischer, E. Einfluss der configuration auf die wirkung der enzyme. Ber. Dtsch. Chem. Ges. 27(3), 2985–2993 (1894).

Artikel CAS Google Scholar

Koshland, DE Jr. Korrelation von Struktur und Funktion bei der Enzymwirkung: Theoretische und experimentelle Werkzeuge führen zu Korrelationen zwischen Enzymstruktur und -funktion. Science 142(3599), 1533–1541 (1963).

Artikel ADS CAS PubMed Google Scholar

Cherayathumadom, MV, Xiaohui, J., Tom, O. & Marvin, W. Ligandfit: Eine neuartige Methode für das formgesteuerte schnelle Andocken von Liganden an aktive Proteinzentren. J. Mol. GR. Modell. 21(4), 289–307 (2003).

Artikel Google Scholar

Fredrik, O., Garrett, MM, Michel, FS, Arthur, JO & David, SG Automatisiertes Andocken an mehrere Zielstrukturen: Einbeziehung von Proteinmobilität und struktureller Wasserheterogenität beim Autodock. Proteinstruktur. Funktion. Bioinf. 46(1), 34–40 (2002).

Artikel Google Scholar

Gareth, J., Peter, W., Robert, CG, Andrew, RL & Robin, T. Entwicklung und Validierung eines genetischen Algorithmus für flexibles Andocken. J. Mol. Biol. 267(3), 727–748 (1997).

Artikel Google Scholar

Richard, AF et al. Glide: Ein neuer Ansatz für schnelles, präzises Andocken und Scoring. 1. Methode und Bewertung der Andockgenauigkeit. J. Med. Chem. 47(7), 1739–1749 (2004).

Artikel Google Scholar

Isabella, AG, Felipe, SP & Laurent, ED Empirische Bewertungsfunktionen für strukturbasiertes virtuelles Screening. Vorderseite. Pharmakol. 9, 1089 (2018).

Artikel Google Scholar

Huang, S.-Y., Grinter, SZ & Zou, X. Bewertungsfunktionen und ihre Bewertungsmethoden für das Protein-Ligand-Docking: Aktuelle Fortschritte und zukünftige Richtungen. Physik. Chem. Chem. Physik. 12(40), 12899–12908 (2010).

Artikel CAS PubMed Google Scholar

Garrett, MM et al. Autodock4 und autodocktools4: Automatisiertes Andocken mit selektiver Rezeptorflexibilität. J. Comput. Chem. 30(16), 2785–2791 (2009).

Artikel Google Scholar

Gromiha, MM Kapitel 7 – Proteininteraktionen. In Protein Bioinformatics (Hrsg. Gromiha, MM) 247–302 (Academic Press, 2010).

Kapitel Google Scholar

Elaine, CM, Brian, KS & Irwin, DK Automatisiertes Andocken mit netzbasierter Energiebewertung. J. Comput. Chem. 13(4), 505–524 (1992).

Artikel Google Scholar

Alexander, T., Lukas, G., Tanja, T., Marcel, W. & Eyke, H. Algorithmenauswahl auf Metaebene. Mach. Lernen. 5, 417 (2022).

Google Scholar

Lin, X., Frank, H., Holger, HH, & Kevin, L.-B. Satzilla-07: Der Entwurf und die Analyse eines Algorithmenportfolios für sat. In International Conference on Principles and Practice of Constraint Programming 712–727 (Springer, 2007).

Lars, K. Algorithmenauswahl für kombinatorische Suchprobleme: Eine Umfrage. In Data Mining und Constraint Programming 149–190 (Springer, 2016).

Mario, AM, Michael, K. & Saman, KH Das Algorithmusauswahlproblem im kontinuierlichen Optimierungsbereich. In Computational Intelligence in Intelligent Data Analysis 75–89 (Springer, 2013).

Gomes, CP & Selman, B. Algorithmische Portfolios. Artif. Intel. 126(1), 43–62 (2001).

Artikel MathSciNet MATH Google Scholar

Xu, L., Hoos, HH & Leyton-Brown, K. Hydra: Automatische Konfiguration von Algorithmen für die portfoliobasierte Auswahl. In Proceedings of the 24th AAAI Conference on Artificial Intelligence (AAAI) 210–216 (2010).

Aldy, G., Hoong, CL und Mustafa, M. Entwerfen und Vergleichen mehrerer Portfolios von Parameterkonfigurationen für die Online-Algorithmusauswahl. In Proceedings of the 10th Learning and Intelligent OptimizatioN Conference (LION), Bd. 10079 von LNCS 91–106 (Neapel, Italien, 2016).

Andrea, L., Yuri, M., Horst, S. und Vijay, AS Deep Learning für Algorithmus-Portfolios. In Proceedings of the 13th Conference on Artificial Intelligence (AAAI) 1280–1286 (2016).

Bernhard, P., Hilan, B. & Christophe, G.-C. Sagen Sie mir, wer Sie lernen kann, und ich kann Ihnen sagen, wer Sie sind: Markieren Sie verschiedene Lernalgorithmen. In Proceedings of the 7th International Conference on Machine Learning (ICML) 743–750 (2000).

Xiaoyuan, S. & Taghi, MK Eine Übersicht über kollaborative Filtertechniken. Adv. Artif. Intel. 2009, 4 (2009).

Google Scholar

Mustafa, M. Algorithmenauswahl zur adaptiven Operatorauswahl: Eine Fallstudie zu genetischen Algorithmen. In der 15. Learning and Intelligent Optimization Conference (LION), LNCS 12931 (2021).

Mustafa, M., Aldy, G. & Pieter, V. Algorithmusauswahl für das Team-Orientierungslaufproblem. In der European Conference on Evolutionary Computation in Combinatorial Optimization (EvoCOP) (Teil von EvoStar), Bd. 13222 von LNCS 33–45 (Springer, 2022).

Mustafa, M. Algorithmenauswahl über Algorithmuskonfiguratoren hinweg: Eine Fallstudie zur Mehrzieloptimierung. In der IEEE Symposium Series on Computational Intelligence (SSCI). IEEE (2022).

Mustafa, M. Domänenübergreifende Algorithmusauswahl: Algorithmusauswahl über Auswahl-Heuristiken hinweg. In der IEEE Symposium Series on Computational Intelligence (SSCI). IEEE (2022).

Mustafa, M. Verallgemeinerte automatisierte Energiefunktionsauswahl zur Vorhersage der Proteinstruktur auf 2D- und 3D-HP-Modellen. In der IEEE Symposium Series on Computational Intelligence (SSCI) (2021).

Mustafa, M. Auswahlbasierte heuristische Generierung pro Instanz für die Proteinstrukturvorhersage des 2D-HP-Modells. In der IEEE Symposium Series on Computational Intelligence (SSCI). IEEE (2021).

Gene, HG & Christian, R. Singulärwertzerlegung und Lösungen der kleinsten Quadrate. Numerische Mathematik 14(5), 403–420 (1970).

Artikel MathSciNet Google Scholar

Breiman, L. Zufällige Wälder. Mach. Lernen. 45(1), 5–32 (2001).

Artikel MATH Google Scholar

Sterling, T. & Irwin, JJ Zink-15-Liganden-Entdeckung für jedermann. J. Chem. Inf. Modell. 55(11), 2324–2337 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Ramanathan, N., Sylva, LUS, Edward, DS & Acharya, KR Kristallstruktur des menschlichen Angiotensin-Converting-Enzym-Lisinopril-Komplexes. Nature 421(6922), 551–554 (2003).

Artikel Google Scholar

Noel, MO et al. Open Babel: Ein offener chemischer Werkzeugkasten. J. Cheminf. 3(1), 1–14 (2011).

Google Scholar

Greg, L. et al. Rdkit: Eine Software-Suite für Cheminformatik, Computerchemie und Vorhersagemodellierung. Greg Landrum 2, 47 (2013).

Google Scholar

Chun Wei Yap. Padel-Deskriptor: Eine Open-Source-Software zur Berechnung molekularer Deskriptoren und Fingerabdrücke. J. Comput. Chem. 32(7), 1466–1474 (2011).

Artikel PubMed Google Scholar

Sunghwan, K. et al. Pubchem im Jahr 2021: Neue Dateninhalte und verbesserte Weboberflächen. Nukleinsäuren Res. 49(D1), D1388–D1395 (2021).

Artikel Google Scholar

Anil, KJ, Narasimha, MM & Patrick, JF Daten-Clustering: Ein Rückblick. ACM-Computing. Überleben. 31(3), 264–323 (1999).

Artikel Google Scholar

Peter, JR Silhouettes: Eine grafische Hilfe zur Interpretation und Validierung der Clusteranalyse. J. Comput. Appl. Mathematik. 20, 53–65 (1987).

Artikel MATH Google Scholar

Khanna, V. & Ranganathan, S. Raumverteilung der physikalisch-chemischen Eigenschaften zwischen menschlichen Metaboliten, Medikamenten und Toxinen. BMC Bioinf. 10(15), S10 (2009).

Artikel Google Scholar

Tudor, IO, Andrew, MD, Simon, JT & Paul, DL Gibt es einen Unterschied zwischen Leads und Medikamenten? Eine historische Perspektive. J. Chem. Informieren. Berechnen. Wissenschaft. 41(5), 1308–1315 (2001).

Artikel Google Scholar

Daniel, FV et al. Molekulare Eigenschaften, die die orale Bioverfügbarkeit von Arzneimittelkandidaten beeinflussen. J. Med. Chem. 45(12), 2615–2623 (2002).

Artikel Google Scholar

Alexandru, TB Hochdiskriminierender, entfernungsbasierter topologischer Index. Chem. Physik. Lette. 89(5), 399–404 (1982).

Artikel MathSciNet Google Scholar

Roy, K. Topologische Deskriptoren in Arzneimitteldesign- und Modellierungsstudien. Mol. Vielfalt 8(4), 321–323 (2004).

Artikel ADS CAS Google Scholar

Zlatko, M. & Nenad, T. Ein graphentheoretischer Ansatz für Struktur-Eigenschafts-Beziehungen (Springer, 1992).

Google Scholar

Lowell, HH & Lemont, BK Die molekularen Konnektivitäts-Chi-Indizes und Kappa-Form-Indizes in der Struktur-Eigenschafts-Modellierung. Rev. Comput. Chem. 5, 367–422 (1991).

Google Scholar

Lemont, BK Ein Formindex aus molekularen Diagrammen. Quant. Struktur-Aktivitäts-Beziehung. 4(3), 109–116 (1985).

Artikel Google Scholar

Bickerton, GR, Paolini, GV, Besnard, J., Muresan, S. & Hopkins, AL Quantifizierung der chemischen Schönheit von Arzneimitteln. Nat. Chem. 4(2), 90–98 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Artem, C. et al. Qsar-Modellierung: Wo warst du? Wohin gehst du? J. Med. Chem. 57(12), 4977–5010 (2014).

Artikel Google Scholar

Rafael, G.-B. et al. Automatisches chemisches Design mithilfe einer datengesteuerten kontinuierlichen Darstellung von Molekülen. ACS Central Sci. 4(2), 268–276 (2018).

Artikel Google Scholar

Lowell, HH, Brian, M. & Lemont, BK Der elektrotopologische Zustand: ein Atomindex für qsar. Quant. Struktur. Aktivitätsbeziehung. 10(1), 43–51 (1991).

Artikel Google Scholar

Lemont, BK & Lowell, HH Ein elektrotopologischer Zustandsindex für Atome in Molekülen. Pharm. Res. 7(8), 801–807 (1990).

Artikel Google Scholar

de Carolina, G., Lemont, BK & Lowell, HH Qsar-Modellierung mit den elektrotopologischen Zustandsindizes: Kortikosteroide. J. Comput. Unterstützt Mol. Des. 12(6), 557–561 (1998).

Artikel Google Scholar

Steven, HB Der erste allgemeine Index der molekularen Komplexität. Marmelade. Chem. Soc. 103(12), 3599–3601 (1981).

Artikel Google Scholar

Steven, HB Konvergenz, molekulare Komplexität und synthetische Analyse. Marmelade. Chem. Soc. 104(21), 5801–5803 (1982).

Artikel Google Scholar

Gasteiger, J. & Marsili, M. Iterativer teilweiser Ausgleich der orbitalen Elektronegativität – ein schneller Zugang zu Atomladungen. Tetrahedron 36(22), 3219–3228 (1980).

Artikel CAS Google Scholar

Sven, H., Svante, W., William, JD, Johann, G. & Michael, GH Die anästhetische Aktivität und Toxizität von halogenierten Ethylmethylethern, einem von PLS modellierten multivariaten QSAR. Quant. Struktur. Aktivitätsbeziehung. 4(1), 1–11 (1985).

Artikel Google Scholar

Hongbin, Y. & Abby, LP QSAR-Studien zur HIV-1-Integrase-Hemmung. Bioorganisches Med. Chem. 10(12), 4169–4183 (2002).

Artikel Google Scholar

Zhou, J. et al. Graphische neuronale Netze: Ein Überblick über Methoden und Anwendungen. AI Open 1, 57–81 (2020).

Artikel Google Scholar

Dejun, J. et al. Könnten graphische neuronale Netze eine bessere molekulare Darstellung für die Arzneimittelentwicklung erlernen? eine Vergleichsstudie deskriptorbasierter und graphbasierter Modelle. J. Cheminform. 13(1), 1–23 (2021).

Google Scholar

Referenzen herunterladen

Diese Arbeit wird durch den Interdisciplinary Research Seed Grant der Duke Kunshan University unterstützt.

Abteilung für Natur- und angewandte Wissenschaften, Duke Kunshan University, Kunshan, China

Tianlai Chen, Xiwen Shu, Huiyuan Zhou, Floyd A. Beckford und Mustafa Misir

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

MM und FB haben die Studie konzipiert und gestaltet. TC und HZ führten die Datengenerierung durch. MM, XS, TC und HZ implementierten das Modell und die Visualisierung. Alle Autoren diskutierten die Ergebnisse und trugen gleichermaßen zum endgültigen Manuskript bei.

Korrespondenz mit Floyd A. Beckford oder Mustafa Misir.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Chen, T., Shu, X., Zhou, H. et al. Algorithmusauswahl für das Protein-Ligand-Docking: Strategien und Analyse zu ACE. Sci Rep 13, 8219 (2023). https://doi.org/10.1038/s41598-023-35132-5

Zitat herunterladen

Eingegangen: 07. Januar 2023

Angenommen: 12. Mai 2023

Veröffentlicht: 22. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-35132-5

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.