NashTech

Aufbau einer Plattform zum Auffinden und Analysieren von Inhalten über traditionelle Datensilos hinweg, um neue, wertorientierte Erkenntnisse zu gewinnen

Aufbau einer Plattform zum Auffinden und Analysieren von Inhalten über traditionelle Datensilos hinweg, um neue, wertorientierte Erkenntnisse zu gewinnen

Einführung

Der Technologie-Stack und die Architektur erfüllten die SLAs, die für die Plattform erforderlich waren. ELSSIE spart viel manuellen Aufwand und Zeit beim Abrufen der relevanten Daten aus den Forschungsunterlagen.

Über Elsevier

Elsevier ist ein weltweit führender Anbieter von Informationslösungen, die die Leistung von Fachleuten aus Wissenschaft, Gesundheitswesen und Technologie verbessern und sie in die Lage versetzen, bessere Entscheidungen zu treffen und eine bessere Versorgung zu gewährleisten. Sie wollen allen die Analyse erleichtern, damit sie ihre Arbeit effizienter gestalten und mehr Zeit für bahnbrechende Neuerungen aufwenden können.

Elsevier bietet Produkte und Dienstleistungen an, die Forschern, Regierungen, Universitäten und Fachleuten des Gesundheitswesens helfen, Entdeckungen zu machen, ihre Forschungsstrategien zu bewerten und zu verbessern und Ärzten Einblicke zu gewähren, um die richtigen klinischen Antworten zu finden. Ihr Ziel ist es, die Grenzen des Wissens zum Wohle der Menschheit zu erweitern.

Elsevier veröffentlicht jährlich 430.000 von Fachleuten geprüfte Forschungsartikel.

Die Herausforderung

Das größte Kundensegment von Elsevier sind Arzneimittelhersteller in aller Welt, und die Arzneimittelforschung ist ein komplexer Prozess. Die Kosten für die Entwicklung eines neuen Medikaments belaufen sich auf 2,6 Milliarden Dollar, und die Zulassungsrate für Medikamente, die in die klinische Entwicklung gehen, liegt bei weniger als 12 %. Die Fluktuationsrate bei Arzneimittelkandidaten, d. h. die Anzahl der Kandidaten, mit denen man bei jeder erfolgreichen Markteinführung beginnt, kann in der Größenordnung von 10.000:1 liegen.

Wissenschaftler stützen sich auf Wissensdatenbanken in den Bereichen Pharmakologie, Medizin, Chemie und Biologie sowie auf experimentelle Daten wie klinische Versuche, experimentelle Veröffentlichungen, Tests mit ähnlichen Kandidaten usw. Einige davon werden gekauft, andere werden im Laufe der Zeit im Unternehmen entwickelt. Wissenschaftler verbringen einen unglaublichen Teil ihrer kostbaren Zeit damit, diese Wissensdatenbanken zu durchsuchen. Nehmen wir zum Beispiel eine einfache Frage: “Welche Verbindungen haben eine ähnliche Struktur wie Benzol, haben einen Siedepunkt von über 40 Grad Fahrenheit und haben keine Nebenwirkungen auf Menschen mit Lymphomen”. Die Frage erfordert die Verbindung von Informationen aus Chemie, Medizin und Pharmakologie. Mit “Zusammenführen” meinen wir, die Frage so zu verstehen, als wäre sie menschlich, und Informationen aus verschiedenen Bereichen zusammenzuführen, um eine endgültige Antwort zu geben.

Der Kunde stellte sich eine “Plattform” vor, die Wissen aus verschiedenen Bereichen zusammenführen kann, um es durchsuchbar zu machen, und die Suchmaschine reagiert wie ein Mensch, indem sie die Frage versteht, sie in eine maschinenlesbare Abfrage umwandelt, die Datenbanken durchforstet und Ergebnisse zusammen mit der Genauigkeit liefert, mit der die Antwort wahrscheinlich die Fragen des Kunden beantwortet. Diese Plattform heißt ELSSIE; NashTech hat sie für Elseiver entwickelt.

ELSSIE ist eine Plattform, die Informationen aus verschiedenen Quellen miteinander verbindet, die in Form eines Wissensgraphen gespeichert sind und von den Fachexperten (SMEs) von Elsevier gepflegt werden. ELSSIE ermöglicht es den Nutzern, Inhalte über traditionelle Datensilos hinweg zu finden und zu analysieren, um neue, wertorientierte Erkenntnisse zu gewinnen.

Die Lösung

Das oberste Ziel von ELSSIE ist es, den Wissenschaftlern komplexe Informationen zur Verfügung zu stellen, damit sie die Entwicklung von Arzneimitteln in einem schnellen Tempo vorantreiben können.

Um dies zu erreichen, muss die Lösung in der Lage sein, verschiedene strukturierte und unstrukturierte Inhalte aufzunehmen, sie als abfragbare strukturierte Daten zu speichern, Beziehungen semantisch zu verstehen und zu generieren, indem sie Entitäten und Konzepte erkennt, gespeicherte Daten zu interpretieren und Graphenabfragefunktionen anzubieten sowie eine API zur Integration mit externen Anwendungen bereitzustellen und schließlich Wissenschaftlern die Suche nach Informationen zu erleichtern.

ELSSIE als endgültige Lösung umfasste die folgenden Komponenten:

  • Ingestion Layer bietet die Möglichkeit, strukturierte Quellen wie DBpedia und unstrukturierte Quellen wie wissenschaftliche Publikationen aufzunehmen. Der schwierigste Teil dieser Ebene ist die Fähigkeit, strukturiertes Wissen aus unstrukturierten Daten mit Hilfe von NLP zu konstruieren. Ein wissenschaftlicher Zeitschriftenartikel könnte sich zum Beispiel auf “Sauerstoff” beziehen, der von ELSSIE als chemisches Element erkannt und entsprechend gekennzeichnet werden sollte. Dies wird durch die Integration von Apache Spark mit Stanford NLP-Bibliotheken erreicht.
  • Die Data Lake-Schicht besteht aus der Speicherung des strukturierten Wissens, das von den Ingest-Pipelines generiert wird, in einem zentralen Repository, das mit Apache Cassandra aufgebaut wird. ELSSIE-Wissen besteht aus einer großen Anzahl von “Tripeln”, die einen großen Graphen bilden. Diese Triples werden im Data Lake bereitgestellt und in eine In-Memory-Datenbank (Grid Gain) geladen, so dass die Leistung innerhalb der strengen Grenzen liegt. Entitlements ist die Unterschicht innerhalb des Data Lake, die steuert, welcher Teil des Wissens für wen zugänglich sein soll. Diese Zugriffsmetadaten werden in Form von Triples gespeichert, so dass die Abfragesysteme die Informationen interpretieren und bereitstellen können.
  • Query Layer bietet eine Möglichkeit, Graphfragen (SPARQL Queries) zu stellen und Ergebnisse abzurufen. Es wird viel Innovation und Forschung in die Analyse von SPARQL-Abfragen und die Bereitstellung von Ergebnissen aus einem Schlüsselwertspeicher investiert. NashTech hat den Parser entwickelt, der die Graphenabfragen in äquivalente KV-Speicherabfragen aus der In-Memory-Datenbank umwandelt. Diese Schicht stützt sich auf ein von IBM veröffentlichtes Papier und erweitert das Konzept. NashTech hat seine Leistung anhand von LUBM-Abfragen (Lehigh University Benchmark) nachgewiesen.
  • Search Layer bietet die API zur Durchführung von Suchvorgängen im Data Lake. Dies verbindet die Google-ähnliche Freiform-Suche mit der definitiven Abfrage-Fähigkeit von Query Layer, was die Nutzung des Produkts bereichert und verbessert. Die Suche wird mit “Clustern” oder “Themen” von Wissen gefüttert, das von ML-Pipelines generiert wurde, und macht die Facetten in der Suche viel aussagekräftiger. So können die Wissenschaftler nach “Zucker” suchen und die Ergebnisse werden im Zusammenhang mit “Diabetes” oder “Zellenergie” oder “Freizeitgetränken” angezeigt.
  • Die Ebene des maschinellen Lernens (ML) bot eine Möglichkeit, die Inhalte zu kuratieren, die von Menschen erzeugten Ergebnisse zu überprüfen, die Genauigkeit des Algorithmus zu messen, mit neuen Modellen zu experimentieren, Probleme zu testen und zu beheben. ML ist der Haupttreiber für zwei Zwecke. Erstens für die Aufnahme von Inhalten, die aus verschiedenen Quellen stammen. Die Quellen für ELSSIE sind vielfältig und reichen von gut strukturierten Inhalten wie DBpedia bis hin zu gescannten PDF-Dokumenten. Die zweite Funktion besteht darin, die Suche intelligenter zu machen. Um die eingehenden und ständig wachsenden Inhalte zu verstehen, wird umfangreiches NLP eingesetzt. In den Pipelines wurden verschiedene Clustering- (Latent Direchlet) und Klassifizierungsalgorithmen (Multi-Klassen-Klassifizierung) implementiert. ML Layer und Ingestion Layer sind eng miteinander verbunden.

Zusammenfassend lässt sich sagen, dass das ELSSIE-Projekt Apache Spark, Apache Hadoop, Apache Cassandra, Apache Kafka, Apache Solr und Apache Grid Gain verwendet, die alle auf AWS aufgebaut sind. Mehrere Innovationen wie dynamisch skalierte Apache Spark- und Hadoop-Cluster, die Erweiterung von QUERTZL durch Antlr-Parser, die Verwendung von LDA zusammen mit NLP zum Auffinden von Entitäten in Texten und ihrer kontextuellen Bedeutung anstelle von harter literarischer Bedeutung wurden erreicht.

Das Ergebnis

Der Technologie-Stack und die Architektur erfüllten die SLAs, die für die Plattform erforderlich waren. ELSSIE spart viel Zeit und manuellen Aufwand bei der Beschaffung der relevanten Daten aus den Forschungsunterlagen.

Weitere Fallstudien lesen

Vom Überwinden von Widrigkeiten zum Reiten der Welle der digitalen Transformation im Bildungssektor

Erfahren Sie, wie NashTech dem Trinity College London hilft, die Welle der digitalen Transformation im Bildungssektor zu reiten

AWS
AWS
Migration und Modernisierung der virtuellen Lernumgebung auf AWS für ein verbessertes Erlebnis

Das migrierte und modernisierte Moodle Infrastruktur bedeutet, dass The Open Die Universität kann nun folgende Vorteile nutzen Cloud-Vorteile.

Ein Einblick in eine einjährige RPA-Reise mit einem führenden digitalen Werbedienst

Ein Einblick in eine einjährige RPA-Reise mit einem führenden Anbieter von digitalen Werbedienstleistungen und -lösungen und wie NashTech ihnen geholfen hat.

Unsere Partnerschaften

Nach oben scrollen
BEISPIEL TITEL
Muster kurz
Musterüberschrift lorem isump
DE FREE WHITEPAPER
Erschließen Sie die Macht des Wissens mit unserem neuen Whitepaper
“Verbesserung der Benutzererfahrung für Produktbesitzer”
KOSTENLOSES WHITEPAPER
Erschließen Sie die Macht des Wissens mit unserem neuen Whitepaper
"Verbesserte Benutzererfahrung für Produktverantwortliche"