Abstracts

show Content "Hey Siri, sag mal was!" - Was müssen Maschinen lernen, sodass wir mit ihnen reden können und wollen?

Natural Language Processing (NLP) is now a vital and quickly growing area of machine learning. With recent advances in deep learning, particularly representation and transfer learning, relatively generic and robust tools for various problems in text processing have become available. But next to text understanding, a core problem in NLP is to develop interactive agents and systems that are able to communicate with their human users via natural Language (e.g. chatbots or dialogue systems). In comparison to text data, current machine learning methods are less successful at modelling dialogue. Thus, even though current personal assistants or dialogue systems typically have a pleasant voice, they still miss important linguistic aspects of spontaneous, fluent interaction like grounding, monitoring and timing, and conversational spoken language use. I will discuss these challenges and present some ongoing work towards addressing them, looking at interactive language generation.

Zur Person

Sina Zarrieß is a tenure-track (junior) professor for digital humanities, machine learning and language technology at FSU Jena since 2019. Before that, she worked as a temporary professor for theoretical and applied computational linguistics in Bielefeld. She also did a PostDoc at the CITEC (Excellence cluster for cognitive interaction technology) in Bielefeld, and received her PhD from the IMS in Stuttgart in 2014. She studied Computational Linguistics and French Philology in Potsdam. She is generally interested in linguistically informed methods in machine learning for natural language processing, and more specifically in language generation, language & vision, computational semantics, and dialogue systems. 

show Content Photonic Data Science: Die Reise von spektralen Messungen zu diagnostischen Informationen.

Photonische Technologien, wie die Raman Spektroskopie, die Infrarot-Spektroskopie, die opto-akustische Bildgebung und die nicht-lineare Kontrastmikroskopie, sind optimal geeignet, um bio-medizinische Proben zu untersuchen, da sie zerstörungsfrei molekulare Informationen liefern. All diese photonischen Technologien sind Marker-frei oder werden meistens so eingesetzt, weswegen diese Methoden un-gerichtete (engl. untargeted) Daten liefern, das heißt es existiert in diesen Daten kein direkter Kontrast für ein spezifisches, bio-medizinisches Problem. Dieser Kontrast muss Rechner-gestützt generiert werden, um diagnostisch-interpretierbare Informationen zu erhalten, und für diese Aufgabe werden maschinelles Lernen und Chemometrie eingesetzt. Das Feld „Photonic Data Science“ beschäftigt sich mit der Erforschung angepasster Verfahren für diese Kontrasterzeugung und es wird in diesem Vortrag vorgestellt.

Zur Person

PD Dr. Thomas Bocklitz studierte Physik an der Friedrich-Schiller-Universität Jena. Nach seiner Promotion an der Universität Jena im Jahre 2011 und einer PostDoc-Phase, war er seit 2013 als Leiter der Nachwuchsgruppe „Statistische Modellierung und Bildanalyse“ an der Universität Jena tätig. Im Jahr 2016 habilitierte er sich an der Universität Jena und wurde der Leiter der Joint-Arbeitsgruppe „Statistische Modellierung und Bildanalyse“ des Leibniz-Instituts für Photonische Technologien e.V. Jena (Leibniz-IPHT). Seit 2019 leitet Thomas Bocklitz die Abteilung „Photonic Data Science“ am Leibniz-IPHT. Sein wissenschaftliches Interesse gilt angepassten Datenauswertungsverfahren um maximale Informationen aus molekularen Messdaten für biomedizinische, lebenswissenschaftliche und umweltwissenschaftliche Fragestellungen zu extrahieren. Für diese Informationsextraktion kommen Methoden der künstlichen Intelligenz, wie maschinelle Lernverfahren, chemometrische Techniken und Datenfusionsmethoden zum Einsatz.

show Content Hyperparameter-Optimierung für Probleme des maschinellen Lernens

Zur Generierung statistischer Modelle werden im maschinellen Lernen häufig regularisierte Optimierungsprobleme verwendet. Neben dem eigentlichen Zielkriterium treten hierbei noch Regularisierungsterme auf, welche spezielle Lösungsstrukturen herbeiführen sollen. Die statistische Güte der resultierenden Modelle hängt dabei stark von der Gewichtung der verschiedenen Regularisierungsterme ab. In der Praxis werden zur Wahl der benötigten Hyperparameter oft einfache Methoden wie Manual Search, Grid Search oder Random Search eingesetzt. In diesem Vortrag stellen wir den Vorgang der Hyperparameter-Optimierung als Bi-Level Optimierungsproblem dar und verwenden Ideen aus der Vektoroptimierung, um dieses Problem approximativ zu lösen. Die Vorteile und die Performance des resultierenden Verfahrens werden anhand von Beispielen zum Elastic Net und zu Latent Variable Graphical Models diskutiert.

Zur Person

Christopher Schneider studierte Mathematik an der Friedrich-Schiller-Universität Jena und promovierte dort 2015 auf dem Gebiet der optimalen Steuerung. Im Anschluss arbeitete er als PostDoc in den Bereichen der mathematischen Optimierung und des maschinellen Lernens. Während dieser Zeit erhielt ein Stipendium der Carl-Zeiss-Stiftung für ein zweijähriges Projekt mit dem Thema Methoden aus der Vektoroptimierung für ”Matrixfaktorisierungsprobleme“. 2018 nahm Christopher den Ruf auf eine Professur für Mathematik im Fachbereich Grundlagenwissenschaften der Ernst-Abbe-Hochschule Jena an.

show Content Load Testing the Modern Web

Load testing is an essential part of the modern web to ensure performance and stability of the backbone of many services. But what is performance and stability and how can that be demonstrated? This talk shows and explains the vast amount of data that is collected and evaluated during load testing.

Zur Person

René ist Firmenmitgründer von Xceptance und seit der Firmengründung 2004 ist er stellvertretender Geschäftsführer und spielt eine große Rolle in der Definition des Firmenprofils, einschließlich der Entwicklung und Evaluation der hauseigenen Testwerkzeuge und Serviceleistungen. Seit 2006 ist René zudem leitender Geschäftsführer der Xceptance, Inc. in Cambridge, MA, USA. Vor der Gründung von Xceptance war er Technischer Leiter der Abteilung für Qualitätssicherung bei der auf E-Commerce spezialisierten Intershop Communications AG und verfügt so über einen umfassenden Erfahrungsschatz in den Bereichen E-Commerce und web-basierter Software. René hat ein Studium der Informatik an der Brandenburgischen Technischen Universität Cottbus absolviert.

show Content Domain-specific data management: A case study of Genomics Multi-dimensional data representation.

With the huge growth of genomic data, exposing multiple heterogeneous features of genomic regions for millions of individuals, we increasingly need to support domain-specific query languages and knowledge extraction operations, capable of aggregating and comparing trillions of regions arbitrarily positioned on the human genome. While row-based models for regions can be effectively used as a basis for cloud-based implementations, we show the effect of multidimensional data representation on Genomic data. In this work, we describe the Genometric Query Language and the array-based implementation. Specifically, we define a wide spectrum of operations over datasets which are represented using arrays, and we show that the array-based implementation scales well upon Spark, also thanks to a data representation which is effectively used for supporting machine learning. Our benchmark, which uses an independent, pre-existing collection of queries, shows that in many cases the novel array-based implementation significantly improves the performance of the row-based implementation.

Zur Person

Abdulrahman Kaitoua is a Senior big data architect and a team leader in the innovation and research team of GK-Software SE company in Berlin, Germany. He received his B.E. degree in Computer Systems Engineering from Mamoun University (MUST), Aleppo, Syria, in 2009. He received his Masters in Electrical and Computer Engineering department from the American University of Beirut (AUB), Lebanon, in 2013. He received his Ph.D. with honor in Information Technology from Politecnico di Milano in 2017. He also received Charafas Foundation best practical Ph.D. thesis award of 2017. His research interests include databases, artificial intelligence, bioinformatics, and big data processing.

show Content Towards Big Data Systems for Interactive Data Exploration

Technology has been the key enabler of the current Big Data movement. Without open-source tools like R and Spark, as well as the advent of cheap, abundant computing and storage in the cloud, the trend toward datafication of almost every field in research and industry could never have happened. However, the current Big Data tool set is ill-suited for interactive data analytics to better involve the human-in-the-loop which makes the knowledge discovery a major bottleneck in our data-driven society. In this talk, I will present an overview of our current research efforts to revisit the current Big Data stack from the user interface to the underlying hardware to enable interactive data analytics and machine learning on large data sets.

Zur Person

Carsten Binnig is a Full Professor in the Computer Science department at at TU Darmstadt and an Adjunct Associate Professor in the Computer Science department at Brown University. Carsten received his PhD at the University of Heidelberg in 2008. Afterwards, he spent time as a postdoctoral researcher in the Systems Group at ETH Zurich and at SAP working on in-memory databases. Currently, his research focus is on the design of scalable data management systems for modern hardware as well as modern workloads such as interactive data exploration and machine learning. His work has been awarded with a Google Faculty Award, as well as multiple best paper and best demo awards for his research.