In the world of digital market research, online communities are gold mines of valuable consumer data. They offer direct feedback and provide insights into the preferences and behavioral patterns of the target groups. However, analyzing this extensive and diverse data poses challenges for many companies. This is where Tucan.ai comes in and revolutionizes the process of data evaluation – progress that was impressively presented by Florian Polak in the marktforschung.de webinar. In this article, we explain the key points of this innovation and show how Tucan.ai is breaking completely new ground in automated data analysis.
“We know how crucial the transparency and reliability of the results provided by our AI is.”
Interview Marktforschung.de with Florian Polak
Managing Director, Tucan.ai GmbH
Edit Content
Edit Content
KI generierte Zusammenfassung von Tucan.ai
Zusammenfassung des Webinars “KI als Forschungsassistentin: Automatisierte Auswertung von Onlinecommunitydaten”
Begrüßung und Einführung
Zu Beginn des Webinars begrüßte Sabrina Gehrmann die Zuschauer und stellte Florian Polak vor, den Mitbegründer und Geschäftsführer von Tucan.ai der zuvor als Produktmanager bei Careship gearbeitet hat. Sie wies darauf hin, dass Fragen während des Webinars über einen speziellen Button gestellt werden können und dass Florian Polak diese im Anschluss beantworten wird.
Vorstellung des Themas
Florian Polak führte in das Thema des Webinars ein, indem er die Bedeutung der KI in der Marktforschung, insbesondere bei der Auswertung von Online Communities, erläuterte. Er betonte, wie Forschungsfragen effizient mit großen Datenmengen in kurzer Zeit ausgewertet werden können und gab einen Überblick über die Funktionen und Vorteile der KI-Technologie in diesem Bereich.
Technischer Exkurs und Präsentation des Systems
Polak präsentierte das von Tucan.ai entwickelte System, das in der Lage ist, aus Texten, Audiodaten und Videos relevante Informationen zu extrahieren und zu verarbeiten. Er ging auf die technischen Aspekte des Systems ein, einschließlich der Verarbeitung und Auswertung von Daten, und erklärte, wie das System mit Herausforderungen wie Halluzinationen von KI und Datenschutz umgeht. Er stellte auch dar, wie das System die Zusammenarbeit mit KI-Technologien optimiert, ohne dass zusätzliche Mitarbeiter benötigt werden.
Anwendungsbereiche und Kundenreferenzen
Polak teilte einige Anwendungsbereiche und Kundenreferenzen mit, um zu zeigen, wie das System bereits erfolgreich eingesetzt wird. Er erwähnte namhafte Kunden wie die Bundeswehr, Telefonica, Porsche, Mercedes und Axel Springer, die das System für verschiedene Zwecke nutzen.
Fragen und Antworten
Im letzten Teil des Webinars beantwortete Florian Polak Fragen der Zuschauer zu verschiedenen Themen, darunter die Anwendung des Systems auf verschiedene Studientypen, Testmöglichkeiten vor der Beauftragung, Vergleiche zwischen Länderstudien, die Mindestmenge an Daten für eine zuverlässige Arbeit des Systems, die Erkennung von Dialekten und Schreibfehlern sowie die Kombination von quantitativen und qualitativen Daten.
Abschluss
Zum Abschluss bedankte sich Sabrina Gehrmann bei Florian Polak und den Zuschauern. Sie wies auf kommende Webinare hin und verabschiedete die Teilnehmer.
Edit Content
KI generiertes Transkript von Tucan.ai
Sabrina Gehrmann: 00:00:07,070 –> 00:00:46,280
Es wartet wieder ein aufregendes Webinar auf uns. Deswegen würde ich sagen höchste Zeit, dass wir jetzt starten und damit. Hallo und herzlich willkommen, liebe Zuschauerinnen und Zuschauer zu diesem Webinar heute hier auf Marktforschung punkt.de. Mein Name ist Sabina Germann. Ich bin hier online Eventmanagerin im Haus und zum heutigen Webinar Ganz herzlich begrüßen darf ich Florian Polak. Er ist Mitbegründer und Geschäftsführer von Tucan.ai. Zuvor hat er bereits als Produktmanager bei Careship gearbeitet. Und nicht nur deswegen freuen wir uns sehr, ihn heute zu begrüßen. Deswegen auch an dich. Hallo Florian, schön, dass du da bist.
Florian Polak: 00:00:47,060 –> 00:00:47,930
Freut mich. Hallo!
Sabrina Gehrmann: 00:00:49,100 –> 00:01:31,460
Und für Sie noch der Hinweis Liebe Zuschauerinnen und Zuschauer, wenn Sie gleich in den nächsten 30 Minuten Fragen haben, dann stellen Sie die sehr gerne. Es gibt unten an Ihrem Bildschirmrand den Button F, A oder K und A. Dort einfach draufklicken, fragen, reinschreiben. Wir haben uns vereinbart, dass Florian alle Fragen dann im Anschluss beantworten wird. Deshalb gerne diese diese Möglichkeit nutzen. Aber jetzt freuen wir uns sehr auf die KI als Forschungsassistentin. Automatisierte Auswertung von Onlinecommunitydaten. Und damit gebe ich auch jetzt an dich ab. Florian, Du darfst gerne deinen Bildschirm teilen und ich wünsche Ihnen, liebe Zuschauerinnen und Zuschauer, jetzt ganz viel Spaß.
Florian Polak: 00:01:33,440 –> 00:02:14,420
Wunderbar. Ich hoffe, alle können den Bildschirm sehen. Sehr gut. Ja. Vielen Dank, dass ihr heute alle so zahlreich angekommen sind. Wie schon erwähnt, waren Pollock mein Name. Ich bin Geschäftsführer und Gründer von zugeneigt. Ich werde Ihnen heute ein paar Sachen zum Thema KI in der Marktforschung, vor allem im Hinblick auf Online Communities erzählen. Grundsätzlich Warum ist uns dieses Produkt oder wir bzw dieses Webinar ihre Zeit wert? Ich werde Ihnen ein bisschen zeigen, wie Forschungsfragen im Prinzip mit vielen, vielen Daten im Prinzip in wenigen Minuten eigentlich ausgewertet werden können. Ich gebe Ihnen ein paar Tipps und Tricks, wie diese KI funktioniert.
Florian Polak: 00:02:14,540 –> 00:02:53,660
Wir werden auch heute einen kurzen technischen Exkurs machen, was ich Ihnen zeige, was technisch unter der Haube eigentlich steht. Und ich werde Ihnen natürlich zeigen, wie Sie mit KI Technologien am besten zusammenarbeiten können, ohne dass das ohne zusätzliche Mitarbeiter im Prinzip deutlich deutlich mehr Studien auswerten können. Die Agenda für heute Ich werde mich kurz und knapp halten und viel Zeit auch noch für fragen zu lassen. Natürlich. Wir machen eine kurze Vorstellung über unser Unternehmen. Ich werde ein bisschen über das Probleme reden, die es grundsätzlich bei den anderen Communities geht. Ich werde auch von bestehenden KI Systemen, also z.B Tee usw was es dafür Schwierigkeiten immer wieder gibt.
Florian Polak: 00:02:54,170 –> 00:03:44,040
Dann werde ich eine kurze Übersicht über die Software geben. Kleine technischen Exkurs, dann Tiere reinschauen, reinschauen wie funktioniert und sich das System und noch ein paar Informationen zum Datenschutz und zu unseren Preisen sein. Dann starten wir ganz kurz zu uns. Ja, wir wurden 2019 gegründet. Es ist ein KI Unternehmen aus Berlin, mittlerweile mit mittlerweile 20 Mitarbeiter. Wir haben uns darauf fokussiert, aus Gesprächen, aber auch Texten relevante Informationen zu extrahieren und zu verarbeiten. Haben dabei auch einen Fokus auf sensible Informationen. Arbeiten auch in anderen Bereichen, aber vor allem natürlich auch in der Marktforschung und bieten da verschiedene Module an, unter anderem qualitative Kodierung, quantitative Kodierung, aber eben jetzt auch online Communities, die man tatsächlich auswerten kann, Produkte sich Inhalte vorstellen werde.
Florian Polak: 00:03:44,060 –> 00:04:25,790
Ist grundsätzlich. Wie können Sie Ihre Forschungsfragen an große Datenmengen stellen, um das System zu verwenden? Als Assistent quasi, denen die relevanten Informationen tatsächlich auswerten kann und Ihnen auch die Referenzen geben kann, zu den Originaltext stellen, sodass Sie sehr, sehr viele Textnennungen, aber auch verschiedene Formate wie Audio, Video oder auch Text tatsächlich mit diesem System auswerten können. Das System ist so aufgebaut, dass es immer zwei Dinge macht Es macht die Auswertung und es gibt Ihnen die Originaltext stellen. Und ich werde auch ein bisschen dazu sagen, wie wie es technisch funktioniert, damit Sie eine gewisse Grundvorstellung haben, wie das System aufgesetzt ist.
Florian Polak: 00:04:26,720 –> 00:05:10,020
Ein paar Referenzen. Wir arbeiten in Deutschland mit einigen großen Unternehmen schon zusammen. Der größte Kunde, den wir haben, ist die Bundeswehr. Aber auch Telefonica, Porsche, Mercedes und Axel Springer sind unsere Kunden. Ohne Communities grundsätzlich sehr wohl einsetzbar. Natürlich in der Praxis, weil es verschiedene Formate und verschiedene Auswertungstechniken kombiniert und natürlich die Möglichkeit besteht, sehr tief reinzugehen und gewisse Fokusgruppen im Prinzip auszuwerten. Der Teufel liegt allerdings im Detail. Es ist natürlich dann die Auswertung nachher zu führen, vor allem der qualitative Teil, aber auch diese Freitagsantworten zu quantifizieren und dann wirklich auszuwerten und ein gesamtheitlichen Überblick über die ganzen Studien durchzuführen.
Florian Polak: 00:05:10,020 –> 00:05:54,180
Das kann sehr, sehr zeitintensiv sein. Und da ist es besonders wichtig, wenn man vor allem eine Mischung hat aus qualitative Auswertung und quantitative Forschung, dass man wirklich diese Ergebnisse möglichst objektiv betrachtet und auswertet. Und das ist natürlich für eine Maschine etwas leichter als für Menschen, ist auch der Grund, warum wir glauben, dass wir tatsächlich als unterstützend hierfür für die Forscher glauben, dass das System, dass ich auch einen qualitativen Mehrwert bringt, grundsätzlich das Hauptthema natürlich. Man kann das natürlich alles manuell machen, wird ja auch seit einigen Jahrzehnten so gemacht. Grundsätzlich ist natürlich zwei Möglichkeiten Entweder man setzt fehlende Mitarbeiter ein oder heuert Externe dazu, um diese Analysen zu führen.
Florian Polak: 00:05:54,180 –> 00:06:31,920
Das ist teuer. Das kostet alles sehr, sehr viel Zeit. Und aus diesem Grunde ist im Prinzip der Punkt, dass wir uns auf diesen Bereich fokussieren, um eben die Auswertung maschinell unterstützt ein bisschen besser zu machen. Ähm, warum wir jetzt nicht einfach Systeme wie zB die verwenden? Es gibt ja mittlerweile auch mehrere KI Technologien, die rausgekommen sind seit zwei Jahren sehr prominent. Natürlich gibt ein paar Risiken, was das was problematisch finde in der Marktforschung tatsächlich zu dieser Auswertung von Studien ist. Eine Thema sind Halluzinationen. Das ist der Begriff im Prinzip, dass diese KI Algorithmen sehr, sehr gut geeignet sind, ihm Antworten zu liefern.
Florian Polak: 00:06:31,920 –> 00:07:12,810
Manchmal sind sie jedoch leider falsch und es gibt sehr, sehr wird sehr, sehr schwierig, wenn man dem System nicht vertrauen kann, wie man das am besten überprüfen kann. Das ist so eines der Hauptthemen hier in der Marktforschung. Das zweite Thema natürlich, wenn man so Unternehmen wie zB die im Prinzip für den Einsatz verwendet, man kriegt wahnsinnig gute Ergebnisse Tatsächlich. In manchen Bereichen jedoch gibt es immer das große Drama, dass diese Daten auch teilweise in die USA übermittelt werden. Insbesondere bei vertraulichen Studien ist das natürlich ein Thema und teilweise gibt es Anbieter, die das Ganze zu Trainingszwecken weiterverwenden, das heißt auch ihre Daten tatsächlich verwenden, um das System zu verbessern.
Florian Polak: 00:07:13,830 –> 00:07:54,600
Das hat ein riesen Nachteil. Natürlich, weil ihre vertraulichen Informationen theoretisch dann in diesen Trainingsdaten entstehen und in einer zukünftigen Variante von diesem Algorithmus möglicherweise als Antworten geliefert werden können. Hauptthema natürlich auch hier die Limitierung auf sogenannte Tokens. Das ist die Art und Weise, wie abgerechnet wird. Das heißt, man kann nur eine gewisse Anzahl an Wörter in diese Systeme reinspielen. Führt auch dazu, dass eben nicht alle die gesamte Studie ausgewertet werden kann, sondern dass aufgebrochen werden muss, was zu Inkonsistenzen für Assistenten führt, uns natürlich dazu führt, dass man deutlich deutlich länger braucht, um das System auswerten zu lassen.
Florian Polak: 00:07:55,290 –> 00:08:48,500
Aber das Hauptthema hier auch die Quellen fehlen. Also nochmal das Thema von der Überprüfung. Man muss einen einfachen Weg haben, diese Ergebnisse schnell überprüfen zu können. Originalzitate sind vor allem natürlich bei Studien sehr, sehr spannend. Und das ist genauso ein Thema, das essenziell für die Auswertung ist. Jetzt kommen wir zu unserem System. Grundsätzlich, Was ich Ihnen heute vorstelle, ist relativ forward. Sie haben die Möglichkeit, verschiedene Daten in das System einzuspielen. Das heißt, wir können Videos machen, wir können Audiodateien, die dann beide jeweils transkribiert werden in Text, aber auch Excel oder Elster Tan können hochgeladen werden in das System und dann können an diese Daten Fragen gestellt werden, die dann beantwortet werden von der KI und ausgewertet Tatsächlich und auch Referenzen geben zu den jeweiligen Originaltext stellen, um diese Überprüfung einfach zu machen.
Florian Polak: 00:08:49,700 –> 00:09:28,340
Ich will Ihnen gleich nachher noch mal erzählen, wie es technisch ein bisschen funktioniert. Wir grundsätzlich akzeptieren jede Art von maschinell lesbaren Text, aber auch eben Audio oder Videodateien, die dann von uns transkribiert werden in Text, damit danach ausgewertet werden kann. Verschiedene Formate, Excls, Dateien oder man kann das auch verbinden mit einer API Schnittstelle direkt mit Ihrem Programm, das Sie verwenden, quasi um diese Online Communities zu tun. Es gibt ein paar Garantien, die wir Ihnen geben können, und das eine Thema ist es, wenn der Antihalluzinations Mechanismus eingebaut haben, dass ihm genau dieses System nur aufgrund Ihrer Daten tatsächlich antwortet und nicht Sachen erfindet.
Florian Polak: 00:09:29,180 –> 00:10:06,590
Das zweite Thema ist, dass wir Ihnen garantieren, wenn Sie mit uns in der Cloud arbeiten, dass diese Daten ausschließlich in Deutschland auf unserem Server verarbeitet werden. Mittlerweile ist unsere Standort in Nürnberg und dort werden alle Daten im Prinzip verarbeitet. Zwei dritte Thema Es wir Mit jedem Kunden, den wir mit dem wir zusammenarbeiten, machen wir einen eigenen Cluster im Prinzip auf. Das bedeutet, dass Ihre Daten ausschließlich für Ihre Auswertung verwendet werden, nicht für Trainingsdaten, es sei denn, Sie geben uns die schriftliche Anweisung, dass wir das System manchmal nachtrainieren können für Ihren Use Case. Das ist allerdings nur, wenn Sie uns im Prinzip explizit anweisen.
Florian Polak: 00:10:07,070 –> 00:10:45,350
Und der letzte Punkt ist Es gibt keine Begrenzung an der Anzahl an hochgeladenen Datenmengen. Also Sie sind da völlig frei. Sie können da wirklich hochladen, was sie wollen, wie das System so aufgebaut ist, dass es trotzdem dieselbe Performance gibt. Egal ob das jetzt Terabyte von Daten sind oder tatsächlich nur ein einzelnes Transkript. Was macht unser System also grundsätzlich technisch? Ähm, wir machen im Prinzip zwei Dinge, um sicherzustellen, dass wir große Mengen an Text im Prinzip aufbrechen können. Hier ist ein Beispiel von einem Transkript. Grundsätzlich geht es auch mit einer Exceldatei. Also jede Art von Text wird so aufgebrochen.
Florian Polak: 00:10:45,950 –> 00:11:38,210
Das macht das System. Der erste Schritt ist, dass wir ein sogenanntes inhaltliches Junking machen. Chucking bedeutet, dass wir unseren Text anschauen und den aufbrechenden Themengebieten. Sprich das System versteht den Kontext eines Satzes und schaut sich an Was ist inhaltlich in diesem Satz gerade genannt? Es schaut sich dann auch nochmal an okay, welche anderen Punkte in diesem Transkript oder in dieser Exceldatei passen noch zu diesem Thema und fügt diese Sachen dann zusammen und macht sogenannte Chunks, also solche Themenblöcke, die dann genutzt werden, um im Prinzip weiterverarbeitet zu werden. Das heißt, wir brechen eigentlich diese großen Datenmengen in digestable Bits, das heißt leicht verdauliche Textblöcke auf, die dann im Prinzip im nächsten Schritt in einer sogenannten Vektordatenbank abgelegt werden.
Florian Polak: 00:11:38,810 –> 00:12:31,550
Sie sind Datenbanksysteme, die sehr gut geeignet sind, Inhalte miteinander zu vergleichen. Was wird da gemacht? Diese Chunks, die wir gemacht haben, also diese Textblöcke, werden umgewandelt in einen mathematischen Wert. Eigentlich. Und dieses System beendet diese ganzen Textblöcke in diese mathematischen Punkte, auf diese Vektorbar datenbank ab. Und wir messen dann eigentlich die Distanz zwischen zwei Textblöcken. Also wie ähnlich sind diese Aussagen sich zueinander? Wenn jetzt also eine Forschungsfrage nachgestellt wird, können Sie diese Anfrage oder auch eine Zusammenfassung haben wollen. Wird das auch umgewandelt in einen sogenannten Junk und dann abgelegt auf dieser Datenbank? Das heißt, wir können dann wissen, welche Textblöcke oder welche Informationen sind relevant?
Florian Polak: 00:12:32,210 –> 00:13:09,660
Um Ihre Frage zu beantworten. Gucken Sie sich technisch, wie das ganze System funktioniert hat ein paar Vorteile. Erstens mal dadurch, dass wir das Aufbrechen in diese Textblöcke, ist das System sehr performant. Ist das auch. Bei sehr großen Studien kriegen sie relativ rasch die Ergebnisse. Und es ist, weil eben wirklich nur diese Textblöcke herangezogen werden, die relevant sind für die Studie. Wir können auch mit einer gewissen Wahrscheinlichkeit sagen Wie relevant ist eine Aussage von einem Studienteilnehmer? Um Ihre Frage zu beantworten, zeige ich Ihnen nachher noch mal ganz gleich und wir können auch eine Rückverfolgbarkeit nehmen, was die keinen nimmt.
Florian Polak: 00:13:09,680 –> 00:13:52,040
Um die Frage zu beantworten, weil wir eben genau wissen, welche Textbausteine herangezogen wurden, um die Frage die Antwort zu formulieren. Finden Sie, und das ist im Prinzip genau dieses Thema, wie man eine inhaltliche Analyse sehr schnell machen kann. Wie würde das jetzt in der Praxis eigentlich für Sie aussehen? Auch schon ein. Ein Beispiel zum Beispiel wäre, dass Sie sagen okay, Sie können einen Ex hochladen, wo Sie Ihre gesamte Studien drin haben mit den verschiedenen Aussagen frei Textnennungen beispielsweise auch teilweise was Transkript schon aufgebrochen. Also Excel, können Sie das Ganze hochladen. Wir akzeptieren teilweise auch SVS Dateien, um im Prinzip das Ganze hochzuladen in unser System, was das System im Hintergrund dann macht.
Florian Polak: 00:13:52,040 –> 00:14:34,670
Das bricht eben diese Aussagen alle auch auf diese Textstelle und legt sie im Prinzip in einer eigenen Vektordatenbank für diese Studie ab. Geht natürlich auch mit einer EBA Schnittstelle, so dass das im Prinzip direkt angedockt ist und sie auf einen Knopf drücken und das rüberspielen. Das müssten wir uns da im konkreten Fall einfach anschauen. Der nächste Schritt ist, dass Sie dann eigentlich auswählen. Okay, welche Studie möchte ich jetzt gerade auswerten, drücken drauf und stellen tatsächlich Ihre Forschungsfragen. Da sind Sie sehr frei, wie Sie die Fragen formulieren. Grundsätzlich, dass das System eben machen wird. Es wird alle relevanten Informationen zusammensuchen, um Ihre Frage zu beantworten, Generiert daraus die Antwort auf Ihr, auf Ihre Forschungsfrage.
Florian Polak: 00:14:35,180 –> 00:15:14,840
Wir können auch tatsächlich so Sachen gemacht werden wie Was haben die weiblichen Teilnehmer dieser Studie tatsächlich zu diesem Thema gesagt? Weil wir können nämlich auch bei da bei diesen Textblöcken gewisse Metadaten hinterlegen, also beispielsweise, dass das jetzt eine Aussage von einem weiblichen Studienteilnehmer war. Das Ganze kann aggregiert werden, wird zusammengefasst und wird Ihnen als Antwort rausgegeben. Und Sie haben die Originaltext stellen, die am relevantesten sind, um Ihre Frage zu beantworten. Das schaut dann so aus Sie haben eine gewisse Relevanz da drinnen, wo Sie dann tatsächlich sehen können, okay, welche Aussagen wahr, hat das System herangezogen. Das ist jetzt hier ein Beispiel, weil das eine sehr kleine Studie war.
Florian Polak: 00:15:14,840 –> 00:16:01,790
Aber grundsätzlich kann das sind das üblicherweise was eingeschränkt auf die best passendsten 50 Aussagen und Sie haben natürlich einen Link direkt zu dieser Stelle. Ob das jetzt ein Transkript ist oder Beziehungsweise eine Stelle in einem Transkript oder ob das tatsächlich ein Excel Pfeil ist, wo Sie dann zu dieser jeweiligen Zelle springen, ist im Prinzip egal. Wir verlinken die Informationen, die Sie grundsätzlich in das System eingespielt haben und Sie haben eine leichte, einfache Möglichkeit, im Prinzip diese Aussagen zu überprüfen, indem Sie einfach über dieses eine Symbol drübergehen und sehen die Originalinformationen zu diesem Thema, zu dieser Aussage, dass je nachdem, was für Informationen da noch drinnen sind, inklusive Metadaten usw, kann man da alles relativ gebündelt navigieren.
Florian Polak: 00:16:02,150 –> 00:16:45,570
Aber das sind die Originaltexte. Das Spannende auch an der Tafel ist eben diese Wahrscheinlichkeit. Sie haben damit eine gewisse Überprüfbarkeit. Wie relevant ist ein Inhalt für die Beantwortung Ihrer Frage, um einfach zu sehen okay, wie gut ist das System in Ihrer Frage zurechtgekommen? Weil wie man Fragen formuliert, macht tatsächlich einen sehr großen Unterschied aus. Ähm, letzter Punkt Wir haben tatsächlich jetzt in den letzten paar Monaten ein paar Tests gemacht. Grundsätzlich ist es möglich, auch mehrsprachige Studien zu führen. Sprich man kann eine Frage auf Deutsch stellen und hat in seinen Daten sowohl französische Teilnehmer, englische Teilnehmer und beispielsweise polnische Teilnehmer.
Florian Polak: 00:16:45,570 –> 00:17:31,010
Dass man tatsächlich eine konkrete Studie gemacht haben, die das System übersetzt dann die Originalantworten der Teilnehmer automatisch in die Sprache, in der sie die Frage gestellt haben, gibt Ihnen dann die Antwort raus, basierend auf dem und verlinkt aber die Originaltext stellen dann in der jeweiligen Sprache, sodass Sie im Prinzip diese Studie auch tatsächlich mehrsprachig führen können. Ähm, hier, wir haben. Ich muss dazu sagen, wir haben nicht alle Teilsprachen getestet, die ich oben angeschrieben habe, Haben wir getestet. Bei denen wissen wir, dass es funktioniert. Im Regelfall würde ich sagen, romanische Sprache funktionieren tendenziell ein bisschen besser. Wir haben es noch nicht getestet mit beispielsweise Chinesisch, schlicht und einfach, weil wir auch intern nicht die Leute haben, die sie überprüfen können.
Florian Polak: 00:17:31,340 –> 00:18:12,000
Das heißt, das wäre ein Thema, wo wir uns das anschauen müssten. In Theorie sollten auch mehrere Sprachen eigentlich möglich sein, außer die genannten hier bei der Spracherkennung sind wir auch auf diese Sprachen mittlerweile eingeschränkt. Aber natürlich, wenn Sie schriftliche Daten hier einspielen und zum Beispiel chinesische Umfragen gemacht haben, müssten wir uns anschauen, wie gute Ergebnisse sind. Am besten natürlich mit jemandem, der Chinesisch kann. Natürlich können Sie das kombinieren mit anderen Produkten, die wir haben. Also als Beispiel Wir bieten ja im Prinzip quantitative Kodierung an, dass sie im Prinzip diese Freitagsnennungen zuerst tatsächlich kodieren, diese Ergebnisse dann anreichern, damit und später dann das Ganze noch mal auszuwerten.
Florian Polak: 00:18:12,330 –> 00:18:56,990
Man kann natürlich Kombinationen von dem machen, genauso gut natürlich in der qualitativen Auswertung. Wir haben ja Transkriptionen, bieten wir natürlich auch an und nachher auch noch die Möglichkeit, Aussagen aus Texten zu extrahieren und dann gebündelt als Geschenk so vorzubereiten, dass man es im nächsten Schritt mit solchen Sachen tatsächlich noch weiter auswerten kann. Datenschutz ist natürlich auch ein sehr, sehr wichtiges Thema. Grundsätzlich, wie vorhin erwähnt, Wir garantieren Ihnen, dass die Daten ausschließlich in Deutschland verarbeitet werden. Grundsätzlich Wir verarbeiten die Daten so, wie Sie das wünschen. Es gibt auch noch einmal die Möglichkeit, natürlich einzustellen, wann automatisch Daten wieder aus dem System gelöscht werden, wann im Prinzip was mit den Daten nachher passieren soll.
Florian Polak: 00:18:57,350 –> 00:19:42,770
Da sind wir sehr, sehr frei und je nachdem, wie der Kunde das möchte, können wir uns da natürlich anpassen. Ja, auf individuellen Wunsch. Was wir auch noch anbieten, sind unsere Server in Deutschland. Aber das hatten wir schon einmal, dass wir auch unseren Server in einem anderen Land aufgebaut haben. Schlicht und einfach, wenn der Kunde das gebraucht hat. Aus Datenschutzgründen. Ist möglich, ist aber ein Thema, wo wir einfach drüber sprechen müssen. Grundsätzlich gibt es zwei mögliche Pakete. Das eine Paket, das wir machen, was sehr viel in der Marktforschung verwendet, ist das On Demand Paket. Das heißt, Sie zahlen tatsächlich nach Menge der Datensätze oder pro Projekt, sind damit an keine Bindung gebunden und können das im Prinzip ad hoc nutzen, wann immer Sie, wann immer Sie das brauchen.
Florian Polak: 00:19:43,160 –> 00:20:24,840
Oder das Premiumprodukt, wo Sie sagen okay, Sie haben einen jährlichen Fixpreis, da ist es uns auch egal, wie viele Studien drüber laufen. Sie haben natürlich damit auch noch mal deutlich Mehrwert, weil sie im Prinzip Rabatte bekommen und natürlich noch mehr Service als im On Demand Bereich. Das wollte ich schon vorher erwähnt grundsätzlich die Transkription und nach aber auch die Auswertung. Die qualitative ist natürlich bei jeder Art von ON, von Sprachdaten bzw Videodaten natürlich auch relevant, dass sie diese Sachen in Text umwandeln können, um das Ganze nachher abzuwandeln. Das war’s auch schon von meiner Seite. Jetzt würde ich vielleicht auch die Fragen kurz eingehen.
Florian Polak: 00:20:24,990 –> 00:21:07,110
Ich habe so ein paar Sachen schon gesehen. Wunderbar. Die erste Frage war Beschränkt sich das System auf die Auswertung von allen Communities oder ist möglich eine Kombination zu buchen aus Auswertungen von anderen Communities, Communities bzw Auswertung, offene Nennung aus qualitativen Fragen mit quantitativen Fragebögen? Ja, das ist möglich. Also grundsätzlich das System ist geeignet, wirklich den letzten Schritt zu machen, wenn Sie die Daten schon vorbereitet haben. Sie können unser anderes Modul verwenden, wo Sie im Prinzip tatsächlich beispielsweise Sie haben Interviews, diese Interviews transkribieren, dann über unser qualitatives Codierungsstool im Prinzip aufzubrechen in die jeweiligen Kernaussagen und dann im Prinzip das Ganze auszuwerten.
Florian Polak: 00:21:07,110 –> 00:21:56,280
Das ist möglich, kann man auf jeden Fall machen. Ist es möglich, vor der Beauftragung einen Test Case zu machen? Ja, Sie können das natürlich ausprobieren. Sehr gerne. Kontaktieren Sie mich dazu einfach. Der erste Test ist natürlich kostenlos. Kann das System bei mehr Länderstudien auch Vergleiche zwischen den Ländern ziehen? Ja, geht auch. Man muss sich dazu nur überlegen, wie man das Ganze strukturiert, also im Hintergrund. Wie wir das machen, ist, wenn Sie eine Studie hochladen, werden wir das im Prinzip in einen anderen Ordner im System ablegen. Und dann können Sie sich aussuchen, was tatsächlich Entweder, dass Sie nur gegen diese beispielsweise französische Studie Fragen stellen, oder wenn Sie Vergleichen machen wollen, nehmen Sie sowohl den Ordner mit der französischen Studie oder der deutschen Studie und stellen vergleichende Fragen gegenüber diesen Zahlen.
Florian Polak: 00:21:56,730 –> 00:22:37,970
Geht alles, müsste man nur strukturell sich überlegen, wie man das am besten aufsetzt. Können wir gerne unterstützen, um so was zu machen? So, dann war im Chat noch ein paar Sachen. Wie viele Informationen ausholen, benötigt das System mindestens um zuverlässig arbeiten zu können. Grundsätzlich ist schwer zu sagen, das kann man wahrscheinlich nicht so wirklich kontrollieren. Das heißt, ich würde da einfach sagen grundsätzlich, man kann eine Aussage hochladen und dann eine Frage dagegenstellen. Das ist wahrscheinlich nicht besonders sinnvoll. Aber sie sind ja nicht eingeschränkt. Das heißt, das System wird halt mit entweder zum Beispiel einem Transkript arbeiten oder halt sehr, sehr vielen Excel Daten und Antworten.
Florian Polak: 00:22:38,450 –> 00:23:27,730
Da kommt ein bisschen darauf an, je mehr Daten Sie natürlich einspielen, ein System, desto wahrscheinlich statistisch relevanter ist das Kann ich nicht selber beurteilen. Müsste man sich einfach den konkreten Fall anschauen? Was verbirgt sich hinter dem Relevanzwert, der das System für vergibt? Wie ist diese zu verstehen? Sehr gute Frage. Grundsätzlich Was ist diese Relevanz? Das ist die Distanz, die mathematische von diesem in dieser Vektordatenbank. Zu Ihrer Frage Das heißt, wenn wir noch mal zurückgehen. Wie weit ist diese Aussage von diesem Studienteilnehmer? Von der Distanz her weit entfernt, inhaltlich weit entfernt von Ihrer Frage. Das ist das System Im Prinzip, das die Relevanz misst, ist ein Prozentueller Wert, den man dann mathematisch ganz gut ausrechnen kann.
Florian Polak: 00:23:28,090 –> 00:23:56,830
Aber das ist im Prinzip genau dieser Aspekt, der technisch funktioniert, um. Um das im Prinzip zu mappen. Das heißt, im ersten Schritt wird das Ganze, wie gesagt mathematisch umgewandelt und dann wird einfach die Distanz gemessen, um diese Relevanzwerte benennen zu können. Finde ich die Aufzeichnung später irgendwo für die Chefs. Danke. Ja, ich kann Ihnen auch gerne die natürlich im Anschluss die Präsentation schicken Aufzeichnen auf Marktforschung. Punkte Eens müssten die Kollegen dann beantworten.
Sabrina Gehrmann: 00:23:57,520 –> 00:24:04,810
Genau. Das Ganze wird aufgezeichnet. Das packen wir später bei uns in die Mediathek. Deswegen. Das können Sie alles noch mal nachschauen.
Florian Polak: 00:24:05,960 –> 00:24:54,570
Noch werden Dialekte und Schreibfehler erkannt und gehen diese Infos dann verloren. Also grundsätzlich. Das System ist relativ robust, was Schreib oder Grammatikfehler angeht. So, wenn es. Ausreicht, um den Kontext aus diesem Satz oder diesem Absatz zu extrahieren, würde es das System richtig zuordnen. Da kann es natürlich manchmal Fehler geben, je nachdem, wie diese Sachen formuliert sind. Wir kennen sehr gut mittlerweile aus der quantitativen Kodierung, wo natürlich haufenweise Grammatik und Rechtschreibfehler drinnen sind. Üblicherweise ist es so, dass es erstaunlich viele erkennt. Können wir natürlich gerne in einer Probe Testlauf einfach mal ausprobieren. Können Sie gerne auch mit vielen Rechtschreibfehlern und Grammatik Fehlern das einspielen lassen?
Florian Polak: 00:24:54,840 –> 00:25:31,350
Sie werden sehen, dass das System eigentlich das ganz gut erkennen könnte. Wunderbar. Und Dialekte? Ja, für Dialekte kann ich Ihnen ist vor allem relevant in der Spracherkennung. Da können wir uns fokussieren auf möglichst vor allem deutsche Dialekte und Akzente gut zu können. Ich selber bin Österreicher, wie Sie es vielleicht hören. Also auch österreichische Akzente gehen grundsätzlich ganz gut. Ich würde sagen, je weiter westlich man geht, also Richtung der Schweiz, desto schwieriger wird es. Wir haben tatsächlich noch massive Probleme in der Spracherkennung. Nicht nur wir, sondern alle. Leider. Um die Schweizer zu verstehen. Also Schweizerdeutsch ist noch ein ungeklärtes Thema.
Florian Polak: 00:25:31,770 –> 00:26:08,130
In geschriebenen Texten ist es dann tatsächlich ein bisschen einfacher. Wiederum, weil da einfach wiederum das System einfach versucht, den Kontext aus diesem Satz zu erkennen. Im Regelfall sollte das ein bisschen besser funktionieren. Schweizerdeutsch haben wir auch da aber noch nicht getestet. Das müsste man schauen. In Ihrer zitierten Studie Welche oder wie viele Daten hatten Sie hierfür? Das war Ich kann es nicht auswendig sagen, aber ich glaube, wir hatten auf jeden Fall Aussagen von über 200 Teilnehmern. Das waren an sich eine große Studie, die wir da hatten. Das heißt, es war. Es war eine Excel Datei, alle waren schön gemischt, also hatten wir im Prinzip viel Text Antworten auf.
Florian Polak: 00:26:08,310 –> 00:26:44,670
Ich glaube, es waren über 50 Fragen. Es ging über mehrere Tage. Das Ganze, teilweise auch Audioaufzeichnungen von den Teilnehmern, die dann transkribiert wurden und auch noch einmal eingespielt würden. Also es war schon eine ziemliche Monsterstudie, die wir da gemacht haben und auf verschiedenen Sprachen wurde das Ganze ausgewertet haben. Aber auch Ihr Vorschlag Probieren Sie es einfach gerne mit uns aus. Sie haben meine Kontaktdaten. Jetzt können Sie jederzeit gerne schreiben. Wir können gerne eine Probe Durchlauf machen und noch einmal im Detail schauen, ob das für Ihre Studie geeignet ist. Und wir können das gerne einfach mal ausprobieren.
Florian Polak: 00:26:46,050 –> 00:27:21,230
So, und ich habe jetzt gleich noch ihm Fragen und Antworten. Gibt es noch was? AT the dam. Wie sieht es mit der Auswertung von quantitativen Daten in Kombination mit qualitativen Aussagen und Fragebögen an? 50 % der Befragten fanden XY nicht so gut und den offenen findet man dann eine Erklärung, warum das so ist. Das ist tatsächlich ein sehr gutes Beispiel, wo es gut funktioniert mit dem System, weil wir dann den Konnex zwischen diesen beiden Fragen herstellen und dann auch die Aussage miteinander kombinieren können. Tatsächlich, das ist auch der Bereich, wo das Ganze recht spannend wird. Können wir gerne ausprobieren.
Florian Polak: 00:27:21,410 –> 00:28:08,570
Mein Vorschlag wäre Kontaktieren Sie uns einfach und wir können das einfach mal testen. Welche Übersetzungssoftware ist integriert? Grundsätzlich. Teilweise geht es sogar mit den mit der KI selber. Dass die vom Kontext her viel verschiedenen Sprachen versteht, einfach aufgrund der Trainingsdaten, die da drinnen sind, ist in vielen verschiedenen Sprachen drinnen. Wir haben unterstützend auch noch die BL, die meiner Meinung nach eigentlich die besten Übersetzungen und Übersetzungsmodule hat, aber grundsätzlich im Regelfall auf textueller Ebene ist das System tatsächlich meistens sogar schlau genug, tatsächlich das Ganze miteinander zu übersetzen und den Kontext daraus zu verstehen. Kommt darauf an, wir würden die Bälle dann zuschalten, wenn wir sehen, dass der Kontext nicht herausgelesen werden kann.
Florian Polak: 00:28:08,900 –> 00:28:23,430
Das wäre zum Beispiel eine Möglichkeit, wenn man Sprachen hat wie Chinesisch oder Arabisch, die doch sehr, sehr anders sind. Dann würden wir wahrscheinlich auf die Welt zurückgreifen. Ein noch. So? Ich glaube, das war’s, oder?
Sabrina Gehrmann: 00:28:24,150 –> 00:29:09,000
Ja. Erfolgreich. Alle Fragen beantwortet. Deshalb vielen lieben Dank, Florian, dafür. Und ich denke, wenn Sie noch Fragen im Nachgang haben, hier sind ja die Kontaktdaten. Deswegen gerne einfach melden. Deswegen würde ich unter die Kühe und als Häschen jetzt einen Strich machen und möchte Ihnen, liebe Zuschauerinnen und Zuschauer und natürlich auch Florian noch den Hinweis geben, dass wir Ende, oder? Ja, ab Mitte Februar stehen weitere spannende Webinare bei uns im Haus an, da können Sie sich einfach wieder anmelden. Alles kostenfrei, versteht sich. Auf dem gewählten, gewohnten Weg über Marktforschung punkt.de unter der Rubrik Webinare. Dort gerne einfach mal reinklicken.
Sabrina Gehrmann: 00:29:09,000 –> 00:29:32,010
Da würde ich mich freuen, den oder die eine oder andere noch wieder begrüßen zu dürfen. Zum nächsten Event. Ja, aber jetzt würde ich sagen, haben wir es auch geschafft für den Vormittag und entlassen gleich alle in die Mittagspause. Bevor du gerne die Schlussworte wählen darfst, sage ich von meiner Seite aus schon mal vielen lieben Dank für Ihre Aufmerksamkeit, liebe Zuschauerinnen und Zuschauer und wünsche gleich eine schöne Mittagspause.
Florian Polak: 00:29:33,080 –> 00:29:34,600
Gut. Vielen Dank. Danke schön.
Sabrina Gehrmann: 00:29:35,470 –> 00:29:35,860
Tschüss.
Table of Contents
ToggleOnline community data – an ocean of insights
The true value of online community data lies in its ability to provide deep insights into the minds of consumers. This data goes far beyond quantitative statistics and includes qualitative elements such as free text responses and multimedia content, enabling a holistic analysis. The challenge lies in the complexity and diversity of this data, which requires efficient and effective analysis.
Tucan.ai: Redefining data analysis
Tucan.ai enables market researchers to process online community data as a whole. Using specially developed AI algorithms, Tucan.ai can transcribe and analyze text, video and audio content in just a few minutes. The USP lies in the combination of versatile data processing, precise analytics, and data security. The AI-powered platform is specially designed not only to capture complex data volumes quickly but also to analyze them in-depth, contextually, and with source references for the answers. The insights generated in this way enable more informed decisions and give companies a significant competitive advantage in a competitive market environment.
Efficiency paired with in-depth analysis
Tucan.ai’s technology is designed to deliver results quickly without sacrificing relevance and accuracy. The key to this is Tucan’s ability to process large volumes of text data efficiently. By breaking up the texts into smaller, thematically related blocks (so-called “chunks”) and using a vector database, Tucan can quickly identify relevant information and use it to answer research questions. This process makes it possible to analyze the data thoroughly and efficiently without resorting to the generation of non-existent information.
Transparent and reliable results, without AI hallucination
An important feature of the software is the source referencing of each generated response. This ensures a high level of transparency in the evaluations and strengthens confidence in the reliability of the AI analyses. Tucan.ai also ensures that the AI only generates answers based on the data fed in and does not rely on external data or inventions. A crucial detail, especially when it comes to confidential and precise evaluations.
No limit to data volumes
Another advantage of Tucan.ai is that there is no limit to the amount of data that can be uploaded. Regardless of whether gigabyte or terabyte – the system performance remains unchanged.
Data security and GDPR-compliant
Security and data protection are very important, especially when it comes to sensitive research data. One guarantee that Tucan.ai offers is that the data is processed exclusively on servers in Germany. This gives companies the confidence that their data will be handled in accordance with the GDPR.
Competitive advantage with AI
Using Tucan.ai in projects means that market researchers no longer have to burden themselves with the tedious task of analyzing data. Instead, they can use their expertise to gain deeper insights and make strategic business decisions. This reorganization of resources allows companies to work on more projects at the same time and expand their capacities.
Tucan.ai is a glimpse into the future of market research, in which the automation and intelligent analysis of online community data can help companies gain enormous competitive advantages. The combination of technology, user-friendliness and precision makes Tucan.ai an indispensable tool in modern market research.