01/2007 ‐ 07/2007

Referenzprojekt »Wyve«

Webbasierter Spracherkennungsdienst

Wyve

Spracherkennung als Webdienst

Entwicklung eines standortunabhängigen, webbasierten Sprach­er­ken­nungs­dienstes (freies Diktieren) mit darauf basierenden Client-An­wen­dungen. Der Webdienst war SOAP-basiert und konnte Sprach­daten im WAV-Format von jedem SOAP-Client entgegennehmen.

Sofort einsatzbereiter Client

Als Prototyp einer typischen Client-Anwendung wurde ein C#-ba­sie­render Client implementiert. Der Client hatte eine minimale Grösse (ca. 300KB) und war ohne Installation nutzbar (z.B. von einem USB-Stick).

Er übernahm die Sprachentgegennahme und -vor­bereitung (Schwell­wert-Analyse und Pausenerkennung), ver­schick­te die Sprach­pakete über Webservices (SOAP over HTTP) an die Ser­ver­an­wendung und fügte die erkannten Sprachpassagen in die kon­fi­gurierten Ziel­appli­ka­tionen ein.

Server mit Unterstützung beliebiger Sprachengines

Für den Tomcat-basierten Server wurde ein Framework entwickelt, das beliebige 3rdparty-Speech-Recognition-Engines integrieren und zur Laufzeit umschalten konnte.

Mittels des Prototyps wurden die Speech-Engines Sphinx 4.1 (Java) und Loquendo ASR (C/C++) evaluiert (Spracherkennungsqualität, Parallelisierbarkeit, Stabilität, Lastverhalten). Für die Anbindung von Loquendo wurde zudem ein JNA-basierter Mapper (Java zu C/C++) entwickelt.

Aufgabe im Gesamtprojekt

Technische Gesamt-Verantwortung, Design- und Architektur-Ver­ant­wor­tung, Analyse, Design und Implementierung des Prototyps, tech­ni­sche Evaluierung der Speech-Engines.

Technik

Windows XP/Linux, Tomcat 5.5.20, Java (1.5) / C# / (C/C++), Sphinx 4.1, Loquendo 7.4.0, WebServices, Servlets, Subversion, Idea 6.2, Visual Studio 2005, JDom, Axis 1.4, JNA, Jfig, log4j.

Projektgröße

3 MA (verteilte Entwicklung an drei Stand­orten in Deutsch­land), Projektsprache Deutsch / Englisch.