Crawler für LinguLab

LinguLab nutzt für die aktive Dokumentation der Sprachentwicklung einen Webcrawler. Damit ist LinguLab in der Lage die Verständlichkeit von Texten mit dem LinguLab Readabilty Index (LRI) zu messen.

C#, NHibernate, SQL Server 2008

Die technische Realisierung dieses Crawlers übernahm media access. Die Implementierung erfolgte auf Basis des .NET Framework 3.5 SP1. Für das ORM (Object-Relational-Mapping) kommt mit NHibernate ein stabiles Framework zum Einsatz.

Crawlen, aber nicht wie Google oder Bing...

Der von media access geschaffene Crawler durchsucht vorher festgelegte Seiten. Suchmaschinen indexieren den Inhalt der einzelnen Seiten, um Suchergebnisse liefern zu können. Im Gegensatz dazu analysiert der Crawler von LinguLab den auf den einzelnen Seiten verwendeten Wortschatz.

Der gesammelte Wortschatz kommt im Modul "Worthäufigkeit" zum Einsatz. Das Modul misst vereinfacht gesagt, wie verständlich ein Text für einen Leser der Zielgruppe ist.

Spannende Einsatzmöglichkeiten

Für den LinguLab Readability Index (LRI) ergeben sich daraus spannende Potenziale:

  • Die Crawler-Datenbank speichert alle gesammelten Ergebnisse über einen langen Zeitraum. Damit lassen sich Trendauswertungen über Änderungen in der Sprache oder Schwerpunkte in bestimmten Zeiträumen erstellen.
  • LinguLab wird branchenspezifische Wörterbücher erstellen, die die Kunden des LinguLab Enterprise Server nutzen können.