Be(e)Chat: Errichtung und Betrieb eines generativen Sprachmodells

Das Projekt Be(e)Chat zielt darauf ab, auf Basis eines lokal betriebenen generativen KI-basierten Modells (GenAI) in der Hochschullandschaft des Kantons Bern, sichere und datenschutzkonforme Anwendungen im Bildungskontext zu ermöglichen.

Steckbrief

  • Lead-Departement Technik und Informatik
  • Weitere Departemente Gesundheit
  • Institut(e) Institute for Patient-centered Digital Health (PCDH)
  • Forschungseinheit(en) PCDH / AI for Health
  • Förderorganisation BFH
  • Laufzeit (geplant) 15.01.2024 - 15.07.2027
  • Projektverantwortung Prof. Dr. Kerstin Denecke
  • Projektleitung Prof. Dr. Kerstin Denecke
  • Partner Eidgenössische Technische Hochschule Lausanne (EPFL)
    Universität Bern
    BeLEARN
  • Schlüsselwörter GenAI, generative KI, generatives Sprachmodell, Hochschullehre

Ausgangslage

Die stetige Entwicklung und Verbesserung von generativen Sprachmodellen (GenAI) wie GPT-3.5 oder GPT-4 hat die Art und Weise, wie wir mit künstlicher Intelligenz interagieren, revolutioniert. Dennoch birgt die Nutzung solcher durch Fremdanbieter bereitgestellten Modelle im Bildungssektor zahlreiche offene Fragen und Risiken: Woher stammen die Daten? Werden Nutzungsdaten durch Dritte weiterverarbeitet? Weiter ist soziale Gerechtigkeit ein wichtiger Aspekt: Der Zugang zu fortschrittlichen generativen Tools kostet bereits jetzt teilweise. Künftig könnten einkommensschwache Studierende dadurch benachteiligt werden. Zudem werden bestehende Bias in Trainingsdaten nach wie vor in den Modellen abgebildet. Diese Verzerrungen können bei Closed-Source-Modellen wie GPT-4 nicht selbstständig identifiziert und korrigiert werden. Oft bleibt auch unklar, woher die Daten stammen, die zum Trainieren des Sprachmodells verwendet wurden. Die Veröffentlichung von Open-Source-Modellen, wie Llama-2 und Code Llama, bietet Bildungseinrichtungen die Chance, eigene Modelle bereit zu stellen. Das bedeutet volle Kontrolle und Datenhoheit; die Daten bleiben lokal und deren Weiterverwendung ist steuer- und kontrollierbar. Dies bietet Sicherheit und die Möglichkeit, Chancengleichheit für alle sicherzustellen: So kann z.B. die Verwendung eines Hochschul-internen Tools auf Basis eines sicheren Sprachmodells erlaubt, die Verwendung anderer und kostenpflichtiger Tools jedoch verboten werden.

Vorgehen

Das aufgebaute Modell wird in einem Chat-Interface ähnlich wie ChatGPT verfügbar gemacht und kann so im Bildungskontext verwendet werden. Die Datensicherheit soll gewahrt und mögliche Bias kontrolliert werden, was den Ansatz von verfügbaren kommerziell betriebenen Sprachmodellen und Services abgrenzt. Perspektivisch erlaubt ein solches Modell auch, weitere Anwendungen zu entwickeln, die generative KI benötigen. Das Projekt untersucht die Vor- und Nachteile eines lokal betriebenen Sprachmodells, wie ein vorhandenes Modell an die Bedürfnisse einer Bildungsinstitution angepasst werden kann und welche ethischen, rechtlichen und Nachhaltigkeits-Aspekte zu beachten sind. Die Ergebnisse dieses Vorhabens werden in Lieferobjekten festgehalten, einschliesslich eines Hosting-Konzepts und einer Anleitung zur Wartung des Modells. Die erarbeiteten Ergebnisse werden als Open Educational Resources (OER) auf der Plattform «Bildung 6.0» veröffentlicht und können als Grundlage für zukünftige Forschungsprojekte und Implementierungen dienen.

Ausblick

Parallel zum Aufbau des Sprachmodells wird im Rahmen eines BeLEARN geförderten Boosterprojekts ein Modell zu KI-Kompetenzen in der Hochschullehre erarbeitet mit spezifischem Fokus auf generative KI-Tools mit Chatkomponente. Das Modell wird Lehrenden eine klare Struktur zur Verfügung stellen, um die Technologien in ihre Lehrmethoden und -inhalte zu integrieren. Sie können die eigenen Kompetenzen in Bezug auf generative KI gezielt weiterentwickeln und innovative Lehransätze zur Gestaltung effizienter Lernprozesse entwickeln.