Entdecke die Welt der polnischen KI
Bielik ist ein großes, offenes Sprachmodell aus Polen, entwickelt von der Stiftung SpeakLeash mit Rechenressourcen des Akademischen Rechenzentrums Cyfronet AGH. Das Ziel ist die bessere Anpassung an die polnische Sprache und Realität.
Einer der Initiatoren des Projekts ist "Mój serdeczny kolega". Bielik ist nicht nur auf der offiziellen Website, sondern auch auf Hugging Face verfügbar.
Alle Modelle, Trainingsdaten und Werkzeuge sind Open Source – zugänglich und kostenlos unter Apache 2.0 Lizenz.
Die dritte Version basiert auf dem Qwen 2.5-Modell mit einem speziell für die polnische Sprache entwickelten Tokenizer.
Bielik wurde mit Hilfe von Supercomputern Helios und Athena trainiert – zwei der leistungsfähigsten Maschinen in Polen (Stand 2025).
Als Trainingsdaten dienten u.a. polnische Gesetzestexte, Projekt Gutenberg, Wikipedia und andere öffentlich lizenzierte Quellen.
Ein Team von 50–80 Personen arbeitet(e) an Bielik. Etwa 20 davon fokussieren sich auf Datenrecherche und Toolentwicklung, während ca. 10 das Modelltraining betreuen.
Ein begleitendes Projekt namens Sójka ermöglicht das Filtern von Inhalten aus großen Sprachmodellen basierend auf Kategorien wie Gewalt oder vulgäre Sprache.
Das Modell Bielik wurde besonders dafür geschätzt, dass es lokal ohne Cloud-Anbindung betrieben werden kann – z. B. direkt auf dem eigenen PC oder sogar auf einer modernen Grafikkarte (GPU) online.
Bielik-7B-Instruct-v0.1 erzielte in polnischen Benchmarks (OpenLLM Leaderboard) hervorragende Ergebnisse in Aufgaben wie Informationsbeschaffung und Textklassifikation.
Besonders wertvoll: Daten müssen nicht an externe Server übertragen werden – Datenschutz und Kontrolle bleiben beim Nutzer.