page title decoration image

KI-Forschung für Planungsoptimierung in Rillsoft Project

KI-Forschung für Planungsoptimierung in Rillsoft Project

Rillsoft betreibt praktische KI-Forschung für reale Planungsprobleme. Im Fokus steht nicht ein generischer Assistent, sondern die fachliche Kernfrage jeder Projektplanung: Wie lassen sich Ressourcen und Termine unter Restriktionen besser aufeinander abstimmen? Diese Seite vertieft den KI-Schwerpunkt aus der Rillsoft Roadmap und beschreibt zwei konkrete Forschungsszenarien zur automatisierten Planungsoptimierung.

Es geht dabei ausdrücklich um Evaluierung und Entwicklung, nicht um fertige Produktzusagen. Untersucht wird, wie ein Modell lernen kann, einen naiven Ausgangsplan schrittweise in einen konfliktärmeren und ressourcenrealistischeren Plan zu überführen.

Rillsoft evaluiert Reinforcement-Learning-Verfahren (PPO/Actor-Critic) in zwei getrennten Trainings – für die optimale Zuordnung von Personal zu Vorgängen und für die gleichmäßige Verteilung der Ressourcenauslastung –, bewertet an objektiver Planqualität, nicht am bloßen Nachbau einer bestehenden Heuristik.

Wie wir auf den Ansatz gekommen sind

Die für diese Forschung benötigte Dateninfrastruktur ist bei Rillsoft nicht neu und nicht spekulativ, sondern seit Längerem erprobt.

Rillsoft nutzt schon seit geraumer Zeit zufällig generierte Projekte für automatisierte Tests von Rillsoft Project. Mit großen, vielfältigen Zufallsprojekten lassen sich Planungsfunktionen systematisch und reproduzierbar prüfen – über sehr viele Konfigurationen hinweg, die manuell nie abdeckbar wären. Diese automatisierten Tests haben Funktionalität und Stabilität von Rillsoft Project bereits erheblich verbessert.

Genau daraus entstand die Idee zur KI-Forschung: Dieselbe ausgereifte Generierungsinfrastruktur, die heute die Qualitätssicherung trägt, kann realistische Projektinstanzen auch als Trainingsdaten für Lernverfahren liefern – in beliebiger Menge und mit klar definiertem Start- und Zielzustand. Der Datenkern der Forschung setzt damit auf einem real existierenden, bewährten Werkzeug auf und muss nicht erst erfunden werden.

Warum sich Projektplanung für KI-gestützte Optimierung eignet

Große Projektpläne sind ein gutes Anwendungsfeld für lernende Optimierung:

  • Sie enthalten viele voneinander abhängige Entscheidungen über Reihenfolgen, Termine und Ressourcenzuordnungen.
  • Ein naiver Frühstartplan – alle Vorgänge so früh wie möglich – ist schnell erzeugt, aber selten realistisch.
  • Ein guter Referenzplan ist in realen Projekten schwer manuell zu erzeugen und gerade deshalb als Lernziel besonders wertvoll.
  • Ressourcenengpässe machen Planung iterativ und konfliktanfällig: Eine Verschiebung löst Folgeänderungen aus.
  • KI kann helfen, gute Umplanungsstrategien systematisch zu lernen, statt sie für jeden Plan neu von Hand zu suchen.

Fachlich handelt es sich um ein klassisches Resource-Constrained Project Scheduling Problem (RCPSP) mit Ressourcennivellierung – eine seit Jahrzehnten untersuchte Problemklasse der Ablauf- und Ressourcenplanung.

Zwei getrennte Optimierungsaufgaben

Gute Projektplanung verbindet zwei fachlich unterschiedliche Fragen, die sich getrennt besser lösen lassen:

  • Wer? Welche Person bearbeitet welchen Vorgang? (Ressourcenzuordnung)
  • Wann? Zu welchem Zeitpunkt liegt welcher Vorgang, damit die Auslastung gleichmäßig bleibt? (Ressourcennivellierung)

Rillsoft untersucht deshalb zwei getrennte KI-Trainings auf derselben produktionserprobten Generierungsinfrastruktur – mit je eigenem Anfangszustand, Zielzustand und Aktionsraum. Beide folgen demselben Grundprinzip: zuerst einen fachlich guten Zielzustand erzeugen, ihn dann gezielt verschlechtern und die KI den Weg zurück lernen lassen – jeweils mit unterschiedlicher Beschädigungslogik.

AspektTraining A: MitarbeiterzuordnungTraining B: Auslastungsnivellierung
Fachliche FrageWer bearbeitet welchen Vorgang?Wann liegt welcher Vorgang?
AnfangszustandVorgänge mit Rollen, ohne PersonalFrühestterminplan mit Konflikten
Zielzustandoptimale Personalbesetzunggleichmäßig verteilte Termine
Kern-AktionPersonal zuweisen, umzuweisen, tauschenVorgang zeitlich verschieben

Wichtig: Training B baut auf der Datenbasis von Training A auf (es übernimmt dessen personalbesetzten, verteilten Plan als Rohmaterial), bleibt aber ein eigenständiges Lernproblem mit eigenem Anfangs- und Zielzustand.

Training A — Optimale Mitarbeiterzuordnung

Ziel dieses Trainings ist es, einem Plan ohne Personal die fachlich beste Besetzung je Vorgang zuzuweisen – auf Basis der Rollen und unter Berücksichtigung der Urlaube –, sodass alle Mitarbeiter gleichmäßig und realistisch ausgelastet sind.

So entsteht das Trainingsdatenpaar

Auch hier gilt das Prinzip „Zielzustand zuerst, dann Anfangszustand":

  1. Es wird ein generierter Test-Ressourcenpool verwendet – mit ausreichend Rollen, Personal und einem generierten Urlaubsplan je Mitarbeiter.
  2. Ein Projekt fester Länge wird angelegt (zum Beispiel drei Monate).
  3. Für jeden Mitarbeiter wird ein Vorgang erstellt und ihm dieser Mitarbeiter zugewiesen; der Vorgang läuft zunächst über die volle Projektdauer. So wird jeder Mitarbeiter verplant.
  4. Jeder Vorgang wird anschließend in mehrere Vorgänge aufgeteilt – mit zufälliger Dauer von etwa 5 bis 10 Tagen (Rillsoft-Project-Funktion „in mehrere Vorgänge teilen"). Die Teildauer bleibt bewusst nicht zu klein.
  5. Vorgänge mit gleichem Anfang und Ende werden zur Erhöhung der Komplexität zusammengefasst.
  6. Die Rollen werden aus dem zugewiesenen Personal abgeleitet (Rillsoft-Project-Funktion „Rollen aus Personal ermitteln"). Damit liegt der Zielzustand vor: ein Plan, in dem alle Mitarbeiter optimal und urlaubsverträglich ausgelastet sind.
  7. Zuletzt wird das gesamte Personal aus den Vorgängen herausgenommen (Rillsoft-Project-Funktion „Personal aus Vorgängen herausnehmen"). Übrig bleiben Vorgänge nur mit Rollen – das ist der Anfangszustand, der Startpunkt für die KI.

Anfangs- und Zielzustand

  • Anfangszustand: Vorgänge mit Rollen, aber ohne konkretes Personal.
  • Zielzustand: dieselben Vorgänge mit optimaler Personalbesetzung – gleichmäßige Auslastung, Urlaube berücksichtigt.
  • Aktion der KI: einem Vorgang ein rollenkonformes, verfügbares Personal zuweisen.
  • Feasibility: nur Personal mit passender Rolle und ohne Urlaubskollision ist eine zulässige Aktion (Maskierung).

Wenn eine frühe Zuweisung später blockiert

Die Zuordnung ist kein unabhängiges Pro-Vorgang-Problem, sondern ein sequenzielles, kombinatorisches Matching. Eine lokal plausible Zuweisung – ein Mitarbeiter auf einen Vorgang, der „auch passt" – kann sich über mehrere Schritte hinweg als blockierend erweisen und weitere Zuweisungen verhindern:

  • Der früh gebundene Mitarbeiter wäre der Einzige gewesen, der einen späteren Vorgang rollenkonform und urlaubsfrei hätte abdecken können.
  • Für diesen späteren Vorgang bleibt dann keine zulässige Besetzung mehr übrig – eine Sackgasse.
  • Rein vorwärts-greedy gewählte Zuweisungen verschärfen das, weil knappe Spezialisten zu früh an unkritische Vorgänge gebunden werden.

Die KI muss solche Sackgassen erkennen und auflösen, statt nur vorwärts weiterzuzuweisen. Fachlich ist das der Unterschied zwischen gierigem Matching und global optimaler Zuordnung: Eine bereits getroffene Zuweisung muss revidierbar sein, damit ein knapper Spezialist wieder für den Vorgang frei wird, den nur er abdecken kann.

Die Auflösung solcher Blockaden orientiert sich an Architekturideen aus der Multi-Agent-Orchestrierung (etwa Steve Yegges Gas Town, das Arbeit persistent und nachvollziehbar als revidierbares Ledger führt). Übertragen auf die Mitarbeiterzuordnung heißt das:

  • Zuweisungen bleiben revidierbar: Sie sind nachvollziehbare, rücknehmbare Entscheidungen statt endgültiger Festlegungen, sodass eine blockierende Zuweisung gezielt zurückgenommen werden kann.
  • Globale Sicht statt lokaler Greedy-Wahl: Die KI berücksichtigt die künftige Besetzbarkeit knapper Rollen, bevor sie einen Spezialisten früh bindet.
  • Neuzuweisung als reguläre Aktion: Eine blockierende Besetzung wird getauscht, um einen Engpass aufzulösen, statt nur unbesetzte Vorgänge weiterzureichen.

Im Aktionsraum von Training A stehen daher neben „zuweisen" auch „umzuweisen/tauschen" und „Zuweisung zurücknehmen", und die Belohnung bestraft Deadlocks und nicht mehr besetzbare Vorgänge – nicht nur die Auslastungsgüte des aktuellen Schritts.

Training B — Ressourcenauslastung gleichmäßig verteilen

Ziel dieses Trainings ist es, einen zeitlich verdichteten, konfliktbehafteten Plan durch Verschieben der Vorgänge wieder so zu terminieren, dass die Auslastung gleichmäßig verteilt ist (Resource Leveling) – ohne logische Abhängigkeiten zu verletzen.

So entsteht das Trainingsdatenpaar

  1. Ausgangspunkt ist der personalbesetzte, verteilte Plan aus Training A.
  2. Alle bestehenden Verknüpfungen (Anordnungsbeziehungen) werden gelöscht.
  3. Es werden zwei Meilensteine erstellt – einer am Anfang und einer am Ende des Projekts.
  4. Es werden zufällige, endliche Verknüpfungsketten erzeugt, die vom Anfangs-Meilenstein ausgehen und am Ende-Meilenstein enden. Dadurch bleibt das Vorgangsnetz wohldefiniert und azyklisch. Dieser Zustand ist der Zielzustand mit gleichmäßiger zeitlicher Verteilung.
  5. Anschließend werden alle Vorgänge auf frühestmögliche Anfangstermine verschoben. Der gute Plan wird dadurch gezielt mit Konflikten versehen – er verdichtet sich zeitlich und erzeugt Überlastungen. Das ist der Anfangszustand, der an das Modell übergeben wird.

Anfangs- und Zielzustand

  • Anfangszustand: Frühestterminplan mit Überlastungen und Konflikten.
  • Zielzustand: der zuvor erzeugte, gleichmäßig verteilte Plan.
  • Aktion der KI: Vorgänge so verschieben, dass der Plan dem Zielzustand nahekommt.
  • Feasibility: Verschiebungen müssen die Verknüpfungen (Anfangs- und Ende-Meilenstein, endliche Ketten) wahren (Maskierung).

So lernt das Modell gezielt das Nivellierungsproblem: Es bringt einen naiven Frühestterminplan zurück in einen Zustand, in dem die Ressourcenauslastung über die Zeit gleichmäßig ist.

Der Actor-Critic-Ansatz

Planung ist ein sequenzielles Entscheidungsproblem: Jede Umplanung verändert den Zustand und beeinflusst die nächste sinnvolle Aktion. Genau dafür eignen sich Actor-Critic-Verfahren des Reinforcement Learning.

  • Der Actor schlägt konkrete Änderungen am Plan vor – etwa einen Vorgang verschieben, eine Ressource neu zuweisen oder eine Priorität ändern.
  • Der Critic schätzt den Wert dieser Änderungen, also ob sie den Plan in Richtung eines besseren Zustands bewegen.
  • Beide Komponenten werden gemeinsam trainiert. Das Modell lernt dadurch nicht nur starre Regeln, sondern Verbesserungsstrategien.

In beiden Trainings kommt dieselbe Actor-Critic-Familie zum Einsatz, nur mit unterschiedlichem Aktionsraum: In der Mitarbeiterzuordnung sind die Aktionen Zuweisungen, Umzuweisungen und Rücknahmen; in der Auslastungsnivellierung sind es zeitliche Verschiebungen der Vorgänge.

Einige fachliche Konkretisierungen:

  • Als konkretes Verfahren wird PPO (Proximal Policy Optimization) untersucht, ein etabliertes Actor-Critic-Verfahren für große, diskrete Aktionsräume.
  • Der Planungszustand wird als Vorgangsgraph (gerichtetes Netz aus Anordnungsbeziehungen) kodiert, passend zu graphbasierten Lernverfahren für Scheduling.
  • Zulässige Aktionen werden maskiert, sodass logische Abhängigkeiten stets gewahrt bleiben (Feasibility-Garantie). Die fachliche Planungslogik wird also nicht verletzt.
  • Der Ansatz folgt dem Paradigma „Learning to Improve" – iterative Plan-Reparatur ausgehend von einem Startzustand, nicht einmalige Plangenerierung von Grund auf.

Wie Planqualität bewertet wird

Damit Verbesserungen nicht nur behauptet, sondern gemessen werden, braucht die Forschung klare Bewertungsmaßstäbe. Untersucht werden unter anderem:

  • Anzahl und Schwere von Ressourcenkonflikten,
  • Planstabilität nach einer Umplanung,
  • Projektendtermin bzw. Terminverschiebung,
  • Auslastungsqualität über die Ressourcen hinweg,
  • Anteil realistisch zuweisbarer Vorgänge,
  • Vergleich gegen die Heuristik-Baseline der automatischen Personalzuordnung.

Die Belohnung ist dabei je Training spezifisch: In der Mitarbeiterzuordnung zählt die Zuordnungsqualität (gleichmäßige Auslastung, Rollenpassung, keine unbesetzbaren Vorgänge bzw. Deadlocks); in der Auslastungsnivellierung zählt die Nivellierungsqualität (gleichmäßige Auslastung über die Zeit, Konfliktreduktion, Termintreue).

Entscheidend ist die Trennung von Reward und Diagnose-Metrik: Die Belohnung im Training ist die objektive Planqualität. Der Abstand zum Referenzplan dient ausschließlich der Auswertung, nie als Trainingsziel. Wo sinnvoll, lassen sich Verfahren zusätzlich an etablierten RCPSP-Benchmarks (etwa PSPLIB) einordnen. Erfundene Leistungszahlen ohne belastbare Grundlage werden bewusst vermieden.

Praktischer Nutzen für Anwender

Die Forschung bleibt eng an der Produktpraxis. Mögliche Nutzeneffekte:

  • bessere Entscheidungsunterstützung in großen Projektplänen,
  • schnellere Erkennung unrealistischer Baselines,
  • fundiertere Vorschläge bei Ressourcenknappheit,
  • Potenzial für spätere Automatisierung und Szenarioanalyse,
  • Erweiterung der bestehenden Planungslogik – kein Black-Box-Ersatz.

Die Themen knüpfen direkt an die Kernfunktionen von Rillsoft an: Ressourcenplanung, Kapazitätsplanung und Multiprojektmanagement.

Wissenschaftlicher Kontext

Der Ansatz knüpft an etablierte Verfahren der Ablaufplanung und des maschinellen Lernens an. Die folgenden Arbeiten ordnen den methodischen Kontext ein (sie belegen nicht eigene, noch nicht erzielte Ergebnisse):

  • Kolisch, R.; Sprecher, A. (1997): PSPLIB – A project scheduling problem library. OR Software – ORSEP Operations Research Software Exchange Program. European Journal of Operational Research. Die Arbeit ist ein zentraler Referenzpunkt für RCPSP-Benchmarks.
  • Hartmann, S.; Briskorn, D. (2022): An updated survey of variants and extensions of the resource-constrained project scheduling problem. European Journal of Operational Research, 297(1), 1–14. Die Übersicht verortet klassische und erweiterte RCPSP-Varianten.
  • Zhang, C.; Song, W.; Cao, Z.; Zhang, J.; Tan, P. S.; Xu, C. (2020): Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning. Advances in Neural Information Processing Systems 33, NeurIPS 2020. Die Arbeit steht für graph- und RL-basierte Scheduling-Verfahren.
  • Mao, H.; Schwarzkopf, M.; Venkatakrishnan, S. B.; Meng, Z.; Alizadeh, M. (2019): Learning Scheduling Algorithms for Data Processing Clusters. Proceedings of ACM SIGCOMM 2019, 270–288. Die Arbeit zeigt Reinforcement Learning für Scheduling unter Abhängigkeiten in komplexen Systemen.
  • Chen, X.; Tian, Y. (2019): Learning to Perform Local Rewriting for Combinatorial Optimization. Advances in Neural Information Processing Systems 32, NeurIPS 2019. Die Arbeit ist relevant für das Paradigma der iterativen Verbesserung bestehender Lösungen.
  • Schulman, J.; Wolski, F.; Dhariwal, P.; Radford, A.; Klimov, O. (2017): Proximal Policy Optimization Algorithms. arXiv:1707.06347. Diese Veröffentlichung beschreibt das hier untersuchte PPO-Verfahren innerhalb der Actor-Critic-Familie.

Forschungsstatus und Ausblick

Diese Forschungsübersicht ist richtungsweisend und unverbindlich. Sie beschreibt Evaluierungs- und Entwicklungsarbeit, nicht garantierte Produktfunktionen oder Release-Termine.

Rillsoft verfolgt damit einen belastbaren, schrittweisen Weg zu intelligenterer Ressourcen- und Terminoptimierung – aufbauend auf einem bewährten Planungskern und einer erprobten Dateninfrastruktur. Mehr zum Gesamtbild der Weiterentwicklung finden Sie in der Rillsoft Roadmap. Sie vermissen eine Funktion oder möchten eine Entwicklungsrichtung anstoßen? Nehmen Sie Kontakt auf.

Häufig gestellte Fragen(FAQ)

Rillsoft evaluiert Reinforcement-Learning-Verfahren (Actor-Critic, konkret PPO) in zwei getrennten Trainings: Ein Training lernt die optimale Zuordnung von Personal zu Vorgängen, ein zweites die gleichmäßige zeitliche Verteilung der Ressourcenauslastung. Es geht nicht um Textgenerierung, sondern um bessere Ressourcen- und Terminentscheidungen auf dem bewährten Rillsoft-Planungskern.

Training A löst die optimale Mitarbeiterzuordnung: Welche Person gehört rollenkonform und urlaubsverträglich auf welchen Vorgang? Training B löst die Ressourcennivellierung: Wie müssen die Vorgänge zeitlich verschoben werden, damit die Auslastung gleichmäßig bleibt? Beide nutzen dieselbe Generierungsinfrastruktur, haben aber je eigenen Anfangs- und Zielzustand.

Die Mitarbeiterzuordnung beantwortet die Frage „Wer?" – sie weist Personen rollenkonform den Vorgängen zu. Die Auslastungsnivellierung beantwortet die Frage „Wann?" – sie verschiebt Vorgänge zeitlich, um Überlastungen zu vermeiden. Im Anfangszustand von Training A fehlt das Personal; im Anfangszustand von Training B sind alle Vorgänge auf den frühestmöglichen Termin verdichtet.

Rillsoft erzeugt Trainings- und Testdaten selbst. Ein Generator erstellt zufällige Projekte mit Rollen, Personal und Urlaubsplänen. In beiden Trainings wird zuerst ein fachlich guter Zielzustand erzeugt und anschließend gezielt verschlechtert – bei der Mitarbeiterzuordnung durch Herausnehmen des Personals, bei der Auslastungsnivellierung durch Verschieben aller Vorgänge auf frühestmögliche Termine. Das Paar aus gutem Zielzustand und beschädigtem Anfangszustand bildet die Grundlage für Training und Evaluierung – in beliebiger Menge und in unterschiedlichen Konfigurationen.

Große, vielfältige Instanzen verhindern, dass das Modell nur an wenigen Beispielen lernt, und fördern robuste Generalisierung auf unterschiedliche Projektmuster. Rund 1000 Vorgänge dienen als Generierungs- und Stresstestgröße; das Training selbst nutzt Curriculum-Lernen – erst kleinere, dann schrittweise größere Instanzen. Derselbe Generator wird bei Rillsoft bereits seit Längerem für automatisierte Tests eingesetzt und ist damit produktionserprobt.

Der heuristisch erzeugte Referenzplan dient als Lehrer und Startpunkt, nicht als Belohnung. Die Belohnung im Training ist die objektive Planqualität (Konflikte, Termintreue, Auslastung). Dadurch kann das Modell die bestehende Heuristik prinzipiell übertreffen, statt sie nur zu kopieren. Der Abstand zum Referenzplan wird ausschließlich als Diagnose-Metrik verwendet.

Nein. Es handelt sich um Forschungs- und Evaluierungsarbeit, nicht um eine garantierte Produktfunktion oder einen Release-Termin. Ziel ist ein belastbarer Weg zu intelligenterer Ressourcen- und Terminoptimierung, der die bestehende Rillsoft-Planungslogik erweitert und nicht ersetzt.