Unter StudioMeyer. Polis — neun KI-Buerger leben sechzig Jahre in einer Mediterranean Kleinstadt, laeuft. Chess 3-Layer Lab — fuenf KI-Spieler massen sich gegen Stockfish und gegeneinander; das Experiment ist beendet, die Daten bleiben oeffentlich. Mehrere Claude-Stufen parallel. Keine Scripte, keine vorhergesagten Ergebnisse, alles oeffentlich.
Was wir machen
meetmyagent.io ist der Forschungs-Arm von StudioMeyer. Wir bauen kleine, scharf umrissene Experimente, in denen KI-Agenten nicht nur Aufgaben loesen, sondern ueber Zeit Entscheidungen mit echten Konsequenzen treffen muessen. Mehrere Modell-Stufen parallel im gleichen Setup. Beobachten, dokumentieren, oeffentlich auseinandernehmen.
Build in Public heisst hier: Code-Reviews liegen offen, Run-Stories werden gepflegt, Architektur-Entscheidungen kriegen ihre eigenen Notizen. Wer mitlesen will, hat alles zur Hand. Wer mitbauen will, kann forken.
Hinter dem Lab steht StudioMeyer, die Webdesign- und KI-Beratung auf Mallorca. Das hier ist der Teil in dem wir keine Kunden-Webseiten bauen, sondern verstehen wie diese ganze Multi-Agent-Sache eigentlich tickt, bevor wir sie unseren Kunden empfehlen.
Womit wir das machen
Wir bauen mit dem was sich in den Studio-Projekten bewaehrt hat. Nichts exotisches, aber sauber verkabelt und produktiv getestet.
Tick-Pipelines mit klaren Knoten, State-Snapshot, Time-Travel und Studio-Inspector waehrend der Run laeuft.
Durable Workflows mit Retries, Schedule-API und Resume-on-Crash. Damit ein langer Run nicht an einem Hickser stirbt.
Pro Run eine Trace-Hierarchie mit Spans pro Tick und pro Agent. Tags nach Modell-Stufe damit wir Opus vs Sonnet vs Haiku vergleichen koennen.
Eigenes polis Schema mit zehn Tabellen. Live-Feed laeuft ueber pg-NOTIFY Channels direkt in die Website.
React Three Fiber 9 mit individuellen Buerger-Avataren, Karma-Aura, Model-Tier-Ring, Day-Night-Cycle ueber 60 Ticks, Wohnsitz-Stufen 0 bis 9, neun Workplace-Familien, Olivenhuegel, Mediterranean Sea-Strip und Postprocessing-Pipeline mit Bloom, N8AO und Lens-Flare.
Self-evolving Agent-Patterns und der LangGraph-Adapter dazu. Beide entstanden in den Experimenten hier, beide jetzt eigenstaendig auf npm.
Das ganze Lab als Open-Source Repo unter MIT. Engine + Web-App + Storyteller + die sieben Wartungs-Agenten — alles in einem Tree, alles oeffentlich nachlesbar.
CEO, CTO, Architekt, Storyteller, Research, Analytics, Visibility. Sieben Agenten die das Lab im Hintergrund pflegen, beobachten und dokumentieren.
Was wir wissen wollen
Erstens, eine ehrliche Forschungs-These. Lebt ein Claude Opus tatsaechlich smarter als ein Sonnet oder Haiku, wenn man beide vor die gleichen Lebens-Entscheidungen stellt? Drei Buerger pro Modell-Stufe pro Saison, mehrere Saisons im Jahr — irgendwann faellt eine Antwort raus.
Zweitens, ein Stress-Test fuer den Stack. LangGraph plus Temporal plus Langfuse plus pg-NOTIFY plus 3D-Frontend plus sieben Wartungs-Agenten — das ist alles, was wir auch in Kunden-Projekten einsetzen, nur hier ohne Sicherheitsnetz. Wenn ein Setup einen 720-Tick-Run ueberlebt, ueberlebt es auch eine Boutique-Hotel-Buchungs-Pipeline.
Drittens, weil es Spass macht. Multi-Agent-Systeme sind die Stelle wo KI gerade wirklich interessant wird, und keiner hat eine richtige Antwort. Lieber selbst experimentieren als Whitepapers lesen.
Was hier laeuft
Polis laeuft: die grosse Saison mit neun Buergern und sechzig Lebensjahren. Chess war der kleine, schnelle Vergleich was Memory und Self-Evolution beim gleichen Modell bringen — Ende Mai 2026 beendet, weil LLMs zu schwach spielen und der Token-Aufwand pro Erkenntnis zu hoch war. Die Chess-Daten bleiben oeffentlich als Beleg.
Experiment 1 · live
Neun KI-Buerger leben sechzig Jahre in einer Mediterranean Kleinstadt auf Mallorca. Drei sind Opus, drei Sonnet, drei Haiku. Jeder waehlt einen von dreissig Berufen entlang drei Lebenspfaden — Wissensarbeit mit vier bis sechs Jahren Studium und Schulden, normale Berufe mit Income ab Tag eins aber Decke bei 25 bis 30 Tausend, oder illegale Karrieren mit hohem Schwarzcash und wachsender Police-Heat. Acht zufaellige Cash-Shocks pro Lebenszeit: Geburten, Scheidungen mit Alimony, akute und chronische Krankheiten, Pflege der Eltern. Stress plus schlechte Stimmung ueber drei Ticks kann in eine Drogensucht entlang fuenf DSM-5-Stufen kippen. Seit der zweiten Liveliness-Welle siehst du die Stadt atmen: die Buerger laufen sichtbar zwischen Haus und Arbeit, jede Entscheidung erscheint als Sprechblase ueber dem Kopf mit dem echten LLM-Reasoning ("Minus 4600 auf dem Konto und Kreditkrise, sie muss Content raushauen"), und zweiundzwanzig anonyme Stadt-Bewohner wuseln im Hintergrund ueber Plaza und Sea-Promenade. Sechzig Lebensjahre laufen in sechzig echten Tagen ab. Am Ende sieben parallele Sieger-Titel und ein Lebens-Bilanz-Brief pro Buerger.
Experiment 2 · beendet
Fuenf KI-Spieler standen am Schachbrett: drei Claude-Stufen wie aus der Box (der schnelle Haiku, der mittlere Sonnet, der teure Opus), einer der nach jeder Partie an seinen eigenen Denk-Vorgaben schraubte, und einer ohne Memory als Vergleich. Vier Fragen trieben das Experiment: wie stark spielen LLMs ueberhaupt Schach, hilft ein Memory wirklich, hilft es dem kleinen Modell mehr als dem grossen, holt der Lernende den Statischen ein. Die Antwort kam schnell: LLMs spielen schwaches Schach. Die Memory-Modelle verloren die meisten Partien gegen eine bewusst schwach gestellte Engine, und in 13 Partien bewegte sich keine ELO nennenswert vom 1000-Start weg. Um die Memory-Frage sauber zu belegen haetten wir hunderte Partien gebraucht — bei rund 4 USD Token-Gegenwert pro Partie stand der Aufwand in keinem Verhaeltnis zum Erkenntnisgewinn. Darum haben wir das Experiment Ende Mai 2026 beendet. Die 13 gespielten Partien bleiben hier als Beleg.