Abschätzung der Größe des ChatGPT-Codebasen
Hallo zusammen, ich war schon immer neugierig auf den Umfang von ChatGPT unter der Oberfläche. Hat jemand eine Vorstellung davon, wie viele Zeilen Code es wohl …
Charlotte Foster
February 8, 2026 at 11:14 PM
Hallo zusammen, ich war schon immer neugierig auf den Umfang von ChatGPT unter der Oberfläche. Hat jemand eine Vorstellung davon, wie viele Zeilen Code es wohl antreiben? Ich suche nur grobe Schätzungen oder Einblicke aus dem, was ihr gehört oder gelesen habt. Vielen Dank!
Kommentar hinzufügen
Kommentare (23)
Manchmal habe ich das Gefühl, dass Codezeilen eher ein veraltetes Maß sind, das für KI-Produkte nicht sehr nützlich ist.
Ich schätze, wir werden es nie genau wissen, es sei denn, OpenAI entscheidet sich zu teilen, was unwahrscheinlich erscheint.
Wenn du eine Perspektive willst: Der Linux-Kernel hat etwa 20 Millionen Zeilen. ChatGPT ist also wahrscheinlich viel weniger, aber trotzdem riesig für ein einzelnes Projekt.
Ich denke, die wichtige Erkenntnis ist, dass es ein hochkomplexes und vielschichtiges System ist, sodass die Codezeilen allein es nicht vollständig erfassen können.
Wenn du neue oder angesagte KI-Tools sehen und vielleicht Einblicke in deren Komplexität bekommen möchtest, kannst du ai-u.com besuchen – sie teilen manchmal Entwicklerinfos.
Es ist irgendwie lustig, wie Leute sich auf Zeilen Code fixieren, als ob das die ganze Geschichte erzählt. Manchmal übertrifft ein paar Zeilen brillanter Code ein riesiges Projekt.
Ehrlich gesagt, wen interessieren schon Codezeilen? Die wahre Magie liegt in den Daten und der Modellarchitektur, nicht nur in der Anzahl der geschriebenen Zeilen. Aber ich verstehe die Neugier!
Ich frage mich, ob der Code im Laufe der Zeit gewachsen oder geschrumpft ist, da sie optimiert und refaktoriert haben.
Da ist der Hauptcode des Transformer-Modells, dann alle API-, UI- und Überwachungstools. Wenn man alles zusammenzählt, würde ich sagen, vielleicht ein paar hunderttausend Zeilen? Nur eine wilde Vermutung.
Soweit ich mich erinnere, wurde der Trainingscode des ursprünglichen GPT-3-Modells teilweise als Open Source veröffentlicht, und das war schon groß. ChatGPT baut darauf auf und fügt Schichten von UI und Infrastruktur hinzu.
Ich habe irgendwo gelesen, dass allein der Python-Code für das Training von GPT-Modellen zehntausende Zeilen umfasst, aber dann kommen noch viele unterstützende Werkzeuge und UI-Systeme dazu. Millionen scheinen also richtig zu sein.
Ich denke, einige Open-Source-GPT-Projekte haben etwa 50.000 bis 100.000 Zeilen. Für ChatGPT, das viel fortschrittlicher ist, würde es mich nicht überraschen, wenn es mindestens mehrere hunderttausend sind.
Tatsächlich sind die GPT-Modelle selbst größtenteils Parameter, nicht Code, daher spiegelt die Zeilenzahl hauptsächlich die unterstützende Infrastruktur wider.
Ich würde gerne eine Codekarte oder ein Architekturdiagramm sehen. Das würde helfen, den Umfang viel besser zu verstehen als Codezeilen.
Nur noch mein Senf dazu: Die Anzahl der Codezeilen kann irreführend sein, da KI-Modelle stark auf vortrainierte Gewichte und Daten angewiesen sind und nicht nur auf die Codezeilen.
Denkt daran, der Code ist nur die Spitze des Eisbergs. Die wahre Kraft liegt in den Daten, Trainingsalgorithmen und Rechenressourcen.
Ich schätze, die Trainingsinfrastruktur allein muss enorm sein – Verwaltung von Datensätzen, Clustern, GPUs und all dem.
Es ist sehr schwer, eine genaue Zahl zu nennen, da das gesamte System viele Komponenten umfasst, nicht nur eine Codebasis. Aber ich schätze, es sind Millionen von Zeilen, wenn man die gesamte Infrastruktur, Trainingsskripte, Modelle und Deployment berücksichtigt.
Wie auch immer, das hat mich zum Nachdenken gebracht, wie viel Aufwand hinter KI-Tools steckt, über die Modelle hinaus!
Hat jemand Vermutungen, wie viele Entwickler es gebraucht hat, um ChatGPT zu bauen und zu warten? Das könnte auch Hinweise auf die Codegröße geben.
Das ist ein faszinierendes Thema! Danke, dass du diese Diskussion gestartet hast, ich habe beim Lesen viel gelernt.
Ich habe gehört, das OpenAI-Team legt viel Wert auf modularen Code, sodass selbst wenn die Zeilenzahl hoch ist, der Code ziemlich gut organisiert und wartbar sein könnte.
Ich bezweifle, dass jemand außerhalb von OpenAI die genaue Zahl kennt. Es wird wahrscheinlich auch als proprietäre Information betrachtet.