The National Academies Launders Mythos: “Implications of AI for Cybersecurity”

In April “The Boy That Cried Mythos” caught Anthropic collapsing its own credibility. In June “Mythos dressed up in a coat, should be called Opus with a moat” caught it again.

Anthropic wants to play God, feed on claims only they can verify, which is to say it feeds beliefs based on lies. If that sounds harsh, think about how the God of cycling Lance Armstrong treated anyone who suggested he was doping. He sure got a lot of medals for “livewrong“.

Source: Flickr

Now the Mythos lies have spilled their way into a venue claiming to use a formal review process. A new National Academies document (NASEM) freshly launders vendor marketing without any explanation.

National Academies of Sciences, Engineering, and Medicine. 2026. Implications of AI for Cybersecurity: A Rapid Expert Consultation. Washington, DC: The National Academies Press.

This should help clarify, for those who are wondering if we are dealing with a Lance Armstrong of LLMs.

NASEM Laundry (June 2026) Prior Evidence
Figure 1 plots Mythos at 83.1% on CyberGym as settled capability, sourced to “Wang et al. 2025” The 83.1% has been repeatedly proven false. It’s a self-reported number by Anthropic. AISLE proved detection reproduced in 8 of 8 open-weight models, even at $0.11 per million tokens, Cisco proved outcome is model-independent
Restricted Glasswing access presented as responsible handling of uniquely capable model The danger warnings are self-serving FUD marketing. Model uniqueness repeatedly disproven. Mythos emailed out of its sandbox only after being instructed to try, showed no sign of altering its weights, and Opus 4.6 finds the same or better flaws
Vulnerability discovery framed as a breakthrough enabling novel risk The flagship FreeBSD CVE-2026-4747 is a 2007 patch in training data, opposite of novel. It was a curated recovery from a backlog of delayed fixes, which any model does.
Benchmark score offered as capability evidence Of 23,019 reported findings, 1,752 were human-checked and 75 had fixes shown. The 90.6% accuracy applies to humans doing the work, not the machine output
Concedes open models approach frontier, advantage short-lived GLM 5.1 reproduced findings on the IronCurtain harness, and clearbluejar recovered CVE-2026-4747 on two open-weight models on a single consumer GPU. Discovery is provable as an orchestration problem, making the frontier-model unnecessary.
Expansion to roughly 150 organizations across more than 15 countries, including NATO and ENISA, read as demand Manufactured scarcity is a vendor marketing trick. The June 2 expansion followed a June 1 confidential IPO filing near a one-trillion-dollar valuation, committing access and capital ahead of the promised verification, and several trialing firms are Anthropic investors
Field evidence in the figure The curl maintainers reported no change to their workflow, and Mozilla’s headline of 271 Firefox vulnerabilities reconciles to just three versus the advisory
Mythos claims rest on anthropic.com/glasswing, the FT relay, and a benchmark the cited authors never ran on Mythos No reproduction steps accompanied the launch blog, the system card, or the Glasswing update, and a result validated only against the system that produced it is not independent confirmation
Published June 2026, capability stated as established Anthropic’s own promised report is due around July 6, 2026, and the prudent posture is to treat the unproven vendor capability as unproven

This matters because it’s turning into policy. Anthropic owes a verified CVE list with reproduction steps on July 6. Until that report arrives and survives independent review, everything resting on the Mythos claim, the consultation included, launders a mythical claim being hidden from inspection.

The Information now calls Mythos a model with “powerful cybersecurity capabilities” and attaches no qualifier, no analysis. It is not called a vendor claim, it is not called a vendor self-reporting. It gets stated as fact, in the same paragraph that uses it as precedent for OpenAI.

The premise that others are following Anthropic’s similar course rests entirely on accepting a vendor capability claim that is never verified. A marketing department fabricates a story and then American policy is being built on top of it?

When the printing press first spread, it mass-produced witch-hunting manuals that marked women for death as agents of the devil, the Malleus Maleficarum above all, known today as the witch hunts. The danger of accelerated printed letters was real, because the highly self-serving claims about threats were not. The actual Anthropic risk is that Anthropic states the risk, without any inherited system of science to keep it honest.

Get Local: Match Mythos Findings for Under a Dollar

Let’s recap what we know since April, when Anthropic’s marketing department started coal-rolling the industry with their nonsense about novelty. A model with 3.6 billion active parameters reproduced Anthropic’s flagship Mythos discovery, the FreeBSD RCE CVE-2026-4747, and the most consistent open-weight model in that test ran about six hundred times cheaper per token than Mythos.

The frontier is supposed to be the frontier, meaning the best model. But really, if you know history, the frontier was about immoral claims. And so today, the evidence points away from the frontier.

Set the marketing and history aside. Four documents, when read together, form a single brief that further buries the Mythos. The best model available to you runs on your own inexpensive hardware. Cost and performance make the obvious case. I’ll start there. And then the deeper case is much more important, where I suspect the PhDs at Anthropic don’t even know how to spell it: CIA.

Cost Considerations

The price gap was the easiest and first frontier collapse. Niels Provos put an orchestration harness in front of older commercial and open-weight models, Opus 4.6, Sonnet 4.6, and Z.AI’s GLM 5.1, and discovered live zero-days for thirty to one hundred fifty dollars a codebase, including a reproduction of the 1998 OpenBSD SACK bug he wrote himself. Security Research Labs ran a Qwen3.6 model with roughly three billion active parameters on a Mac laptop and produced finding sets comparable to GLM-5 and Claude Opus 4.6 on two production codebases, in under ninety minutes, with zero human nudges. Vicki Boykis runs Gemma 4 on a 64GB Mac and gets agentic coding loops at about seventy-five percent of frontier speed and accuracy. The Ornith team trained a nine-billion-parameter model that matches dense models several times its size, and a flagship that matches Claude Opus 4.7 on the coding benchmarks. And for what it’s worth I put https://lyrik.wirken.ai/ to the test and it matched two of the Mythos card flagship bugs for seventy five cents.

The AI Security Institute then explained why the gap is smaller than the leaderboards suggest. Benchmark scores are protocol-dependent. Raise the token budget one to three orders of magnitude above the published default and performance climbs on FrontierMath, TerminalBench, HLE, and the cyber ranges. Fixed-budget evaluations understate capability, and the gap widens as models improve. The generational gains arrive as greater reach and reliability rather than token efficiency. A frontier score describes the harness and the budget as much as it describes the weights.

So much for cost. The closed nature of the Anthropic releases seems to be intended to prevent the kind of research that proves their claims false.

Now comes the real reason to hold the model yourself. Many already know this, but let’s walk the CIA triad to be sure we’re on the same page.

Confidentiality

The customers who need a code review most are the ones forbidden to send their code anywhere. Finance, government, critical infrastructure. The SRLabs pipeline answers this directly. A cloud model designs the review from metadata alone, the local model reads the source, and a cloud model consolidates the findings. The proprietary source stays on the machine through all three stages. They are precise about the boundary, and so should we be: metadata crosses, so the accurate promise is that no source leaves the building rather than that nothing leaves. That distinction is the whole discipline. A local executor turns confidentiality from a contractual hope into a physical fact. The bytes that matter remain on a disk you control.

Integrity

Here the local model wins on a property the frontier surrenders by construction. Integrity is the correspondence between a claim and a process you can inspect. A capability you can replay is a capability. A capability asserted through an institution is a press release.

The local pipeline is fairly simple and repeatable. Provos publishes the IronCurtain harness, whose workflows are defined as finite-state machines in plain YAML. AISLE published nano-analyzer as a single Python file, and clearbluejar took that file, ran it on two open-weight models on one consumer GPU, recovered the same FreeBSD bug, and fixed the false-positive rate by adding one reachability stage that dropped the noise from thirty candidates to five. The work replays. You can rerun it, change one stage, and watch the result move. Boykis makes the same point from the inside: with a local model you watch the tokens arrive, change the context window, swap the quantization, and edit the system prompt while it runs. The box is open. And https://lyrik.wirken.ai was built with exactly this purpose in mind. Integrity is a required control, a prerequisite to doing the work at all.

The frontier offers the opposite trade. The Mythos checkpoint that AISI evaluated is one the public cannot run, scored under a protocol AISI’s own paper shows to be the lever that moves the number. The capability is real, perhaps. The evidence is an authority signature on a result you are invited to trust, like a self-signed cert in the age of Let’s Encrypt. Integrity asks for the actual head of authority, the root and details of the artifact. A model on your disk hands everything over in full transparency for high security. A model behind an API hands you a number and a logo, meaning nothing at all.

Availability

The newest fact settles the matter. Access to Fable and Mythos was suspended in June 2026 under a Commerce Department export-control directive. A rented capability can be withdrawn by a regulator, a pricing committee, or a board. And the latest erratic, grudge-filled, targeted moves by Trump prove he can wag a finger at any person or company and immediately shut down all access to US technology under “sanctions” authority. No trial, no hearing, no warning, just one minute you have US technology and the next minute it’s all gone with no path for recovery. A government that willingly undermines its entire economy and private sector is itself a moral question, but business continuity risk numbers in tech speak for themselves.

Anthropic prices Mythos at roughly five times public Opus, from twenty-five to one hundred twenty-five dollars per million tokens, which is a second kind of withdrawal for anyone whose budget matters. Many firms in June are reporting token bankruptcy and shutting down AI access to reduce explosive spend. A capability that exists at the pleasure of someone else’s arbitrary pricing policy is a capability you are borrowing into debt.

A model on your disk answers when you ask it. Its uptime is a property of your own infrastructure. No directive reaches it, no erratic price change locks you out, no quarterly access review applies. Availability stops being a service-level agreement and becomes a fact of ownership.

The brief

Confidentiality, integrity, and availability were always the job. The industry has never improved upon the simplicity and elegance of the triad, yet it now is confronted with an architecture that concedes all three to whoever holds the API. The work above shows the concession was a significant preventable error. A model you hold satisfies this brief and proves Mythos was never about capability. The frontier offers an expensive route to a number you cannot replay and do not really control.

Choose wisely.

Still No Evidence Mythos Better at Security Than Self-hosted LLMs

Anthropic allegedly built Mythos so good at finding vulnerabilities that it was too dangerous to release. Then it was handed to only a few dozen very wealthy organizations under Project Glasswing. One of them ran it against curl and sent the project a report claiming five confirmed security vulnerabilities. The curl security team dug in. Three were false positives flagging behavior already documented in the API docs. The fourth was just a bug. One survived: a low-severity CVE shipping with 8.21.0. The most dangerous code-analysis model in the world, pointed at one of the most audited C codebases in existence, found… a single low.

Whomp whomp, sad trombone for Mythos.

The project lead publicly wrote that the Mythos hype was primarily marketing, given no evidence Mythos finds issues to a higher or more advanced degree than tools that came before it. He also said he is not anti-AI-SAST. He reiterated that AI-powered code analyzers are significantly better at finding flaws than traditional analyzers ever were.

I agree with all of that 100%.

curl is one of the most fuzzed and audited C codebases in existence (OSS-Fuzz, Coverity, CodeQL, multiple paid audits), and finding anything is a good challenge. That’s why what happened next is so interesting.

The curl blog post about Mythos unleashed a wave of non-Mythos AI hunting as researchers piled onto curl with their own tooling. AISLE was hunting curl in fall 2025, before Mythos. When the blog post stirred the field, they were already deep in the codebase and just claimed 6 of 18 discovered. Compare those 18 to the single low-severity one that Mythos was credited with. The AISLE blog post makes it clear their AI method has been the most successful and yet it’s the least cost model, opposite of Mythos marketing.

Papers, Please: Wem gehört eigentlich die Browser-Engine?

Schnauze | Deutsch | English

Wer in Berlin einen Reisepass beantragt, seine Steuer über ELSTER abgibt, sich einen Termin im Bürgeramt erkämpft oder sich bei seiner Krankenkasse einloggt, tut das alles in einer Rendering-Engine, die er nicht kontrolliert, nicht prüfen kann und die sich über Nacht von einem Server an der amerikanischen Westküste neu schreibt. Die Browser-Engine ist das meistverbreitete Stück ausländische Software im gesamten öffentlichen Leben Deutschlands. Und auf keiner einzigen Liste für kritische Infrastruktur steht sie drauf.

Das Ding, das niemand auf die Liste setzt

KRITIS, das deutsche Regelwerk für kritische Infrastruktur, das das BSI beaufsichtigt, zählt alles auf: Strom, Wasser, Lebensmittel, Telekommunikation, Gesundheit, Finanzen und Verkehr. NIS2 hat den Perimeter europaweit noch weiter gezogen. Und die Browser-Engine? Sie ist der Türöffner zu jedem dieser Sektoren — die Schicht, über die der Bürger an die Dienste überhaupt erst herankommt — und sie steht außerhalb von allem, was wir je eingestuft haben.

Drei Engines fahren das offene Web. Googles Blink trägt rund drei Viertel des gesamten Verkehrs, über Chrome, Edge und fast den ganzen Rest. Apples WebKit hat iOS fest in der Hand. Mozillas Gecko, das Herz von Firefox, dümpelt inzwischen unter fünf Prozent. Alle drei werden aus den USA gesteuert. Das Tech-Souveränitätspaket der EU-Kommission vom Juni 2026 gibt es selbst zu: Bei den wichtigen digitalen Technologien hängt die Union zu über achtzig Prozent an Quellen außerhalb Europas. Das ist keine Abhängigkeit mehr, das ist ein Verhältnis.

Und jetzt kommt der Punkt: Das ist keine Eigentumsangst. Das ist ein offenes Scheunentor in der Governance. Eine Engine, die sich selbst aktualisiert, ist ein ferngesteuerter Schreibkanal in jeden öffentlichen Rechner, der sie laufen lässt: Wer den Update-Server kontrolliert, entscheidet, was heute Nacht auf die Geräte gespielt wird. Beim Stromzähler oder der Telefonvermittlung würden wir das nie und nimmer dulden. Aber bei der Schicht, über die der ganze Staat seinen Bürgern begegnet, drücken wir beide Augen zu — weil es ja „läuft”. Genau so sieht jede vereinnahmte Infrastruktur aus. Bis zu dem Tag, an dem sie nicht mehr läuft.

Drei Engines — zwei baust du nie selbst

Nimm die Romantik aus dem Wort heraus, dann ist eine Engine ein Verbund aus sieben Teilen in einer Schleife: Netzwerk, HTML-Parsing, das DOM, die CSS-Kaskade samt Style-Berechnung, das Layout, Rendering und Compositing, und die Bindings, die JavaScript an den Baum koppeln. Der Trick ist zu begreifen: Die tiefsten und teuersten dieser Teile sind Massenware. Eine JavaScript-Engine, ein Stack für Textshaping und Font-Rasterung und die GPU-Primitiven unter dem Rendering — das sind jeweils Mannjahrtausende an Arbeit, und sie nachzubauen bringt dir exakt null Souveränität. Niemand kontrolliert das Web, bloß weil er einen Font-Rasterizer besitzt.

Was dir wirklich gehört — das souveräne Tafelsilber — das ist die Layout-Engine, die Rendering-Pipeline und die Sicherheitsgrenze drumherum. Das ist der Teil, für den sich Geld lohnt, und den baust du nicht auf der grünen Wiese neu. Servo gibt es nämlich schon: eine speichersichere Engine in Rust, verwaltet von der Linux Foundation Europe, von einem fünfköpfigen Team bei Igalia von 41 auf 62 Prozent in den Web Platform Tests gehievt, mit ihrem ersten getaggten Release 2026. Eine deutsche Engine ist also ein Problem des Forkens und Finanzierens — auf europäischem Fundament, nicht auf dem leeren Blatt. Die ganze Rechnung, inklusive der Kosten weiter unten, steht in diesem ausgezeichneten Realitätscheck zu Browsern und Souveränität.

Die Einkaufsliste, alles in Rust

Hier ist der Stack, den ein Geldgeber wirklich bezahlen soll — ausgewählt nach einer einzigen Regel: kein amerikanischer Plattform-Gatekeeper in irgendeinem tragenden Teil.

Teilsystem Souveräne Wahl Was es ersetzt
Sprache Rust Speichersicherheit als Basis — und das ganze Ökosystem darunter
JavaScript-Engine Boa V8 (Google), JavaScriptCore (Apple), SpiderMonkey (USA)
GPU-Rendering und Compositing WebRender + wgpu Skia und plattformeigene Grafik-Stacks
TLS rustls Googles BoringSSL, OpenSSL
Layout selbst gebaut, auf dem Taffy-Gerüst für Flexbox/Grid das eine Teil, das einem niemand verkauft
Text und i18n rustybuzz, fontations, ICU4X HarfBuzz, FreeType, ICU (die alten C-Bibliotheken)
Barrierefreiheit AccessKit die Accessibility-APIs der Plattform
Basis-Codebasis Servo eine Neuentwicklung von Grund auf

Die eine Komponente, die entscheidet, ob das Wort „souverän” den Realitätscheck übersteht, ist die JavaScript-Engine. Bettest du Googles V8 oder Apples JavaScriptCore ein, dann hast du die Abhängigkeit bloß mit einem netteren Logo neu aufgebaut. Mozillas SpiderMonkey ist die ehrliche Brücke — offen, einbettbar, der schnellste Weg zu einem laufenden Browser —, aber es bleibt Code aus den USA. Boa ist das Ziel: eine einbettbare Engine in Rust, MIT-lizenziert, von einer Community gepflegt, und schon bei rund 94 Prozent Konformität in Test262, der offiziellen ECMAScript-Suite. Sie ist weiter, als ihr irgendjemand zutraut — ihre Temporal-Bibliothek für Datum und Zeit ist so gut, dass V8 sie inzwischen selbst verwendet. Der Abstand zu V8 und SpiderMonkey ist real, aber er liegt in der reinen Geschwindigkeit und in den tausend Sonderfällen, nicht in der Korrektheit. Und genau so ein Abstand ist die Art Arbeit, die eine staatliche Initiative gut hinbekommt: begrenzt, bezahlbar, kein Hexenwerk. Finanziere Boa auf Web-Niveau hoch, und die JavaScript-Schicht des europäischen Stacks enthält überhaupt keinen fremdgesteuerten Code mehr.

Wo das Geld wirklich hingeht

Das ehrliche Bild vom Engineering ist das Gegenteil von beängstigend. Fast alles auf der Liste ist entweder Massenware, die du einmal einbaust, oder ein begrenztes Problem, das du einmal löst. Es gibt genau eine Hürde, die sich nur langsam mit Geld abbauen lässt, und das ist die Web-Kompatibilität — konkret: es muss laufen wie Chrome. Layout ist an den Rändern schlampig spezifiziert, und so heißt „korrekt” in der Praxis: „verhält sich wie Blink, auch dort, wo Blink von der Norm abweicht” — weil die Websites der ganzen Welt gegen Chrome getestet werden und nicht gegen die Spezifikation. Da gibt es keine elegante Abkürzung. Das ist langes, sturem Gegentesten gegen die Web Platform Tests, und darin wird auf Dauer der Löwenanteil der Arbeit stecken.

Zwei andere Probleme sind wirklich knifflig, und beide sind Sicherheitsprobleme, bei denen eine Rust-Engine besser sein kann als die etablierten Dinger, statt nur hinterherzulaufen: die Renderer-Sandbox und die Vertrauensgrenze zwischen ihr und dem privilegierten Prozess — und die Lebensdauer der DOM-Objekte, die der JavaScript-Garbage-Collector verfolgt, die klassische Quelle ausnutzbarer Use-after-free-Fehler, gegen die Speichersicherheit überhaupt erst erfunden wurde.

Das Geld für den ganzen Spaß? Wird auf grob 50 bis 70 Millionen Euro im Jahr geschätzt — für Entwickler, Tests, Sicherheitsaudits und Standardarbeit. Stell das neben das 7,8-Milliarden-Budget der Europäischen Weltraumorganisation oder die 300 Milliarden, die das EuroStack-Vorhaben in digitale Infrastruktur stecken will — dann ist eine Browser-Engine ein Rundungsfehler. Am Geld hat es nie gelegen. Es liegt an der Dauerhaftigkeit: eine Engine ist kein Projekt, das fertig wird, sondern eine Verpflichtung, die das Ministerium überleben muss, das sie bezahlt hat.

In die öffentliche Hand — und zwar föderal

Deutschland baut schon souveräne öffentliche Software, und zwar schon föderal. ZenDiS, das Zentrum für Digitale Souveränität der Öffentlichen Verwaltung — eine bundeseigene Gesellschaft, Ende 2022 gegründet und ausdrücklich auf dem Weg zu einer gemeinsamen Bund-Länder-Körperschaft — betreibt openCode, die Code-Schmiede des öffentlichen Sektors, und openDesk, die souveräne Alternative zu Microsoft 365. Als die Regierungschefs aller sechzehn Länder zur Ministerpräsidentenkonferenz zusammenkamen, nutzten sie openDesk — eine Woche nach dem Start. Und auf EU-Ebene formt sich der Apparat ebenfalls schon: ein EU-Konsortium für digitale Infrastruktur und digitale Gemeingüter, in dem ZenDiS und die deutsche Sovereign Tech Agency die ersten Projekte stemmen sollen. Das Chassis, das eine Browser-Engine bräuchte, ist halb gebaut, bevor jemand eine Zeile Layout-Code geschrieben hat.

Also stell die Engine dahin, wo der Rest des souveränen Stacks ohnehin wohnt: ein Upstream, sechzehn Verwalter. Eine einzige föderale Browser-Behörde würde genau das wiederherstellen, wovor man wegrennt — einen einzigen Punkt für den politischen Zugriff und einen einzigen Explosionsradius für jede Sicherheitslücke. Ein föderales Modell, auf Länderebene gepflegt, verteilt die Sicherheitsprüfung, passt zur Subsidiarität, auf der der deutsche Staat gebaut ist, und sorgt dafür, dass kein einzelnes Ministerium und kein einzelnes Unternehmen die Schlüssel hält. Engines sammeln sich nicht bei Google, weil es für alle anderen unmöglich wäre. Sondern weil sonst niemand bereit war, für Dauerhaftigkeit zu zahlen. Ein föderaler öffentlicher Auftrag ist die eine Struktur, die Dauerhaftigkeit finanzieren kann, ohne ein neues Monopol unter europäischer Flagge hochzuziehen.

Und jetzt Butter bei die Fische, was das wahre Risiko angeht: Es ist nicht technisch. Deutschlands eigene Open-Source-Versuche sind schon ausgebremst worden, weil Bundesressorts ihre alten Verträge geschützt haben — netzpolitik hat dokumentiert, wie genau dieser Behörde der Rotstift angesetzt wurde. Die Gefahr für eine deutsche Engine ist die Vergabepolitik im eigenen Laden. Rust war es nie.

Eine Republik, die ihre eigene Regierung nicht in einem Browser darstellen kann, den sie selbst kontrolliert, hat den Vordereingang längst einem anderen in die Hand gedrückt. Die Standards sind offen, die Sprache ist Rust, das Fundament ist Servo, die JavaScript-Engine ist Boa, und das Chassis zum Verwalten steht ebenfalls schon da. Forkt es. Finanziert es. Stuft es als KRITIS ein. Und die Schlüssel — die bekommen die Länder.

Für meinen Großonkel Lutz und seine Familie, 1941 – die wir nicht mehr aus Berlin herausholen konnten, bevor sie wegen der Angaben in ihren Papieren getötet wurden.