Micro­soft spei­chert Daten in DNA

Microsoft DNA storage · Bildquelle: Science Files

Derzeit voll­zieht sich weit­ge­hend unbe­merkt eine Entwick­lung auf der Schnitt­stelle zwischen Infor­ma­ti­ons­wis­sen­schaft und Biotech­no­logie. Einer der Haupt­player ist Micro­soft. Es geht darum, DNA, synthe­tisch herge­stellte DNA, als Spei­cher für Infor­ma­tionen zu benutzen.

DNA besteht aus Nukleo­tiden oder Basen, aus vier Basen: Adenine, Cyto­sine, Guanine und Thymine (A, C, G oder T). Spei­cher­me­dien, die derzeit im Handel sind, arbeiten auf Basis von binären Codes, kennen also nur die Werte 1 und 0. Die Idee, DNA als Spei­cher­me­dium zu nutzen, setzt somit ein neues Coding voraus: 00 -> A; 01 -> C, 10 -> G und 11 -> T.

Jede Zelle im mensch­li­chen Körper enthält ein mensch­li­ches Genom. Ein mensch­li­ches Genom besteht aus ca. 6 Milli­arden Basen­paaren, die in 23 Chro­mo­somen-Sets orga­ni­siert sind. In der DNA dieser Chro­mo­some sind rund 1,6 Giga­bytes an Infor­ma­tion gespei­chert. Jede mensch­liche Zelle enthält somit 1,6 Giga­byte an Daten. Alle Zellen im mensch­li­chen Körper spei­chern rund 100 Zetta­byte an Daten, mehr Daten als die Mensch­heit bislang in digi­taler Form produ­ziert hat.

Die Idee, DNA als Spei­cher für Daten zu nutzen, sie hat – wie man sieht – einen gewissen Appeal, denn DNA ist in der Lage, große Mengen von Infor­ma­tion auf kleinstem Raum zu spei­chern, in 3‑D. DNA ist extrem stabil, so dass tech­ni­sche Neue­rungen wie der Sprung vom Floppy zur CD und zur DVD und die dabei entste­henden hohen Trans­for­ma­ti­ons­kosten vermieden werden können, denn DNA kann gespei­cherte Infor­ma­tion über Jahr­hun­derte, wenn nicht Jahr­tau­sende konser­vieren. Die Fort­schritte auf dem Feld der Mikro­bio­logie haben zudem dazu geführt, dass es schnell und billig möglich ist, DNA zu kopieren. Die einzigen Probleme, die sich mit DNA als Spei­cher und aus tech­ni­scher Sicht verbinden, sind das Schreiben der Daten in die DNA, das Spei­chern der Daten, das Auslesen der Daten und das Lesen der Daten.

Alles Probleme, die zwischen­zeit­lich gelöst sind.

Die Idee, DNA als Spei­cher für Daten zu benutzen, ist bereit Ende der 1980er Jahre aufge­kommen, Ende der 1990er Jahre war es bereits gelungen, Daten in DNA zu spei­chern. Fort­schritte bei der Sequen­zie­rung und der Synthese von DNA haben schließ­lich dazu geführt, dass DNA als Spei­cher­me­dium erforscht und zu mitt­ler­weile erstaun­li­cher Virtuo­sität entwi­ckelt wurde. Von den 28 Basen­paaren, in denen Joe Davis im Jahre 1988 erfolg­reich Infor­ma­tion abge­legt hat (das Projekt trug den Namen “Micro­venus”, für dieje­nigen, die es nach­lesen wollen), hat sich die Forschung in gera­dezu Windes­eile weiter­ent­wi­ckelt. 2016 gelang es Micro­soft in Zusam­men­ar­beit mit Luis Ceze und Karin Strauss von der Univer­sity of Washington und in Zusam­men­ar­beit mit Twist Biosci­ence, einem der wich­tigsten Player im Feld, rund 1 Giga­byte an Daten aus Musik-Videos, Büchern aus dem Projekt Gutten­berg und vieles mehr zu spei­chern und auszu­lesen. 2019 gelang es die komplette Wiki­pedia in DNA zu über­tragen, und seit 2019 ist es Twist Biosci­ence möglich, lange Oligo­nu­kleo­tide zu synthe­ti­sieren und als Spei­cher­me­dium zu nutzen. Dabei wird im Wesent­li­chen eine Phos­pho­r­amidit-Synthese durch­ge­führt, die Nukle­in­säuren erzeugt. Das Verfahren ist der Poly­me­rase Ketten­e­reak­tion, bei der ein Ausgangs­stück DNA genutzt und verfiel­fäl­tigt wird, inso­fern über­legen, als auf das Ausgangs­stück DNA verzichtet werden kann. Statt dessen wird Sili­zium als Substrat genutzt, um DNA synthe­tisch zu erzeugen:

„Twist Biosci­ence hat eine neuar­tige Platt­form für die Herstel­lung synthe­ti­scher DNA in einem massiv paral­lelen Maßstab entwi­ckelt. Anstatt DNA auf festen Substraten der vorhe­rigen Genera­tion wie Plastik- oder Glas­per­len­re­ak­toren zu synthe­ti­sieren, verwendet die Tech­no­logie von Twist kunden­spe­zi­fisch gefer­tigte Sili­zi­um­wafer und synthe­ti­siert Millionen einzig­ar­tiger Oligo­nu­kleo­tid­se­quenzen in jedem Synthe­selauf, mit verbes­serten Synthe­se­feh­ler­raten und Sequenz­gleich­för­mig­keit gegen­über früheren Methoden. Zukünf­tige Genera­tionen der DNA-Synthese-Tech­no­logie werden derzeit speziell für die DNA-basierten digi­talen Spei­cher­an­wen­dungen entwi­ckelt, um DNA in einem noch höheren Durch­satz­maß­stab zu produzieren.“

Die Technik, um Infor­ma­tion in DNA zu spei­chern, sie ist vorhanden. Fort­schritte auf dem Gebiet des DNA-Sequen­zie­rens, also beim LESEN von DNA, haben nicht nur dazu geführt, dass die Kosten entspre­chender Verfahren von ein paar Milli­arden US-Dollar auf ein paar 1000 US-Dollar gesunken sind, sie haben vor allem dazu geführt, dass Daten, die in DNA gespei­chert werden, fehler­frei und schnell wieder ausge­lesen werden können. Verbes­se­rungen, wie die oben beschrie­bene, bei der DNA Synthese, die Poly­me­rase Ketten­re­ak­tion durch Phos­pho­r­amidit-Synthese ersetzt haben, haben zur Folge, dass es mitt­ler­weile recht einfach ist, Daten in DNA zu speichern.

Mit anderen Worten, es gibt eine Tech­no­logie, die DNA synthe­tisch herstellen kann, die Daten in die synthe­tisch herge­stellte DNA schreiben kann, diese Daten ziel­genau auslesen kann und fehler­frei wieder­her­stellen kann, damit sie gelesen werden können. Die Auslese erfolgt derzeit noch mit Poly­me­rase-Ketten­re­ak­tion, mit der die Daten der Ziel­re­gion der DNA ausge­lesen, verviel­fäl­tigt, sequen­ziert und deko­diert werden, um dann, nach Besei­ti­gung von Fehlern gelesen werden zu können. Mit diesem Verfahren ist es Micro­soft und Twist Biosci­ence gelungen, mehr als 1 Giga­byte an Daten nicht nur in DNA zu spei­chern, sondern auch fehler­frei wieder auszulesen.

Weiter­lesen bei Science­Files.


DNA als Datenspeicher

Fluo­res­zie­rende DNA-Stränge werden genutzt, um digi­tale Nach­richten zu kodieren.

Jedes Mal, wenn wir eine E‑Mail senden, einen Tweet absetzen oder etwas anderes online tun, gene­rieren wir Daten – und weil wir viel online tun, gene­rieren wir auch eine Menge Daten: etwa 2,5 Quin­til­lionen Bytes pro Tag.

Die meisten dieser Daten werden auf Servern in Rechen­zen­tren gespei­chert, die kost­spielig und ener­gie­in­tensiv sind und viel Platz beanspruchen.

DNA ist eine viel­ver­spre­chende Spei­cher­al­ter­na­tive zu Rechen­zen­tren, und jetzt haben Forscher der Boise State Univer­sity eine neue Methode zur DNA-Daten­spei­che­rung entwi­ckelt, die eine große Hürde für ihre Einfüh­rung besei­tigt – und sie sieht ein biss­chen aus wie das Lite-Brite-Spiel­zeug, mit dem Sie viel­leicht als Kind gespielt haben.

DNA-Daten­spei­che­rung

Digi­tale Daten werden mit Sequenzen von nur zwei Zahlen gespei­chert: 1 und 0. Die DNA verwendet Buch­staben (A, G, T und C), die chemi­sche Basen darstellen, um Infor­ma­tionen zu spei­chern. Über­setzen Sie die digi­talen Sequenzen von Daten in Codes mit vier Buch­staben, und Sie können DNA zum Spei­chern Ihrer digi­talen Infor­ma­tionen verwenden.

Forscher schätzen, dass alle digi­talen Daten der Welt in nur 20 Gramm DNA gepackt werden könnten, was bedeutet, dass wir tonnen­weise Platz einsparen könnten, der derzeit von Daten­zen­tren belegt wird.

DNA ist auch viel halt­barer als Server und könnte unsere Infor­ma­tionen mögli­cher­weise für Jahr­tau­sende schützen, aber das Abrufen von Daten aus der DNA ist nicht einfach.

Um die gespei­cherten Infor­ma­tionen zu entschlüs­seln, ist eine große Maschine, ein soge­nannter Sequenzer, erfor­der­lich, und der Abruf­pro­zess ist langsam – es kann fast einen Tag dauern, um ein einziges Wort zu entschlüsseln.

Eine geniale Idee

Um die Sequen­zie­rung über­flüssig zu machen, begannen die Forscher in Boise mit einsträn­giger DNA (man stelle sich einen in zwei Hälften geteilten DNA-Strang vor).

Sie program­mierten diesen DNA-Strang so, dass er sich selbst zu einer flachen, recht­eckigen Karten­form faltet. Dieses Rechteck hat 48 Stellen, an denen andere DNA-Einzel­stränge ange­dockt werden können – Sie können sich diese Andock­stellen wie die Löcher in einer Lite-Brite-Steck­platte vorstellen.

Jede Stelle auf dem DNA-Rechteck diente als ein „Bit“ im digi­talen Code. Wenn ein DNA-Strang einge­steckt war, bedeu­tete das eine 1. Keine DNA in einem Loch bedeutet eine 0.

DNA data storage

Die Reihen­folge der Stränge auf der Steck­tafel wurde zur Codie­rung der Daten verwendet. Bild­quelle: Nucleic Acid Memory Insti­tute an der Boise State University

Nachdem eine Nach­richt über das Pegboard kodiert wurde, ist der nächste Schritt, sie abzu­rufen. Dazu werden fluo­res­zie­rende DNA-Stränge mit den Strängen auf der Steck­tafel gepaart.

Nachdem die DNA-Stränge wie Stifte in einem Lite-Brite-Spiel­zeug aufge­leuchtet waren, konnten die Forscher sie mit einem höchst­auf­lö­senden Elek­tro­nen­mi­kro­skop abbilden. Ein Algo­rithmus konnte dann das Bild analy­sieren und das Muster aus 1en und 0en entschlüs­seln, um die einge­bet­tete Nach­richt mit 100-prozen­tiger Genau­ig­keit abzu­rufen – eine DNA-Sequen­zie­rung war nicht erforderlich.

Das gewünschte Muster (links) und wie die DNA unter dem Mikro­skop aussah (rechts). Bild­quelle: Nucleic Acid Memory Insti­tute an der Boise State University

Blick in die Zukunft

Die Wahr­schein­lich­keit, dass Sie ein höchst­auf­lö­senden Elek­tro­nen­mi­kro­skop zu Hause haben, ist unge­fähr so groß wie die eines DNA-Sequen­zers, also wird dies noch nicht die Tech­no­logie sein, die die DNA-Daten­spei­che­rung in den Main­stream bringt.

Dennoch ist es ein neuar­tiger, hoch­prä­ziser Ansatz, der nach Ansicht der Forscher eine weitere Entwick­lung rechtfertigt.

Die Forscher suchen nun nach Möglich­keiten, den Prozess der Kodie­rung und des Abrufs der Daten zu beschleu­nigen und die Daten­menge, die sie mit ihrem System spei­chern können, zu erhöhen.

Quelle: FreeThink.com


3 Kommentare

  1. Hätten wir endlich mal inte­gere Poli­tiker wäre all dem bereits Einhalt geboten. Sicher nicht total aber auch nicht total nicht, so wie seit Jahren.
    Verbrau­cher sollten halt auch nicht alles akzep­tieren nur weils bequem ist und sie lieber nicht über solche Themen nach­denken wollen.

  2. NACHTRAG:
    Ach ja – und wenn ausge­rechnet Micro­soft bei der DNA-Spei­che­rung wieder mit von der Partie ist, muß ich auto­ma­tisch an Billy­Boys „Digital ID“ und Ümpfungen denken, komisch…

    22
  3. Stellt sich für mich die Frage, was denn aus der holo­gra­phi­schen Spei­che­rung geworden ist.
    Sie ist sowohl beim Schreiben als auch beim Lesen blitz­schnell. Ich glaube kaum, daß diese Technik so einfach wegen Geld­mangel aus dem Blick­punkt geraten ist, denn wie man in vielen Berei­chen sieht, spielt Geld oft keine Rolle. Viel­mehr denke ich, daß diese Technik so haus­hoch über­legen ist, daß sie beim Militär verschwand, um sich einen enormen Tech­no­lo­gie­vor­sprung zu sichern. Geld war bei sowas noch nie allzu wichtig.
    www.deutschlandfunk.de/tolle-idee-was-wurde-daraus-holografische-speichermedien.676.de.html?dram:article_id=402409

Kommentieren Sie den Artikel

Please enter your comment!
Please enter your name here