Renitente Software: Forscher benennen menschliche Gene um, damit Excel sie nicht mehr automatisch zum Datum macht

James Vincent, Red.

Interessenkonflikte

20. August 2020

Manchmal muss man sich einfach eingestehen, dass man am kürzeren Hebel sitzt. So erging es auch Genetikern, als sie feststellten, dass sich einige Namen für menschliche Gene nicht mit der Tabellen-Kalkulationssoftware Excel vertragen, wie das Magazin The Verge berichtet. Diese wandelte die Gen-Namen stoisch in Datumsangaben um. Das HUGO Gene Nomenclature Committee (HGNC) hat nun die Konsequenzen gezogen und neue Richtlinien für die Benennung der Gene herausgegeben [1].

Fehlerhafte Daten in Studien

Die Bezeichnung für jedes menschliche Gen besteht aus einem Namen und einem alphanumerischen Code. Im letzten Jahr mussten jedoch etwa 27 Gene umbenannt werden. So ist der Name MARCH1 etwa die Kurzform von Membrane Associated Ring-CH-Type Finger 1. Eingegeben in Excel, interpretiert die Software das als Datumsangabe und macht daraus 1-Mar. 

Das Problem ist nicht nur extrem frustrierend, sondern auch gefährlich, weil es Daten verfälscht, die Wissenschaftler dann per Hand wiederherstellen müssen. Es ist überraschend verbreitet und findet sich selbst in peer-reviewten wissenschaftlichen Veröffentlichungen.

Eine Studie von 2016 hat genetische Daten untersucht, die in 3.597 wissenschaftlichen Veröffentlichungen publiziert worden sind. Wie sich herausstellte, waren 20% der Daten von dem Excel-Fehler betroffen. „Das ist wirklich störend“, sagte Dezső Módos, ein Systembiologe vom Quadram Institute in Großbritannien gegenüber The Verge.

Excel-Fehler würden dauern auftreten, einfach deshalb, weil die Software oft als erstes zur Hand ist, wenn Wissenschaftler numerische Daten verarbeiten. „Es ist ein weit verbreitetes Werkzeug“, so der Forscher.

Keine technische Lösung in Sicht

Excel bietet bis heute keine Möglichkeit an, die Auto-Formatierung auszuschalten und die einzige Möglichkeit, es zu vermeiden besteht darin, den Datentyp für die einzelnen Spalten zu ändern.

Doch selbst dann ist die Gefahr nicht gebannt – beispielsweise, wenn man die Datei als CSV-File exportiert, ohne die Formatierung zu speichern. Aber ein anderer Forscher könnte die Daten ohne die geänderte Formatierung laden, wodurch die Gen-Symbole wieder in Datumsangaben geändert werden. Am Ende bedeutet das, dass erfahrene Excel-Nutzer das Problem zwar vermeiden können, das Ganze aber fehleranfällig bleibt.

Die neuen Benennungsrichtlinien

Hilfe kam nun von der zuständigen wissenschaftlichen Einrichtung, dem HUGO Gene Nomenclature Committee (HGNC). Anfang August veröffentlichte das HGNC neue Richtlinien für die Benennung von Genen inklusive „Symbolen, die die Datenverarbeitung und Suche beeinflussen“.

Von nun an werden menschliche Gene und Proteine unter Berücksichtigung von Excels Autoformatierung benannt, sagt das HGNC. Das bedeutet beispielsweise, aus MARCH1 wurde MARCHF1 und SEPT1 heißt nun SEPTIN1. Eine Aufzeichnung der alten Symbole und Namen wird beim HGNC gespeichert.

Im Verlauf des letzten Jahres seien 27 Gene entsprechend umbenannt worden, berichtet Elspeth Bruford, Koordinator des HGNC gegenüber The Verge. Aber die Richtlinien selbst wurden erst kürzlich bekanntgegeben. „Wir haben die maßgeblichen Forschungsgemeinschaften konsultiert, um mit ihnen die vorgeschlagenen Änderungen zu diskutieren und wir haben auch die Forscher informiert, die zu den betreffenden Genen veröffentlicht hatten“, sagt Bruford.

Wie sie erläutert, ist die Benennung von Genen durch Konsens geprägt. So wie Lexigraphen, die damit beauftragt sind, Wörterbücher zu aktualisieren, war das Gene Nomenclature Committee sensibel für die Bedürfnisse derjenigen, die von seiner Arbeit am meisten betroffen sein werden.

Das war nicht immer so. In den frühen Tagen der Genetik war die Namensgebung oft ein Spielplatz für kreative Wissenschaftler. Das führte zu Namen wie „sonic hedgehog“, der Name einer Figur aus einem Videospiel, und „Indy“ für „I’m not dead yet“ – eine Referenz an die Funktion des Gens, das die Lebenszeit von Fruchtfliegen verdoppeln kann, wenn es mutiert ist.

Nun jedenfalls hat das HGNC die Sache fest in die Hand genommen und die gegenwärtigen Richtlinien lassen nicht viel Platz für Launen oder das Ego. Der Fokus liegt auf praktischen Belangen: Wie lassen sich Verwechslungen vermeiden?

Deshalb sollten Symbole für Gene einmalig sein und Gen-Namen sollten kurz und spezifisch sein. Sie dürfen keine hoch- oder tiefgestellten Zeichen beinhalten sowie nur lateinische Buchstaben und arabische Zahlen. Und sie sollten keine Namen oder Wörter ergeben, insbesondere keine beleidigenden – und das nach Möglichkeit in keiner Sprache.

Auch wenn die Entscheidung Gene umzubenennen nicht leichthin getroffen werde, sei sie nicht ungewöhnlich, sagt Bruford. Beispielsweise wurden viele Gen-Symbole, die als Substantive gelesen werden können, umbenannt, um falsch positive Suchergebnisse zu vermeiden. So wurde aus CARS CARS1, WARS wurde in WARS1 umbenannt und MARS wurde zu MARS1. Andere Gen-Namen wurden geändert, um beleidigende Namen zu vermeiden.

Es sei nun aber das erste Mal, dass die Richtlinien geändert wurden, um Problemen zu begegnen, die durch Software verursacht werden, sagt Bruford. Bisher waren die Reaktionen darauf extrem positiv, man könne sogar sagen erfreut.

Neue Richtlinien kommen gut an

Nachdem die Genetikerin Janna Hutz, den betreffenden Teil der neuen HGNC-Richtlinien über Twitter geteilt hatte, gab es zahlreiche Reaktionen der Twitter-Gemeinde. Sie selbst twitterte dazu: „Begeistert von dieser Veröffentlichung des Human Gene Nomenclature Committee.“ „Endlich!!!“, kommentierte Mudra Hegde, ein Bioinformatiker am Broad Institute in Massachusetts. „Großartigste Neuigkeit des Tages“, schrieb ein anonymer Twitter-Nutzer.

Bruford merkt an, dass es auch Dissens über diese Entscheidung gab, aber überwiegend schien der sich auf eine Frage zu beziehen: Warum war es einfacher, menschliche Gene umzubenennen, als zu ändern, wie Excel arbeitet? Genau gesagt, warum waren es in der Auseinandersetzung zwischen Mikrosoft und der Genetiker-Community schließlich die Wissenschaftler, die nachgeben mussten?

Microsoft reagierte nicht auf eine Anfrage für einen Kommentar, aber Brufords Theorie ist, dass ihnen einfach der Aufwand für eine Änderung zu groß war. „Das ist nur eine sehr begrenzte Anwendung der Excel-Software“, sagt sie. „Es gibt nur sehr wenig Anreiz für Microsoft, eine signifikante Änderung an Funktionen vorzunehmen, die in großem Umfang vom Rest der großen Gemeinschaft der Excel-Verwender genutzt werden.“

Bruford scheint über die Situation jedoch nicht verbittert zu sein. Am Ende würde es nichts nützen, auf ein hypothetisches Excel-Update zu warten, um das Problem zu lösen, wenn eine Langzeitlösung durch die Wissenschaftler selbst herbeigeführt werden könne, sagt sie. Microsoft Excel könne vergänglich sein, aber menschliche Gene werde es geben, solange es Menschen gibt. Es sei das Beste ihnen Namen zu geben, die funktionieren.

 

Kommentar

3090D553-9492-4563-8681-AD288FA52ACE
Wir bitten darum, Diskussionen höflich und sachlich zu halten. Beiträge werden vor der Veröffentlichung nicht überprüft, jedoch werden Kommentare, die unsere Community-Regeln verletzen, gelöscht.

wird bearbeitet....