IT-Projekt: nichtredundantes Set erzeugen und verwalten

Thread Status: Hallo In diesem Thread gab es keine Antwort mehr seit 30 Tagen.
Es kann lange dauern, bis Sie eine aktuelle Antwort erhalten oder Kontakt mit den relevanten Benutzern aufnehmen werden.

FrankF

Auszeit
Registriert
"Meine erste Festplate hatte sagenhafte 20 Megabyte."

"Meine nur 10, na und?"

"Damals haben wir die Computer halt für andere Dinge benutzt."

"...und die neuen Dinge bringen neue Probleme."

-----------------------------------------------------------------------

Ausgangslage

Aktuell sind es also etwa 4 Terabyte in Form von 14 externen Festplatten, die inneren Werte des Computers zählen für mich nicht.

Auf diesen Platten lagern etwa 100.000 NEFS, die ich seit Anfang 2005 hergestellt habe und noch so einige andere Dinge.

Ich kann auf Grund meiner Backupstrategie garantieren, dass jede Datei wenigstens 2 Mal auf verschiedenen physikalischen Datenträgern vorhanden ist. Der Redundanzfaktor liegt nach meiner aktuellen Schätzung auch deutlich unter 3, wenn man nur die Quelldateien zählt und keine Derivate.

Das Projekt

Ich will

1) ein nichtredundates Set aller NEFS erzeugen,

2) diese auf einem einzigen Datenträger speichern und

3) verschlagworten.

Von dem jeweils aktuellen Zustand des Datenträgers will ich regelmäßig einen Spiegel erzeugen, ohne dass dabei der Rechner blockiert wird. Bei 500 GB dauert mir der Kopiervorgang mit USB 2.0 HiSpeed einfach zu lang. Also sollen die Platten am besten über eine ATA-Schnittstelle verbunden werden, bei der die Plattengeschwindigkeit der begrenzende Faktor ist und nicht die Schnittstellengeschwindigkeit. Der Backupdatenträger soll sich physikalisch leicht vom Speichersystem lösen lassen.

Mir ist schon etwa klar welche Komponenten ich brauche (Hardware, Software, Zeitaufwand), aber mir fehlt bisher die Storage-Management-Lösung, die mir hilft:

1) alle NEFS zu finden und
2) ein nichtredundantes Set mit eindeutigen Dateinamen zu erzeugen.

Suchkriterien (overdefinded):

1) Datum und Uhrzeit der Herstellung
2) Dateiname
3) Dateigröße

Anforderung an das Programm:

1) Automatisch katalogisieren
2) Redundanz aus dem Katalog entfernen
3) Quellen anfordern zum Überspielen des nichtredundanten Sets, das beim Überspielen umbenannt wird mit den Suchkriterien 1 bis 3 im Dateinamen, wahrscheinlich reicht auch 1 alleine, aber ich arbeite oft mit 2 Kameras und die Uhren gehen nicht immer vollkommen synchron, dafür manchml die Zähler.

Wer hat Lust an dieser Lösung für mich mitzuarbeiten?

Ich denke, dass die fertige Lösung auch für viele andere interessant sein wird, daher nenne ich das hier einen Workshop, in dem ich so was wie ein Moderator / Mediator bin und nicht der allwissende Vorarbeiter.

Herzliche Grüße

Euer

Frank
 
Anzeigen

lordpeng

Unterstützendes Mitglied
Registriert
du hast was wesentliches vergessen zu erwähnen, nämlich in welchem kostenrahmen sich die sache bewegen darf ...

du kannst für 5 stellige euro beträge die wunderschönsten lösungen haben, aber ob es da ist was du suchst?
 
Kommentar

FrankF

Auszeit
Registriert
lordpeng schrieb:
du hast was wesentliches vergessen zu erwähnen, nämlich in welchem kostenrahmen sich die sache bewegen darf ...

du kannst für 5 stellige euro beträge die wunderschönsten lösungen haben, aber ob es da ist was du suchst?

Hallo lordpeng!

Es geht natürlich um eine zu Hause gekochte Lösung, die aus einer selbstgestrickten Software oder einer Feeware besteht, die schon existiert oder einer bezahlbaren Lizenzsoftware.

Die zwei 500er Platten in einem Barebone kosten auch nicht mehr die Welt. Und ein Festplattenrahmen auch nicht.

Kurz: Der Preis ist meine Arbeitszeit und der Rat derer hier, die Freude daran haben, ihren Rat zu geben und dabei vielleicht noch etwas zu lernen. Eigentlich wie immer in diesem Forum.

Herzlich

Frank
 
Kommentar

Nobody

Auszeit
Registriert
Herzlich Beileid, kann ich als IT-ler nur sagen. Wusste schon, warum ich mich von Anfang an für JPEG entschied. Bei fast gleicher gleicher Anzahl Originale sind es bei mir weniger als 200 GB.

Das ist jetzt aber keine Lösung für dein Problem. Verwalten wäre ein Thema, Sicherung ein anderes. Unter Unix gäbe es durchaus feine und zugleich auf lange Zeit relativ sichere Werkzeuge zur Verwaltung von Ressourcen, aber bei Win ... :frown1:
 
Kommentar

lordpeng

Unterstützendes Mitglied
Registriert
ich kann mich nobody anschliessen, machbar ist es zwar sicher, aber bei datenmengen im terrabyte bereich entstehen leider relativ hohe kosten, sofern das ganze halbwegs hand und fuss haben soll

es ist ja nicht damit getan, ausschliesslich festplatten-basierte lösung zu verwenden, sofern man seine daten halbwegs sicher lagern will sollten diese sich auch als kopie physikalisch an einem standort befinden, ich kenne ein paar profi fotografen die mehrere tb an daten haben und genau für dieses problem keine passende lösung finden, klar könnte man eine ordentliche NAS lösung einführen, die per dlt autoloader gesichert wird, aber bevor sich die hardware kosten amortisieren würden, wären die resourcen der storage geräte bereits ausgeschöpft ...

das ganze ist schon von der datenmenge her nicht so trivial

die einfachste/billigste lösung wäre wohl ein paar billig nas festplattengehäuse mit gespiegelten 1 tb platten auszustatten und an einen gbit switch zu klemmen

die organisation der ganzen verzeichnisstruktur ist dann wieder ein anderes thema ...
 
Kommentar

FrankF

Auszeit
Registriert
lordpeng schrieb:
ich kann mich nobody anschliessen, machbar ist es zwar sicher, aber bei datenmengen im terrabyte bereich entstehen leider relativ hohe kosten, sofern das ganze halbwegs hand und fuss haben soll

es ist ja nicht damit getan, ausschliesslich festplatten-basierte lösung zu verwenden, sofern man seine daten halbwegs sicher lagern will sollten diese sich auch als kopie physikalisch an einem standort befinden, ich kenne ein paar profi fotografen die mehrere tb an daten haben und genau für dieses problem keine passende lösung finden, klar könnte man eine ordentliche NAS lösung einführen, die per dlt autoloader gesichert wird, aber bevor sich die hardware kosten amortisieren würden, wären die resourcen der storage geräte bereits ausgeschöpft ...

das ganze ist schon von der datenmenge her nicht so trivial

die einfachste/billigste lösung wäre wohl ein paar billig nas festplattengehäuse mit gespiegelten 1 tb platten auszustatten und an einen gbit switch zu klemmen

die organisation der ganzen verzeichnisstruktur ist dann wieder ein anderes thema ...


Die volle 500-GB-Backup-Platte geht aufs Lager, genau dieses "Auslagern" ist einer der Effekte der ganzen Aktion.
 
Kommentar

FrankF

Auszeit
Registriert
Nobody schrieb:
Schau aber mal bei Extensis rein, ob die Portfolio Produktfamilie einen möglichen Ansatz bietet.

Portfolio klingt wirklich interessant. Wobei ich sicherstellen will, dass es keine Insellösung ist, auf der ich dann festsitze.

Anforderungs-Update: Die Metadaten sollen in einem internationalen Industriestandardformat abgelegt werden, proprietäre Lösungen lehne ich ab.

Danke

Frank
 
Kommentar

AndyE

Sehr aktives Mitglied
Registriert
Servus,

wie dringend ist es denn?

Ich bin derzeit mit etwas über 10TB zu Hause unterwegs. Nach endlosen Ketten von externen USB und Firewire Laufwerken ist es jetzt ein Windows 2003 Small Business Server mit einem externen RAID System und eine Tapelösung als externes Backup (nicht zu verwechseln mit Archivierungsansätzen mittels externer Festplatten).

Das Produkt, daß Deinen Anforderungen zumindes von der Basisanforderung am nächsten kommt ist der im Jänner vorgestellte und ab Herbst verfügbare Windows Home Server. Mit der dedizierten Aufgabe einfach Plattenplatz in allen möglichen Konfigurationen (BOD, RAID, ...) kosteneffektiv zur verfügung zu stellen. Egal wie groß, in welchen Konfigurationen, einfach Platte anschließen und schon gibt es mehr Platz. Keine Unterscheidung mehr durch Laufwerksbuchstaben, etc...
Des weiteren übernimmt er auch die automatische Datensicherung aller in einem Haushalt betriebenen Computer (so es gewünscht ist).

Die Produktbeschreibung findest Du hier: http://www.microsoft.com/windows/products/winfamily/windowshomeserver/default.mspx

Das Teamblog des Homeserver Teams findest Du hier: http://blogs.technet.com/homeserver/

Installation ist bei der Betaversion recht einfach. Servername und that's it.


LG, Andy
 
Kommentar

AndyE

Sehr aktives Mitglied
Registriert
FrankF schrieb:
Anforderungs-Update: Die Metadaten sollen in einem internationalen Industriestandardformat abgelegt werden, proprietäre Lösungen lehne ich ab.

Danke

Frank


Der ist gut :)

Welchen von den vielen Industriestandards willst Du denn unterstützen/verwenden - und wie soll dann die Kommunikation zum Rest der Welt sein, die die anderen Industriestandards benutzen?

Gilt speziell im Softwarebereich: Standards können, müssen aber nicht Interop Probleme lösen.

Ein paar Beispiele gefällig?
Es gab den ISO Standard X.400 für email. War sogar von vielen europäischen Behörden bei der Beschaffung vorgeschrieben. Zum Glück konnte daneben das Protokoll SMTP entstehen. Viele Jahre nach Entwicklungsbeginn wurde es auch ein Standard.

TCP/IP: Der weithin bekannte offene Standard TCP/IP wurde erst 15 Jahren nach seiner Erfindung standardisiert. Damals gab es einen offenen Standard - manche mögen sich noch an den OSI stack erinnern. Wenn damals NUR offene Spezifikationen eine Chance gehabt hätten, wäre es TCP/IP nicht so gut gegangen.


Die wirklich wichtige Frage ist, ob die Spezifikation eine GUTE Spezifikation ist und nicht ob sie den Marketingtitel "Offen" oder "Industrie" standard trägt.

LG, Andy
 
Kommentar

Nobody

Auszeit
Registriert
FrankF schrieb:
Portfolio klingt wirklich interessant. Wobei ich sicherstellen will, dass es keine Insellösung ist, auf der ich dann festsitze.

Anforderungs-Update: Die Metadaten sollen in einem internationalen Industriestandardformat abgelegt werden, proprietäre Lösungen lehne ich ab.

Danke

Frank

Dazu kann ich nichts sagen. Bei webdigital.de scheinen aber welche damit zu werkeln, wenn mich nicht alles irrt.
 
Kommentar

FrankF

Auszeit
Registriert
Ein freundlicher User hier sendete mit folgenden Link:
http://www.pixandmore.de/imabas.features.php

und ich antwortete:

"Danke. Heute nicht mehr, aber ich dachte schon an so etwas. Ein Linux zur Datenverwaltung / Filserver und ein Windows-Programm zur Vergabe der Metainformationen auf dem Server. Der Fileserver verwaltet die 14 Platten über MySQL mit Samba-Schnittstelle oder so ähnlich und die 500-GB-Platten dienen zum Auslagern der wichtigsten Informationen.

Heute nicht mehr. Was für ein Tag. Ich bin müde.

Danke, USERNAME"
 
Kommentar

AndyE

Sehr aktives Mitglied
Registriert
FrankF schrieb:
....aber mir fehlt bisher die Storage-Management-Lösung, die mir hilft:

1) alle NEFS zu finden und
2) ein nichtredundantes Set mit eindeutigen Dateinamen zu erzeugen.

Suchkriterien (overdefinded):

1) Datum und Uhrzeit der Herstellung
2) Dateiname
3) Dateigröße

Anforderung an das Programm:

1) Automatisch katalogisieren
2) Redundanz aus dem Katalog entfernen
3) Quellen anfordern zum Überspielen des nichtredundanten Sets, das beim Überspielen umbenannt wird mit den Suchkriterien 1 bis 3 im Dateinamen, wahrscheinlich reicht auch 1 alleine, aber ich arbeite oft mit 2 Kameras und die Uhren gehen nicht immer vollkommen synchron, dafür manchml die Zähler.


Frank ich habe erst jetzt die Anforderungen wirklich gelesen :)

Some comments:
Suchkriterien in den Dateinamen einzupflegen ist für Datenbankleute ein absolutes NoNo. Schon allein deshalb, wenn so unterschiedliche Kriterien wie Zeit , Größe und Dateiname darin vorkommen soll.
Wann immer Du nach einzelnen Kirterien suchst, oder die die Flexibilität von ODER und UND Kriterien nutzen willst, heißt daß das Dein Suchprogramm immer wieder (bei jedem Suchvorgang) den String zerlegen muß um dieses Attribute herauslösen zu können. Bei 100.000 Records läppert sich da was zusammen.

Für dein Katalogisierungssystem gibt es vom Prinzip her zwei Ansätze. Entweder werden die Metadaten in einer Datenbank abgespeichert, oder die Metadaten Deiner Katalogisierungslösung werden in die Originaldatei hineingeschrieben (so wie IPTC Felder).

Suchen würde ich heutzutage nur mehr über Desktop Search - in der Regel sehr schnelle und ausgereifte Verfahren.


Falls Du es noch nicht kennst. Windows Vista bietet das Konzept des Search folders an, damit erzeugst Du ein Verzeichnis, das auf einen Suchbegriff aufgebaut ist und dynamisch erzeugt wird. (Das verwende ich)
http://www.microsoft.com/windows/products/windowsvista/features/details/searchfolders.mspx


Ein Beispiel:
Ich will alle Bilder die im April 2007 gemacht wurden -egal in welchem Verzeichnis der Originale tatsächlich liegen. Wann immer dann irgendwo auf Deinen Platten Bilder aus dem April 2007 raufkopiert werden, finden sich dieses auch im Search folder wieder - Das erspart mächtig viel Zeit, wenn der gleiche Suchbegriff immer und immer wieder verwendet wird.


Für im Hintergrund Daten sichern, kannst Du einfach Shadowcopy verwenden, ebenfalls eingebaute Windows Technologie.
http://www.microsoft.com/windows/products/windowsvista/features/details/shadowcopy.mspx


LG, Andy
 
Kommentar

FrankF

Auszeit
Registriert
AndyE schrieb:
Ein Beispiel: Ich will alle Bilder die im April 2007 gemacht wurden -egal in welchem Verzeichnis der Originale tatsächlich liegen. Wann immer dann irgendwo auf Deinen Platten Bilder aus dem April 2007 raufkopiert werden, finden sich dieses auch im Search folder wieder - Das erspart mächtig viel Zeit, wenn der gleiche Suchbegriff immer und immer wieder verwendet wird.

Der Punkt ist, dass ich meine 14 Platten nicht online haben will, auch nicht zeitweise, denn damit erzeuge ich einen single point of failiure.

Ich will diese bestimmte Dateiform meiner Quelldateien auf einer Platte haben, sortieren, Überflüssiges löschen, genau einmal spiegeln und auslagern. Dann kann ich sämtliche NEFS von den 14 Platten löschen.

Wenn ich dann noch meine Emailsammlung seit 1996 und meine Textsammlung seit 1994, die inzwischen auf 10+2 Gigabyte angewachsen ist, mit einer Redundanz unter 3 abspeichere, dürften von den 14 Platten etwa 8 formatierbar sein. Die restlichen enthielten dann unter 3fach redundante Sets der anderen Vorgänge (z.B. Bearbeitungen, teils sehr umfangreiche Materialsammlungen für Artikel etc.).

Was das Datum im Dateinamen angeht, geht es mir eigentlich nur darum, eindeutige Dateinamen zu erzeugen, damit ich die Dateien beim Sortieren notfalls in einem einzigen Ordner ablegen kann.

Der 10.000er-Zähler ist mindestens schon 10 Mal übergelaufen, die Datei _DSC2543.NEF gibt es also wahrscheinlich bereits 11 oder 12 Mal, aber auch die EXIF-Zähler laufen über und ich habe teils Zähler in Leihkameras, die parallel laufen und so weiter.

Ich muss weiter darüber nachdenken:

Wenn mich ein Kunde anruft, habe ich auch jetzt schon jetzt einen recht guten Überblick (Verzeichnisnamen nach Kundenname und Thema) und kann die gewünschte Datei in wenigen Minuten auf den Schirm bekommen. In Zukunft will ich aber dann alle Kühe in zwei Sekunden erreichen, ohne evt. mehrere Platten ans System ankoppeln zu müssen und dabei potentiell die anderen Daten auf den angeschlossenen Platten zu gefährden.

Herzlich

Frank

PS: Seid Ihr eigentlich alle bei Microsoft angestellt oder ist Linux inzwischen so schlecht geworden, dass keiner mehr davon spricht???
 
Kommentar
P

Practika

Guest
FrankF schrieb:
PS: Seid Ihr eigentlich alle bei Microsoft angestellt oder ist Linux inzwischen so schlecht geworden, dass keiner mehr davon spricht???

:lachen::lachen::lachen:
Bei Deinem Vorhaben würde ich Linux als Fileserver nehmen, eine weitere Maschine mit 'ner MySQL bestücken, welchen Client Du dann verwendest, ist eigentlich wurscht. Wenn es Windows bei Dir ist, schau mal in meine Fußnote.
 
Kommentar

Kai Licht

Unterstützendes Mitglied
Registriert
Frank,

ich folge Dennis: ich würde in Omnis als Frontend die Verwaltung schreiben und eine Datenbank als Backend verwenden. Sinnvollerweise MySQL, wenn Du zuviel Geld hast auch gerne Oracle :hehe: Omnis kann mit allen üblichen SQL-Servern umgehen.

Nebenbei: die Frage des Betriebssystems am Client stellt sich nicht. Omnis läuft auf Mac OS X, Windows, Linux, Sun Solaris... (echtzeit-multiplattformkompatibel).

Deine Dateinamen läßt Du so, wie sie sind. Am besten wäre eine hochzählende, eindeutige Nummer oder gleich, wie wir das machen die RSN als Filenamen. Bei der Zahl an Files brauchst Du nicht mehr mit dem Umbenennen anfangen... (im übrigen halte ich auch Infos im Filenamen für bizarr)

Ansonsten machst Du dann im Client einen Importer, der Dir die Verzeichnisse durchgeht und alles reinzieht (Pfad, Name etc.), die DB erhält Links auf die Originaldateien.

Ich kann nach allen Kriterien suchen und habe aus 150.000 Dateien in einer Sekunde meine Trefferliste, die ich weiter eingrenzen kann. Die gewünschte Datei ist sofort geladen.

Über die Hardware mache ich mir allerdings keinen Kopf. Das Rackgefrickel überlasse ich den Schraubern. Backup macht die Clientlösung automatisch nachts.

BG
Kai
 
Kommentar

Kai Licht

Unterstützendes Mitglied
Registriert
P. S.: Natürliuch kannst Du weiterhin in den Ordnern suchen und hast Direktzugriff, um eine CD für einen Kunden zu brennen:

Pfad
.
.
.---2006
.---2007
.---20070103 Ines Gletscher
[Hier die Bilder]
.---20070104 Mailand Fashion
[Hier die Bilder]
.---20070112 BMW

etc.


Kai
 
Kommentar

pulcino

Auszeit
Registriert
Hallo Frank,

ich würde mir einen Linux-Server für Dein Vorhaben einrichten.

Allein der 'find' Befehl in der BASH-Shell, mit seinen unzähligen Optionen, befriedigt Deine Wünsche.

Allerdings wäre es supercool, Deine NEF's als blobs in einer SQL-DB abzulegen. Hab so etwas mal gemacht, vor Jahren, mit MySql. Damals gab's aber noch ne 16 MB Obergrenze für blobs.

Viele Grüße - Ingrid
 
Kommentar

pixelschubser2006

Sehr aktives Mitglied
Registriert
Prinzipiell würde ich Dir ein Raid-5-System vorschlagen - bei diesen Datenmengen ist das sehr wirtschaftlich und sicher. Vorteil: Nur ein Teil der jeweiligen Festplattenkapazität wird zur Spiegelung verwendet. D.H. Es wird eine Spiegelung der gesamten Kapazität vorgenommen, aber diese Spiegelung wird wieder auf alle Platten aufgeteilt. Fällt eine der Platten aus, können die Daten zurückgerechnet werden. Beispiel: 5 x 500 GB = 2 TB nutzbare Kapazität, 500 GB für die Spiegelung. 3x 400 GB = 800 GB nutzbar, auch hier die Kapazität einer Festplatte geht für die Sicherheit drauf. D.h. je mehr Platten in dem Array sind desto wirtschaftlicher wird das ganze.
Ich bin bei der Berechnung davon ausgegangen das alle Platten dieselbe Größe haben. Dies wird allgemein so empfohlen. Diese sollten auch in etwa die gleiche Leistung haben. Identisch brauchen sie übrigens nicht zu sein.
Zwar kosten unterschiedliche Platten minimal Leistung, dafür wird das gleichzeitige Ausfallrisiko mehrerer Platten vermindert.
Gerade bei neuen Festplatten der selben Charge zeigt sich häufig, das innerhalb kürzester Zeit mehrere Platten ausfallen. Dies hängt mit der Tatsache zusammen das technische entweder fast neu ausfallen, oder erst nach ein paar Jahren (statistisch betrachtet). Was nun mit den Daten passiert, wenn Freitags eine Platte ausfällt, und Sonntags (vor dem Ersatz der ersten defekten) gleich die zweite, brauch ich nicht im Horrorszenario darstellen. Wer jedoch je eine 200 GB -Platte von Seagate und von Samsung hat wird praktisch nicht erleben, das diese ohne äußere Einwirkung kurz hintereinander kaputtgehen. Bei zwei identischen Platten kann das durchaus passieren!
Nebenbei bietet Raid 5 eine wirtschaflich sinnvolle Lösung um überhaupt auf die von Dir benötigten Kapazitäten zu kommen. Praktisch kann das ganze mit beliebigen S-Ata-Platten aufgebaut werden. Ein vernünftiger Controller kostet ab etwa 300 Euro, dazu kommt der PC drumherum und vor allem vernünftige Laufwerksrahmen für die Platten. Von der Fa. Raidsonic gibt es schöne externe Plug-and-Play-Lösung die genauso praktisch wie eine externe HDD anzuwenden sind, aber alles nötige fix und fertig eingebaut haben. Das ganze mit einer Statusüberwachung bei der selbst mein Oma ne defekte Platte austauschen könnte. Und mit Firewire wäre das ganze auch wesentlich schneller als USB 2.0! Viel Spaß beim Backuppen!
Das Thema Serverlösung ist mit Vorsicht zu genießen: Selbst Gigabit bietet häufig keine höheren Übertragungsgeschwindigkeiten als die 25-28 GB/s von USB 2.0.
 
Kommentar

McClane

Unterstützendes Mitglied
Registriert
Wenn ich es richtig machen wollte würde ich die Daten auf ein Plattensubsystem mit Raid (NAS, SAN etc..) mit ausreichend Erweiterungsmöglichkeiten legen. Dazu ein Bandlaufwerk zur Sicherung. Wobei bei der Datenmenge ja schon fast ein LTO3 zu klein ist um nicht gleich einen ganzen Schrank mit Sicherungsbändern zu füllen.
Ich denke als Bilddatenbank kommen die Programme für den Heimgebrauch nicht in Frage. Iview Media Pro legt seinen Thumnails und Vorschaubilder in einer Datei ab und ist auch nicht auf diese Datenmengen ausgelegt. Die Suchfunktion ist allerdings sehr gut.
Fotostation Pro legt die Thumbs und Vorschaubilder nicht in eine Datenbank sondern als Datei auf Platte. Evtl. kommt das Programm besser mit vielen Bildern zurecht.
Ansonsten, ich hab da einen Kunden der schwört auf Filemaker. Der macht eigentlich alles mit Filemaker. Mit ein wenig Programmiererfahrung kann man sich damit auch eine nette Datenbank stricken. Und das Programm ist performant.
 
Kommentar
Oben Unten