Umstieg von EMDB

Erstellt von cmal, 2 März 2020, 23:27:34

Vorheriges Thema - Nächstes Thema

0 Mitglieder und 1 Gast schauen sich dieses Thema an.

cmal

Hallo zusammen
ich habe meine Daten von EMDB in MyMDb-CE (ab jetzt: "M.") umgeschaufelt. Das Problem ist dabei, dass EMDB den "CSV"-Export laut Notepad-plus-plus in der Codierung  "Macintosh (CR) UCS-2 LE BOM" ausgibt; das Import-Modul kann das nicht verarbeiten:



auch wenn man in Notepad in UTF8 konvertiert, klappt es nicht wirklich, da die Sonderzeichen nicht korrekt angezeigt werden:



folgende Schritte muss man durchführen:

in Powerschell kann man die EMDB-csv-Exporte mit folgender Kommandozeile in ANSI (!) konvertieren, was dann MyMDb bezüglich Sonderzeichen richtig erkennt:
Get-Content Pfad\zur\Datei\EMDB-Export.csv | out-file -Encoding default Pfad\zur\Datei\Import.csv
(auch eine Konvertierung in Notepad zu ANSI scheint zu funktionieren)

- Datei in Notepad (o.ä.) öffnen, um sich zu vergewissern, dass ANSI angezeigt wird und die Leerzeile unter der Spalten-Überschriftszeile löschen;
- Achtung: wenn man in EMDB z.B. im Inhaltsfeld einen Zeilenumbruch hatte, wird er in der Export.csv als neue Zeile dargestellt; hier muss man ggf das CR/LF und ggf ein Semikolon löschen, um die Zeilen wieder zu vereinen; (trotzdem schadet es nicht, wenn man im Excel überprüft, ob das auch funktioniert hat; bei mir war das nicht immer der Fall)
- Datei speichern
- die Datei in .txt umbenennen, damit Excel beim Import die Optionen anzeigt
- in Excel öffnen und Semikolon als Trennzeichen wählen
- Spaltenüberschriften "vorhanden" anwählen
- alle Spalten anwählen und als "Text" markieren, sonst wird z.B. die Note "7.4" zu "7. April" konvertiert
- jetzt bedarf es noch jede Menge Handarbeit in Excel, um die Feldinhalte für M. geeignet zu machen, denn EMDB markiert "gesehene Filme" oder "3D-Filme" mit einem "X" (nicht mit 0 oder 1); der Pfad zum Cover ist ein voller Pfad, nicht ein relativer, "Farbe" ist "Color", die Bezeichnungen der Audio-Formate sind nicht identisch zu M., die einzelnen Audio-Streams sind nicht mit einem Semikolon getrennt (sondern " / "), etc.... (vllt kann man das auch nachträglich in M. mit der "Batch-Konvertierung" machen, das habe ich aber nicht probiert)
- man kann in Excel einzelne Spalten markieren und dann nur in dieser Spalte Text-Ersetzungen von der Einen zur Anderen Terminologie durchführen; dabei kommen immer wieder nervige automatische Format-Konvertierungen vor (in ein Datum, in eine Dezimalzahl); hier kann es helfen, wenn man die Text-Funktion "Wechseln" verwendet; danach muss man allerdings den resultierenden Zelleninhalt kopieren und als "Wert" wieder einfügen, sonst bleiben die Funktionen in den Zellen stehen
- Cover: M. speichert die Cover im Unterverzeichnis "\images\movies"; hierher sollte man die EMDB Cover reinkopieren und in Excel in der Cover-Pfad/Spalte nur noch den Dateinamen stehen lassen (Pfad durch "nix" ersetzen)
- EMDB arbeitet nur mit IMDB, speichert daher nur die Nummer des Filmes (z.B. "0389564"), nicht den vollen Pfad: "https://www.imdb.com/title/tt0389564";; hier kann man mit der Funktion "Textkette" den fehlenden Link ergänzen;
- wenn man zufrieden ist, einfach im Excel auf "Speichern" klicken; die .txt wird überschrieben, wobei die "Semikolon" durch "Tab" als Trennzeichen ersetzt werden, wodurch es nicht schädlich ist, dass z.B. die Audioformate mit einem Semikolon getrennt sind
- dann nur noch im Import-Modul die richtige Zell-Zuordnung vornehmen und importieren