|
|
Arbeiten mit großen Dateien |
|
Dunlab |

Forum-Newbie
|
 |
Beiträge: 4
|
 |
|
 |
Anmeldedatum: 03.04.09
|
 |
|
 |
Wohnort: ---
|
 |
|
 |
Version: ---
|
 |
|
|
 |
|
Verfasst am: 03.04.2009, 14:46
Titel: Arbeiten mit großen Dateien
|
 |
|
 |
|
Guten Tag,
ich habe derzeit mit großen Textdateien zu arbeiten, die ich in Matlab importieren möchte.
Es handelt sich um 40 MB große textfiles, die 2 000 000 Zeilen beinhalten, die Zeilen sind derzeit folgendermaßen formatiert:
1,111\t2,222\n
zu beachten hierbei ist, dass die Zahlen mit Komma und nicht mit Punkt formatiert sind.
Zuerst wollte ich in Matlab eine find&replace methode schreiben, damit ich danach die Datein mit import relativ einfach einlesen kann. Hier weiß ich aber nicht wie das geht, ich dachte an zeilenweißes auslesen und umwandeln sprich:
zeile lesen, findreplace(, .), in die gleiche datei schreiben, nächste datei lesen usw.
Hier weiß ich aber nicht, wie ich mit dem schreiben und lesen gleichzeitig zurecht komme.
Zweite Variante ist, dass ich gleich beim Einlesen die Datei die Zahlen lesen und in eine Matrix schreibe, die ich dann als .mat file speichere.
Hierbei ist das Problem, dass mein Algorithmus ab ca 25000 Zeilen einbricht und deutlich langsamer wird. Hier eine Graphic, die natürlich dadruch verfälscht ist, weil ich zusätzlich noch die Zeiten gespeichert habe.
Wie kann ich das ganze effizienter gestalten?
Danke
Beschreibung: |
Dauer bezogen auf Zeilenanzahl |
|
 Download |
Dateiname: |
Aufwand1.png |
Dateigröße: |
7.25 KB |
Heruntergeladen: |
592 mal |
|
|
|
|
|
Lloewe |

Forum-Anfänger
|
 |
Beiträge: 11
|
 |
|
 |
Anmeldedatum: 17.03.09
|
 |
|
 |
Wohnort: Göttingen
|
 |
|
 |
Version: ---
|
 |
|
|
 |
|
Verfasst am: 05.04.2009, 10:42
Titel:
|
 |
hallo,
wie wäre es wenn du dir ein Programm in C/C++ schreibst, welches deine ursprüngliche Datei gleich zu Anfang in Teildateien zerlegt. Also z.b. immer 25000 Zeilen ausliest und sie in andere Dateien mit fortlaufendem Namen schreibt.
Danach könnte man Matlab die Anzahl der Dateien (und damit die Dateinamen) übergeben udn könnte so das Ausgangsproblem in Teilprobleme zerlegen.
C ist meines Wissens nach bei solchen Anwendungen auch relativ zügig.
Gruß
Leander
|
|
|
Gast |
|
 |
Beiträge: ---
|
 |
|
 |
Anmeldedatum: ---
|
 |
|
 |
Wohnort: ---
|
 |
|
 |
Version: ---
|
 |
|
|
 |
|
Verfasst am: 05.04.2009, 21:26
Titel:
|
 |
Hi,
wg. des Problems mit Zahlen mit Komma als Dezimaltrennzeichen - hast Du's mal mit txt2mat vom Mathworks File Exchange probiert
http://www.mathworks.com/matlabcentral/fileexchange/18430 ?
Wenn Du mit \t und \n Tab bzw. Newline meinst, also Deine Datei einfach so aussieht
1,23 4,56
7 8,9
0,1 2,34
...
sollte so etwas
funktionieren (40MB sind auch nicht so viel).
Viel Erfolg!
|
|
|
Gast |
|
 |
Beiträge: ---
|
 |
|
 |
Anmeldedatum: ---
|
 |
|
 |
Wohnort: ---
|
 |
|
 |
Version: ---
|
 |
|
|
 |
|
Verfasst am: 05.04.2009, 21:28
Titel:
|
 |
Anonymous hat Folgendes geschrieben: |
[..]
1,23 4,56
7 8,9
0,1 2,34
...
|
Sorry, die Tabs funktionieren hier nicht.
|
|
|
|
|
Einstellungen und Berechtigungen
|
|
Du kannst Beiträge in dieses Forum schreiben. Du kannst auf Beiträge in diesem Forum antworten. Du kannst deine Beiträge in diesem Forum nicht bearbeiten. Du kannst deine Beiträge in diesem Forum nicht löschen. Du kannst an Umfragen in diesem Forum nicht mitmachen. Du kannst Dateien in diesem Forum posten Du kannst Dateien in diesem Forum herunterladen
|
|
Impressum
| Nutzungsbedingungen
| Datenschutz
| FAQ
| RSS
Hosted by:
Copyright © 2007 - 2025
goMatlab.de | Dies ist keine offizielle Website der Firma The Mathworks
MATLAB, Simulink, Stateflow, Handle Graphics, Real-Time Workshop, SimBiology, SimHydraulics, SimEvents, and xPC TargetBox are registered trademarks and The MathWorks, the L-shaped membrane logo, and Embedded MATLAB are trademarks of The MathWorks, Inc.
|
|