Windows:
Wie man nur den Text aus Dokumenten extrahiert

Marcel Weiss, 12. Februar 2008 16:35 Uhr, 6 Kommentare Kommentare

Mit dem Freewareprogramm “Text Mining Tool” kann man den Text aus Dokumenten wie PDFs, HTML- oder Worddateien extrahieren – und zwar nur den Text.

Im Gegensatz zum schlichten Copy&Paste holt Text Mining Tool nur den Text aus den Dokumenten. Etwaige Formatierungen eingebundener Bilder werden so nicht mitkopiert. Auch ist das Kopieren von im Ursprungsdokument durch Objekte stark fragmentiertem Text mit Text Mining Tool wesentlich leichter.

Einziger Nachteil: Wie man im Screenshot sehen kann, werden Umlaute leider nicht korrekt verarbeitet:

textminingtool

 

Wer aber damit leben kann, ausgiebig mit Text arbeitet und diesen aus Dokumenten extrahieren muss, für den wird Text Mining Tool die Arbeit wesentlich erleichtern.

Text Mining Tool ist Freeware und Windows only.

» Text Mining Tool – free converter of PDF, DOC, CHM, RTF, HTML files to text

(gefunden bei Lifehacker)

Weiterempfehlen

Mehr lesen

Browser: 10 Alternativen zu IE, Firefox und Co.

11.1.2010, 0 KommentareBrowser:
10 Alternativen zu IE, Firefox und Co.

Sixrevisions.com stellt «zehn Browser, von denen Du wahrscheinlich noch nie gehört hast», vor.

Software für Windows und Mac: Die populärsten Downloads 2009

16.12.2009, 0 KommentareSoftware für Windows und Mac:
Die populärsten Downloads 2009

Das Produktivitätsblog Lifehacker.com hat im Rahmen seines Jahresrückblicks Listen der beliebtesten Software für Windows und Mac veröffentlicht.

Der Link am Morgen: Die populärsten Downloads 2008

17.12.2008, 0 KommentareDer Link am Morgen:
Die populärsten Downloads 2008

Jahresende, Listenzeit: Die populärsten kostenlosen Downloads des Jahres 2008 hat Lifehacker.com zusammengestellt, einmal für Windows und einmal für Mac.

6 Kommentare

  1. Alex
    schrieb am 12. Februar 2008 um 21:09 Uhr (#)

    Ich verwende seit einiger Zeit problemlos PureText: http://www.stevemiller.net/puretext/

    Alex

  2. Flo
    schrieb am 13. Februar 2008 um 11:00 Uhr (#)

    Ich wüsste nicht wem sowas in Deutschland etwas bringt wenn keine Umlaute möglich sind ;)

  3. Schreibt hier auf dem Blog Marcel Weiss
    schrieb am 13. Februar 2008 um 13:09 Uhr (#)

    Alex: kannte ich noch nicht. Werde ich mal testen. Danke!
    -
    Flo: Zum Beispiel Leute, die viel mit englischen Text arbeiten. Gibt sicher noch mehr Beispiele, wenn auch zugegeben sicher nicht so viele.

  4. Artur B.
    schrieb am 13. Februar 2008 um 16:15 Uhr (#)

    Hallo,

    um nur den text aus einem dokument herauszubekommen kann man das kopierte auch einmal im normalen “Editor” einfügen und von daraus nochmal kopieren.

    Oder verstehe ich den Nutzen dieses Programms falsch?

  5. Michael
    schrieb am 14. Februar 2008 um 14:27 Uhr (#)

    Ich kann in diesem Zusammenhang nur ac’tivAid empfehlen (hier das Modul PastePlain), und nicht nur hierfür, auch ansonsten ist das Teil äußerst hilfreich.

    Genauso wie Ditto, ein äußerst hilfreicher Clipboard-Manager, mit dem kopierte Texte auf einfachste Weise plain eingefügt werden können (und noch vieles mehr).

    Beide Tools gehören zu meinen MustHaves auf allen Rechnern…

  6. Wolf-Dieter Roth
    schrieb am 15. Februar 2008 um 20:26 Uhr (#)

    Wenn es nur darum geht, Texte in MS Würg zu pasten, ohne immer all die bescheuerten Formatierungen mit zu pasten, tut es auch “Inhalte einfügen”. Was man sich auch auf ein Kürzel legen kann z.B. ALT-V (statt CTRL-V).

    Leider muß man dann aber trotzdem noch unter 95 angebotenen Optionen “Unformatierten Text” auswählen. Dabei ist das normal die einzige Variante, die man will. Aber Billy-Boy ist halt so stolz drauf, alle Grafik und Farben mitübernehmen zu können…

Diesen Artikel kommentieren

Wir sind sehr an einer offenen Diskussion interessiert, behalten uns aber vor, beleidigende Kommentare sowie solche, die offensichtlich zwecks Suchmaschinenoptimierung abgegeben werden, zu editieren oder zu löschen. Mehr dazu in unseren Kommentarregeln.