import os # Ordner, in dem sich die Textdateien und das Skript befinden ordner_pfad = os.path.dirname(os.path.abspath(__file__)) # Listen von Titeln, Start- und Endmustern titel = [ "Name", # 1 "Verifizierter Club", # 2 "Mitglieder", # 3 "Kategorie", # 4 "Land", # 5 "Club ID", # 6 "Logo", # 7 "Titel8", # 8 "Titel9", # 9 "Titel10", # 10 ] start_muster = [ '', # 2 '
\n

\n', # 3 'icon-lg">', # 4 '\n\r \n\r',  # 5
'<meta content=', # 1 "", # 2 ' Mitglieder\n

', # 3 "", # 4 '" src="data:,">', # 5 '" property="og:url">', # 6 '/large.jpg"', # 7 "END8", # 8 "END9", # 9 "END10", # 10 ] # Ausgabedatei ausgabe_datei = "extrahierte_werte.txt" def extrahiere_werte(datei): extrahierte_werte = {t: [] for t in titel} with open(datei, 'r') as textdatei: zeilen = textdatei.readlines() for zeile in zeilen: for i in range(len(start_muster)): start_index = zeile.find(start_muster[i]) end_index = zeile.find(end_muster[i]) if start_index != -1 and end_index != -1: wert = zeile[start_index + len(start_muster[i]):end_index] extrahierte_werte[titel[i]].append(wert) return extrahierte_werte def main(): with open(ausgabe_datei, 'w') as ausgabe: ausgabe.write("Dateiname\t" + "\t".join(titel) + "\n") for datei_name in os.listdir(ordner_pfad): if datei_name.endswith(".html"): datei_pfad = os.path.join(ordner_pfad, datei_name) extrahierte_werte = extrahiere_werte(datei_pfad) if extrahierte_werte: dateiname = os.path.splitext(datei_name)[0] ausgabe.write(dateiname) for t in titel: ausgabe.write("\t" + "\t".join(extrahierte_werte[t])) ausgabe.write("\n") if __name__ == "__main__": main()