diff --git a/data/configs/ugb.toml b/data/configs/ugb.toml new file mode 100644 index 0000000..e437909 --- /dev/null +++ b/data/configs/ugb.toml @@ -0,0 +1,64 @@ +[law] +id = 10001702 +name = "UGB" + +[[law.classifiers]] +name = " Buch" +is_root = true +match_function = "contains" + +[[law.classifiers]] +name = "Abschnitt" +is_root = false +match_function = "contains" + +[[law.classifiers]] +name = "Titel" +is_root = false +match_function = "contains" + +[[law.classifiers]] +name = "roman numbering" +is_root = false +match_function = "starts_with_roman_number" + + +[parser] +remove_strings = [ + "", + "", "", + "", "", + "", "", +] + +[[parser.replace_rules]] +find = "" +replace_with = "AMPERSAND" + +[[parser.replace_rules]] +find = """Geschäftsführung durch mehrere Gesellschafter;""" +replace_with = """I. Geschäftsführung durch mehrere Gesellschafter;""" + +[[parser.replace_rules]] +find = """Verteilung des Gesellschaftsvermögens;""" +replace_with = """I. Verteilung des Gesellschaftsvermögens;""" + +[[parser.replace_rules]] +find = """Wertansätze für Gegenstände des Anlagevermögens;""" +replace_with = """I. Wertansätze für Gegenstände des Anlagevermögens;""" + +[[parser.replace_rules]] +find = """Zusammenfassung von Eigenkapital und Beteiligungen""" +replace_with = """I. Zusammenfassung von Eigenkapital und Beteiligungen""" + +[[parser.replace_rules]] +find = """Zusammenfassung von Forderungen und Schulden verbundener Unternehmen""" +replace_with = """I. Zusammenfassung von Forderungen und Schulden verbundener Unternehmen""" + +[[parser.replace_rules]] +find = """Zusammenfassung von Aufwendungen und Erträgen verbundener Unternehmen""" +replace_with = """I. Zusammenfassung von Aufwendungen und Erträgen verbundener Unternehmen""" + +[[parser.replace_rules]] +find = """Anteilmäßige Zusammenfassung der Jahresabschlüsse verbundener Unternehmen(anteilmäßige Konsolidierung)""" +replace_with = """Anteilmäßige Zusammenfassung der Jahresabschlüsse verbundener Unternehmen (anteilmäßige Konsolidierung)""" diff --git a/src/paragraph/mod.rs b/src/paragraph/mod.rs index 1fa8191..2e0dc64 100644 --- a/src/paragraph/mod.rs +++ b/src/paragraph/mod.rs @@ -24,6 +24,7 @@ use std::{ hash::{DefaultHasher, Hash, Hasher}, path::Path, }; +use tracing::info; use crate::{ law, @@ -124,6 +125,7 @@ impl Parser { /// ); /// ``` pub fn parse(&self, url: &str, builder: &mut law::Builder) -> Result { + info!("Parsing {url}"); let xml = fetch(url)?; let xml = xml.replace('\u{a0}', " ");