add ugb
Some checks failed
CI/CD Pipeline / test (push) Failing after 1m59s

This commit is contained in:
philipp 2024-03-15 21:31:39 +01:00
parent cb55a074d7
commit 402973f309
2 changed files with 66 additions and 0 deletions

64
data/configs/ugb.toml Normal file
View File

@ -0,0 +1,64 @@
[law]
id = 10001702
name = "UGB"
[[law.classifiers]]
name = " Buch"
is_root = true
match_function = "contains"
[[law.classifiers]]
name = "Abschnitt"
is_root = false
match_function = "contains"
[[law.classifiers]]
name = "Titel"
is_root = false
match_function = "contains"
[[law.classifiers]]
name = "roman numbering"
is_root = false
match_function = "starts_with_roman_number"
[parser]
remove_strings = [
"<gdash />",
"<b>", "</b>",
"<i>", "</i>",
"<n>", "</n>",
]
[[parser.replace_rules]]
find = "<amp />"
replace_with = "AMPERSAND"
[[parser.replace_rules]]
find = """<ueberschrift typ="g1" ct="text" halign="c">Geschäftsführung durch mehrere Gesellschafter;</ueberschrift>"""
replace_with = """<ueberschrift typ="g1" ct="text" halign="c">I. Geschäftsführung durch mehrere Gesellschafter;</ueberschrift>"""
[[parser.replace_rules]]
find = """<ueberschrift typ="para" ct="text" halign="c">Verteilung des Gesellschaftsvermögens;</ueberschrift>"""
replace_with = """<ueberschrift typ="g1" ct="text" halign="c">I. Verteilung des Gesellschaftsvermögens;</ueberschrift>"""
[[parser.replace_rules]]
find = """<ueberschrift typ="para" ct="text" halign="c">Wertansätze für Gegenstände des Anlagevermögens;</ueberschrift>"""
replace_with = """<ueberschrift typ="g1" ct="text" halign="c">I. Wertansätze für Gegenstände des Anlagevermögens;</ueberschrift>"""
[[parser.replace_rules]]
find = """<ueberschrift typ="para" ct="text" halign="c">Zusammenfassung von Eigenkapital und Beteiligungen</ueberschrift>"""
replace_with = """<ueberschrift typ="g1" ct="text" halign="c">I. Zusammenfassung von Eigenkapital und Beteiligungen</ueberschrift>"""
[[parser.replace_rules]]
find = """<ueberschrift typ="para" ct="text" halign="c">Zusammenfassung von Forderungen und Schulden verbundener Unternehmen</ueberschrift>"""
replace_with = """<ueberschrift typ="g1" ct="text" halign="c">I. Zusammenfassung von Forderungen und Schulden verbundener Unternehmen</ueberschrift>"""
[[parser.replace_rules]]
find = """<ueberschrift typ="para" ct="text" halign="c">Zusammenfassung von Aufwendungen und Erträgen verbundener Unternehmen</ueberschrift>"""
replace_with = """<ueberschrift typ="g1" ct="text" halign="c">I. Zusammenfassung von Aufwendungen und Erträgen verbundener Unternehmen</ueberschrift>"""
[[parser.replace_rules]]
find = """<ueberschrift typ="g2" ct="text" halign="c">Anteilmäßige Zusammenfassung der Jahresabschlüsse verbundener Unternehmen</ueberschrift><ueberschrift typ="g1min" ct="text" halign="c">(anteilmäßige Konsolidierung)</ueberschrift>"""
replace_with = """<ueberschrift typ="g2" ct="text" halign="c">Anteilmäßige Zusammenfassung der Jahresabschlüsse verbundener Unternehmen (anteilmäßige Konsolidierung)</ueberschrift>"""

View File

@ -24,6 +24,7 @@ use std::{
hash::{DefaultHasher, Hash, Hasher},
path::Path,
};
use tracing::info;
use crate::{
law,
@ -124,6 +125,7 @@ impl Parser {
/// );
/// ```
pub fn parse(&self, url: &str, builder: &mut law::Builder) -> Result<bool, Error> {
info!("Parsing {url}");
let xml = fetch(url)?;
let xml = xml.replace('\u{a0}', " ");