risp/src/par/parser.rs
2023-11-04 15:31:56 +01:00

388 lines
12 KiB
Rust
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

use std::fmt::Display;
use roxmltree::Node;
use crate::{
law::{Content, LawBuilder},
Error,
};
#[derive(Debug, PartialEq)]
pub(crate) struct Risdok {
metadaten: Metadaten,
nutzdaten: Nutzdaten,
layoutdaten: Layoutdaten,
}
impl Risdok {
pub(crate) fn parse(n: Node, builder: &mut LawBuilder) -> Self {
assert!(n.tag_name().name() == "risdok");
let mut c = n.children();
let ret = Self {
metadaten: Metadaten::parse(c.next().unwrap()),
nutzdaten: Nutzdaten::parse(c.next().unwrap(), builder),
layoutdaten: Layoutdaten::parse(c.next().unwrap()),
};
assert_eq!(c.next(), None);
ret
}
pub(crate) fn from_str(xml: &str, builder: &mut LawBuilder) -> Result<Self, Error> {
let doc = roxmltree::Document::parse(&xml)?;
let root = doc.root();
assert_eq!(root.children().into_iter().count(), 1);
Ok(Self::parse(root.children().next().unwrap(), builder))
}
}
impl Display for Risdok {
fn fmt(&self, f: &mut std::fmt::Formatter<'_>) -> std::fmt::Result {
for abs in &self.nutzdaten.abschnitt.absatze {
let mut w = String::new();
if let Some(symb) = &abs.gldsym {
w.push_str(&format!("\n{symb} "));
}
w.push_str(&format!("{}\n", abs.content));
f.write_str(&w)?;
}
Ok(())
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct Metadaten;
impl Metadaten {
pub(crate) fn parse(n: Node) -> Self {
assert!(n.tag_name().name() == "metadaten");
assert_eq!(n.children().next(), None);
Self {}
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct Nutzdaten {
abschnitt: Abschnitt,
}
impl Nutzdaten {
pub(crate) fn parse(n: Node, builder: &mut LawBuilder) -> Self {
assert!(n.tag_name().name() == "nutzdaten");
let mut c = n.children();
let ret = Self {
abschnitt: Abschnitt::parse(c.next().unwrap(), builder),
};
assert_eq!(c.next(), None);
ret
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct Abschnitt {
absatze: Vec<AbsatzAbs>,
}
impl Abschnitt {
pub(crate) fn parse(n: Node, builder: &mut LawBuilder) -> Self {
assert!(n.tag_name().name() == "abschnitt");
let mut c = n.children().peekable();
Kzinhalt::parse(c.next().unwrap());
Kzinhalt::parse(c.next().unwrap());
Fzinhalt::parse(c.next().unwrap());
Fzinhalt::parse(c.next().unwrap());
// Skip all UeberschriftTitle and Absatz
loop {
match c.peek() {
Some(child) => {
if Ueberschrift::test(child, "titel") {
c.next();
continue;
}
if Absatz::test(child) {
c.next();
continue;
}
break;
}
None => break,
}
}
loop {
match c.peek() {
Some(child) => {
if Ueberschrift::test(&child, "g1") {
let ueberschrift = Ueberschrift::parse(c.next().unwrap(), "g1");
builder.new_header(&ueberschrift.content);
} else if Ueberschrift::test(&child, "g2") {
let ueberschrift = Ueberschrift::parse(c.next().unwrap(), "g2");
builder.new_desc(&ueberschrift.content);
} else if Ueberschrift::test(&child, "g1min") {
let ueberschrift = Ueberschrift::parse(c.next().unwrap(), "g1min");
builder.new_header(&ueberschrift.content);
} else {
break;
}
}
None => break,
}
}
if let Some(child) = c.peek() {
if Ueberschrift::test(child, "para") {
builder
.new_next_para_header(&Ueberschrift::parse(c.next().unwrap(), "para").content);
}
}
let mut absatze = Vec::new();
loop {
match c.peek() {
Some(child) => {
if AbsatzAbs::test(child) {
absatze.push(AbsatzAbs::parse(c.next().unwrap()));
continue;
}
break;
}
None => break,
}
}
if absatze.len() == 1 {
builder.new_par(Content::Text(format!(
"{} {}",
absatze[0].gldsym.clone().unwrap(),
absatze[0].content
)));
} else {
let mut content = Vec::new();
for a in &absatze {
let mut txt = String::new();
if let Some(sym) = &a.gldsym {
txt.push_str(&format!("{sym} "));
}
txt.push_str(&a.content);
content.push(Box::new(Content::Text(txt)));
}
builder.new_par(Content::Item(content));
}
// Skip all UeberschriftTitle and Absatz
loop {
match c.peek() {
Some(child) => {
if Ueberschrift::test(child, "titel") {
c.next();
continue;
}
if Absatz::test(child) {
c.next();
continue;
}
break;
}
None => break,
}
}
assert_eq!(c.next(), None);
Self { absatze }
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct AbsatzAbs {
gldsym: Option<String>,
content: String,
}
impl AbsatzAbs {
pub(crate) fn test(n: &Node) -> bool {
n.tag_name().name() == "absatz" && n.attribute("typ").unwrap() == "abs"
}
pub(crate) fn parse(n: Node) -> Self {
assert!(n.tag_name().name() == "absatz");
assert_eq!(n.attribute("typ").unwrap(), "abs");
let mut c = n.children().peekable();
let gldsym = match c.peek() {
Some(child) => {
if Leaf::test(child, "gldsym".into()) {
Some(Leaf::parse(c.next().unwrap(), "gldsym".into()).replace("\u{a0}", " "))
} else {
None
}
}
None => None,
};
let ret = Self {
gldsym,
content: c.next().unwrap().text().unwrap().trim().into(),
};
assert_eq!(c.next(), None);
ret
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct Leaf {
content: String,
}
impl Leaf {
pub(crate) fn test(n: &Node, name: String) -> bool {
n.tag_name().name() == name && n.children().into_iter().count() == 1
}
pub(crate) fn parse(n: Node, name: String) -> String {
assert!(n.tag_name().name() == name);
assert_eq!(n.children().into_iter().count(), 1);
n.text().unwrap().into()
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct Absatz {
content: String,
}
impl Absatz {
pub(crate) fn test(n: &Node) -> bool {
n.tag_name().name() == "absatz"
}
pub(crate) fn parse(n: Node) -> Self {
assert!(n.tag_name().name() == "absatz");
Self {
content: n.text().unwrap().into(),
}
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct Ueberschrift {
typ: String,
content: String,
}
impl Ueberschrift {
fn test(n: &Node, typ: &str) -> bool {
n.tag_name().name() == "ueberschrift" && n.attribute("typ").unwrap() == typ
}
pub(crate) fn parse(n: Node, typ: &str) -> Self {
assert!(n.tag_name().name() == "ueberschrift");
assert_eq!(n.attribute("typ").unwrap(), typ);
Self {
content: n.text().unwrap().into(),
typ: typ.into(),
}
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct Kzinhalt;
impl Kzinhalt {
pub(crate) fn parse(n: Node) -> Self {
assert!(n.tag_name().name() == "kzinhalt");
//TODO parse if necessary
Self {}
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct Fzinhalt;
impl Fzinhalt {
pub(crate) fn parse(n: Node) -> Self {
assert!(n.tag_name().name() == "fzinhalt");
//TODO parse if necessary
Self {}
}
}
#[derive(Debug, PartialEq)]
pub(crate) struct Layoutdaten;
impl Layoutdaten {
pub(crate) fn parse(n: Node) -> Self {
assert!(n.tag_name().name() == "layoutdaten");
assert_eq!(n.children().next(), None);
Self {}
}
}
#[cfg(test)]
mod tests {
use std::{fs::File, io::Read};
use super::*;
#[test]
fn deserialize_wucher1_success() {
let mut file = File::open("data/par/wucher1.xml").unwrap();
let mut xml = String::new();
file.read_to_string(&mut xml).unwrap();
let mut builder = LawBuilder::test("no-headers");
let risdok = Risdok::from_str(&xml, &mut builder);
if risdok.is_err() {
println!("{:#?}", risdok.as_ref().err());
}
assert!(risdok.is_ok());
let abschnitt = risdok.unwrap().nutzdaten.abschnitt;
let expected = vec![
AbsatzAbs {
gldsym: Some("§ 1.".into()),
content: "Ein Vertrag ist nichtig, wenn jemand den Leichtsinn, die Zwangslage, Verstandesschwäche, Unerfahrenheit oder Gemütsaufregung eines anderen dadurch ausbeutet, daß er sich oder einem Dritten für eine Leistung eine Gegenleistung versprechen oder gewähren läßt, deren Vermögenswert zu dem Werte seiner Leistung in auffallendem Mißverhältnis steht.".into()
}
];
assert_eq!(abschnitt.absatze, expected);
}
#[test]
fn deserialize_wucher2_success() {
let mut file = File::open("data/par/wucher7.xml").unwrap();
let mut xml = String::new();
file.read_to_string(&mut xml).unwrap();
let mut builder = LawBuilder::test("no-headers");
let risdok = Risdok::from_str(&xml, &mut builder);
if risdok.is_err() {
println!("{:#?}", risdok.as_ref().err());
}
assert!(risdok.is_ok());
let abschnitt = risdok.unwrap().nutzdaten.abschnitt;
let expected = vec![
AbsatzAbs {
gldsym: Some("§ 7.".into()),
content: "(1) Ist ein Vertrag nach den vorstehenden Bestimmungen nichtig, so hat jeder der beiden Teile alles zurückzustellen, was er aus dem nichtigen Geschäfte zu seinem Vorteil erhalten hat. Insbesondere sind Geldzahlungen mit den gesetzlichen Zinsen vom Empfangstage zurückzuerstatten, die übergebenen Sachen zurückzustellen oder deren Wert zur Zeit des Empfanges zu ersetzen, die auf die Sache gemachten notwendigen und nützlichen Verwendungen zu ersetzen und für die Benützung und die Entwertung der Sache in der Zwischenzeit eine angemessene Vergütung zu leisten. Ergibt sich aus der Berechnung der beiderseitigen Ansprüche ein Mehranspruch für einen der Vertragsteile, so haftet hiefür die für den vertragsmäßigen Anspruch erworbene Sicherstellung.".into()
},
AbsatzAbs {
gldsym: None,
content: "(2) Ist jedoch die Gewährung oder Verlängerung von Kredit nach den vorstehenden Bestimmungen nichtig, so hat der Benachteiligte für den erhaltenen Kreditbetrag vom Empfangstag bis zur Rückzahlung sofern im Vertrag nicht eine geringere Verzinsung vorgesehen ist - Zinsen in der Höhe des Zweifachen des im Zeitpunkt der Schließung des Vertrags geltenden Basiszinssatzes zu vergüten. Er kann für die Rückzahlung des Erhaltenen die im Vertrag vorgesehenen Zahlungsfristen in Anspruch nehmen. Bestimmungen, nach denen der Benachteiligte in besonderen Fällen weitergehende Rechte hat, bleiben unberührt.".into()
}
];
assert_eq!(abschnitt.absatze, expected);
}
}