#!/bin/sh
#
# mommsen.sh
#
# This shell script converts HTML source of Theodor Mommsen's
# 'Roman History' into printable TeX documents.
#
# Author:    Thomas Spahni
# Version:   1.0
# Date:      2008-04-18
# Copyright: public domain
#
# Download all chapters found at
# http://gutenberg.spiegel.de/?id=19&autorid=422&autor_vorname=+Theodor&autor_nachname=Mommsen&cHash=b31bbae2c6
# (printable version) into subdirectories namend 'Buch_1', 'Buch_2' ... 'Buch_8'
# and then run this script from the parent directory.
#
# Usage:
# prompt> ./mommsen.sh
# prompt> ./mommsen.sh clean
#
# Requires:
# TeX with Babel hyphenation for 'german'
# i.e. your /etc/texmf/web2c/fmtutil.cnf should contain a line like:
# tex   tex   language.dat   -translate-file=cp227.tcx   bplain.ini
TEXPROG="/usr/bin/tex"

# Adjustable values for TeX:
# Tolerance limits how much a line may be stretched
# 200 is the TeX default
# 310 works good, but fails for greek words which can not be
#     automatically hyphenated. For this reason tolerance is
#     set to 5000 for footnotes in book.sty
# 10000 disables the limit
TOLERANCE=310

# Book 8 has an appendix with 10 charts. Including them makes
# a huge .ps file. If you don't want this disable inclusion here.
CHARTS=yes
# CHARTS=no

# Generate PDF as well?
# Charts (if enabled) will be ignored for PDF documents
#PDF=yes
PDF=yes
PDFTEXPROG="/usr/bin/pdftex"

################################################################
## End of user configuration
################################################################

BOOKS="Buch_1 Buch_2 Buch_3 Buch_4 Buch_5 Buch_8"

if test "$1" == "clean" ; then
	for TARGET in $BOOKS ; do
		rm -f $TARGET.tex
		rm -f $TARGET.dvi
		rm -f $TARGET.ps
		rm -f $TARGET.pdf
		rm rm -f $TARGET.log
	done
	rm -f *~
	exit 0
fi

# Function: conversion of greek letters and encoded signs
greek() { echo "$1" | sed \
-e 's/&#913;/$A$/g' -e 's/&#945;/$\\alpha $/g' \
-e 's/&#914;/$B$/g' -e 's/&#946;/$\\beta $/g' \
-e 's/&#915;/$\\Gamma $/g' -e 's/&#947;/$\\gamma $/g' \
-e 's/&#916;/$\\Delta $/g' -e 's/&#948;/$\\delta $/g' \
-e 's/&#917;/$E$/g' -e 's/&#949;/$\\epsilon $/g' \
-e 's/&#918;/$Z$/g' -e 's/&#950;/$\\zeta $/g' \
-e 's/&#919;/$H$/g' -e 's/&#951;/$\\eta $/g' -e 's/&#905;/$\\eta $/g' \
-e 's/&#920;/$\\Theta $/g' -e 's/&#952;/$\\theta $/g' \
-e 's/&#921;/$I$/g' -e 's/&#953;/$\\iota $/g' \
-e 's/&#922;/$K$/g' -e 's/&#954;/$\\kappa $/g' \
-e 's/&#923;/$\\Lambda $/g' -e 's/&#955;/$\\lambda $/g' \
-e 's/&#924;/$M$/g' -e 's/&#956;/$\\mu $/g' \
-e 's/&#925;/$N$/g' -e 's/&#957;/$\\nu $/g' \
-e 's/&#926;/$\\Xi $/g' -e 's/&#958;/$\\xi $/g' \
-e 's/&#927;/$O$/g' -e 's/&#959;/$o$/g' \
-e 's/&#928;/$\\Pi $/g' -e 's/&#960;/$\\pi $/g' \
-e 's/&#929;/$P$/g' -e 's/&#961;/$\\rho $/g' \
-e 's/&#931;/$\\Sigma $/g' -e 's/&#962;/$\\varsigma $/g' \
			-e 's/&#963;/$\\sigma $/g' \
-e 's/&#932;/$T$/g' -e 's/&#964;/$\\tau $/g' \
-e 's/&#933;/$Y$/g' -e 's/&#965;/$\\upsilon $/g' \
-e 's/&#934;/$\\Phi $/g' -e 's/&#966;/$\\phi $/g' \
-e 's/&#935;/$X$/g' -e 's/&#967;/$\\chi $/g' \
-e 's/&#936;/$\\Psi $/g' -e 's/&#968;/$\\psi $/g' \
-e 's/&#937;/$\\Omega $/g' -e 's/&#969;/$\\omega $/g' \
-e 's/&#973;/$\\upsilon $/g' \
-e 's/&#977;/$\\vartheta $/g' \
-e 's/&#978;/$\\Upsilon $/g' \
-e 's/&#982;/$\\varpi $/g' \
-e 's/&#940;/$\\alpha $/g' \
-e 's/&#941;/$\\varepsilon $/g' \
-e 's/&#942;/$\\eta $/g' \
-e 's/&#943;/$\\iota $/g' \
-e 's/&#972;/$o$/g' \
-e 's/&#973;/$\\upsilon $/g' \
-e 's/&#974;/$\\omega $/g' \
-e 's/\$\$//g' \
-e 's/&#257;/\\=a/g' \
-e 's/&#259;/\\u{a}/g' \
-e 's/&#269;/\\=c/g' \
-e 's/&#272;/-\\kern-5pt D/g' \
-e 's/&#275;/\\=e/g' \
-e 's/&#277;/\\=e/g' \
-e 's/&#299;/\\={\\i}/g' \
-e 's/&#301;/\\u{\\i}/g' \
-e 's/&#328;/\\~n/g' \
-e 's/&#333;/\\=o/g' \
-e 's/&#335;/\\=o/g' \
-e 's/&#363;/\\=u/g' \
-e 's/&#365;/\\u{u}/g' \
-e "s/&#900;/$'$/g" \
-e "s/&#902;/$'A$/g" \
-e "s/&#904;/$'E$/g" \
-e "s/&#906;/$'I$/g" \
-e 's/&#8540;/$3\\over 8$/g' \
-e 's/&#1030;/{\\tt |}/g' \
-e 's/&#8211;/--/g' \
-e "s/&#8220;/''/g" \
-e "s/&#8221;/''/g" \
-e 's/&#8216;/`/g' \
-e 's/&#8224;/\\dag{}/g'
}

TAB='	'

# rename some files for easier handling
for BUCH in $BOOKS ; do
	#echo $BUCH
	if test -f "$BUCH/Vorrede zu der zweiten Auflage.html" ; then
		mv "$BUCH/Vorrede zu der zweiten Auflage.html" \
		   "$BUCH/00.Vorrede-2.Aufl.html"
	fi

	if test -f "$BUCH/Einleitung.html" ; then
		mv "$BUCH/Einleitung.html" "$BUCH/00.Einleitung.html"
	fi

	for KAPITEL in $BUCH/*Kapitel.html ; do
		NEWNAME=$(basename "$KAPITEL" | sed \
			-e "s/^[1-9]\\./0&/" \
			-e "s/ //g")
		if ! test "$KAPITEL" == "$BUCH/$NEWNAME" ; then
			mv "$KAPITEL" $BUCH/$NEWNAME
		fi
	done
done


# define header for TeX-files
HEADER="\\input book.sty
\\input epsf.tex
\\def\\subtitel#1{\\vskip 0.3in \\goodbreak\\noindent {\\bf #1}\\bigskip}
\\hfuzz 1pt \\tolerance $TOLERANCE \\overfullrule=0pt"
FOOTER='\vfill\eject'

# Translate all texts
for BUCH in $BOOKS ; do

	echo "-----------------------------------------------------------------------"
	echo "$BUCH"

	# Header for a Book
	case $BUCH in
	Buch_1) TBAND="Erster Band"; TBUCH="Erstes Buch"
		TITEL="\\centerline{Bis zur Abschaffung des römischen Königtums}" ;;
	Buch_2) TBAND="Erster Band"; TBUCH="Zweites Buch"
		TITEL="\\centerline{Von der Abschaffung des römischen Königtums}\\centerline{bis zur Einigung Italiens}" ;;
	Buch_3) TBAND="Erster Band"; TBUCH="Drittes Buch"
		TITEL="\\centerline{Von der Einigung Italiens bis auf die}\\centerline{Unterwerfung Karthagos und der Griechischen Staaten}" ;;
	Buch_4) TBAND="Zweiter Band"; TBUCH="Viertes Buch"
		TITEL="\\centerline{Die Revolution}" ;;
	Buch_5) TBAND="Dritter Band"; TBUCH="Fünftes Buch"
		TITEL="\\centerline{Die Begründung der Militärmonarchie}" ;;
	Buch_8) TBAND="Fünfter Band"; TBUCH="Achtes Buch"
		TITEL="\\centerline{Länder und Leute von Caesar bis Diocletian}" ;;
	esac

	OUTFILE=$(echo $BUCH | sed -e 's/$/.tex/')
	DVIFILE=$(echo $BUCH | sed -e 's/$/.dvi/')
	PSFILE=$(echo $BUCH | sed -e 's/$/.ps/')
	# Add title for each book
	echo "$HEADER" > $OUTFILE
	echo '\centerline{\cmhkf Theodor Mommsen} \vskip 0.2in' >> $OUTFILE
	echo '\hfil\epsfbox{t.mommsen.ps}\hfil\par\vskip 0.5in' >> $OUTFILE
	echo '\centerline{\cmbf Römische Geschichte} \medskip' >> $OUTFILE
	echo "\\centerline{\\cmrf $TBAND} \\medskip" >> $OUTFILE
	echo "\\centerline{\\cmrf $TBUCH} \\bigskip" >> $OUTFILE
	echo "{\\cmrkf $TITEL}" >> $OUTFILE

	# Process chapters for this book
	for HTMLFILE in $BUCH/*.html ; do

		# Preprocessing of the source
		# use to correct coding errors in the source
		HTMLCORR=$(cat $HTMLFILE | sed \
			-e 's/<sub>/<sup>/g' \
			-e 's/<\/sub>/<\/sup>/g' \
			-e 's/<!--IMG SRC="image1.gif" WIDTH=603 HEIGHT=315-->//' \
			-e 's/<span class="lektorat">Lektorat: Bild des Stammbaums fehlt!!!<\/span>/(Bild fehlt)/' \
			-e 's/2b2-267/262-267/g' \
			-e 's/Mithradates den Claudius im Jahre 41/Mithradates, den Claudius im Jahre 41/' \
			-e 's/der, \.fast/der, fast/' \
			-e 's/<i>2s<\/i> Denar/<i>2\/3<\/i> Denar/g' \
			-e 's/Ge lehrte aller Art/Gelehrte aller Art/')

		# preprocessing of footnotes
		# extract footnotes one per line
		# some are missing '-------' at the end
		# ex.: vorbereitet haben.</p><p><sup>2</sup> Die Verteidigung
		# no tables in fn
		# mask '&' for subsequent insertion with sed
		FN=$(echo "$HTMLCORR" | tr -d '\012' | sed \
		-e 's/<p>------*<\/p><p><sup>/ÿ<fnbegin><sup>/g' \
		-e 's/<\/p><p><sup>/ÿ<fnbegin><sup>/g' \
		-e 's/<p>------*<\/p>/ÿ/g' | tr 'ÿ' '\012' | sed \
		-e '/^<fnbegin>/ !d' \
		-e 's/^<fnbegin><sup>[0-9]*<\/sup> *//' \
		-e 's/<\/p><table [^>]*>//' \
		-e 's/<tr>/<br>/g' \
		-e 's/<td [^>]*><p>//g' \
		-e 's/<\/p><\/td>/$\\\\quad$/g' \
		-e 's/<\/tr>//g' \
		-e 's/<\/table><p>/<br>/' \
		-e 's/<\/p>$//' \
		-e 's/<\/p><p>/<br>/g' \
		-e 's/ *<i>/ <i>/g' \
		-e 's/^ *//' \
		-e 's/&/\\\&/g')

		#if test $HTMLFILE == "Buch_3/12.Kapitel.html" ; then
		#echo "$FN" ; exit
		#fi

		# List of numbers for all footnotes
		FNUMBERS=$(echo "$HTMLCORR" | tr -d '\012' | sed \
		-e 's/<sup>[1-9][0-9]*<\/sup>/ÿ&ÿ/g' | tr 'ÿ' '\012' | sed \
		-e '/^<sup>[1-9][0-9]*<\/sup>/ !d' \
		-e 's/<sup>//' \
		-e 's/<\/sup>//' | sort -n -r -u)

		HTMLRAW=$(echo "$HTMLCORR" | sed -e 's/$/ÿ/' | tr -d '\012')
		if test -n "$FNUMBERS" ; then
		for FNUM in $FNUMBERS ; do
			FNTEXT=$(echo "$FN" | sed -e "$FNUM !d")
			# remove text of footnote
			# insert footnote at the right place
			HTMLTMP=$(echo "$HTMLRAW" | sed \
			-e "s/<p>------*<\\/p><p><sup> *$FNUM/<fnbegin>&/" \
			-e 's/<fnbegin>.*<p>------*<\/p>//' \
			-e "sþ *<sup> *$FNUM<\\/sup>þ<span class=\"footnote\">$FNTEXT<\\/span>þ")
			HTMLRAW="$HTMLTMP"
		done
		fi

		HTML=$(echo "$HTMLRAW" | tr 'ÿ' '\012')
		TXTPRE=$(echo "$HTML" | sed \
			-e 's/{/$\\lbrace$/g' \
			-e 's/}/$\\rbrace$/g' \
			-e "s/^  *//" \
			-e "s/<br>$TAB*/<br>/g" \
			-e 's/;-&/; - \&/g' \
			-e "s/<[^\\/]/ÿ&/g" \
			-e "s/ÿ<p>/ÿ&/g" \
			-e "s/ÿ<h/ÿ&/g" \
			-e "s/ÿ<i>/<i>/g" \
			-e "s/^ÿ//" \
			| tr 'ÿ' '\012')
		TXT=$(greek "$TXTPRE" \
			| fold -s -w 78 | sed \
			-e "1,/^<div id=\"gb_texte\">/ d" \
			-e "/^<div id=\"gn_nav2\">/,$ d" \
			-e "s/<\\/div>//g" \
			-e "s/<\\/p>//g" \
			-e "s/<p>//g" \
			-e 's/<p class="vers">//')

		#if test $HTMLFILE == "Buch_5/12.Kapitel.html" ; then
		#echo "$TXT" ; exit
		#fi

		# at the end we have to avoid newlines before \fnote{}
		TEX=$(echo "$TXT" | sed \
			-e "s/<h3>/\\\\subtitel{/g" \
			-e "s/<\\/h3>/}/g" \
			-e "s/<h4>/\\\\subtitel{/g" \
			-e "s/<\\/h4>/}/g" \
			-e 's/<br>/\\hfill\\break /g' \
			-e "s/<span class=\"footnote\">/\\\\fnote{/g" \
			-e "s/<\\/span>/}/g" \
			-e 's/<table class="true"[^>]*>/\\settabs 3 \\columns/' \
			-e 's/<tr>/\\+/' \
			-e 's/<\/tr>/\\cr /' \
			-e 's/<td width="[0-9]*%" valign="top">//' \
			-e 's/<\/td>/ \& /' \
			-e 's/<\/table>//' \
			-e 's/&gt;/{\\tt >}/g' \
			-e 's/\(<sup>\)\([0-9][0-9]*\)\(<\/sup>\)/$^{\2}$/' \
			-e "s/½/\$1\\\\over 2\$/g" \
			-e "s/¾/\$3\\\\over 4\$/g" \
			-e "s/\"/''/g" \
			-e "s/<i>/{\\\\sl /g" \
			-e "s/<\\/i>/\\\\\\/}/g" \
			-e 's/( *$/(\\relax/' \
			-e 's/zerstörte ($\\kappa \\alpha \\tau \\varepsilon \\sigma /&$"-$/' \
			-e 's/Südosten/Südos"-ten/' \
			-e 's/Ausläufer/Aus"-läu"-fer/' \
			-e 's/Nichtbürgern/Nicht"-bür"-gern/' \
			-e 's/aeipurenaie/aeipu-renaie/' \
			-e 's/annähernd/annä"-hernd/' \
			-e 's/Westküste/West"-küste/' \
			-e 's/Gesänge/Ge"-sänge/' \
			-e 's/Volkskomödie/Volksko"-mödie/' \
			-e 's/drückendsten/drück"-endsten/' \
			-e 's/Beschränkung/Beschrän"-kung/' \
			-e 's/Geschäftsführer/Geschäfts"-füh"-rer/' \
			-e 's/Vollbürgerrecht/Voll"-bür"-ger"-recht/' \
			-e 's/Vermögensbußen/Ver"-mö"-gens"-bußen/' \
			-e 's/unabhängigen/un"-ab"-hän"-gi"-gen/' \
			-e 's/vorwärts/vor"-wärts/' \
			-e 's/Bänkelsänger/Bän"-kel"-sän"-ger/' \
			-e 's/Verhältnissen/Ver"-hält"nis"-sen/' \
			-e 's/Amtsführung/Amts"-füh"-rung/' \
			-e 's/zunächst/zu"-nächst/' \
			-e 's/Kleinmütigen/Klein"-mü"-ti"-gen/' \
			-e 's/wünschen/wün"-schen/' \
			-e 's/hauptsächlich/haupt"-säch"-lich/' \
			-e 's/Gleichgültigkeit/Gleich"-gül"-tig"-keit/' \
			-e 's/persönlich/per"-sön"-lich/' \
			-e 's/beschränkt/be"-schrän"-kt/' \
			-e 's/übermütig/über"-mü"-tig/' \
			-e 's/würden/wür"-den/' \
			-e 's/oligarchischen/oli"-gar"-chi"-schen/' \
			-e 's/Einnahme-/Ein"-nahme-/' \
			-e 's/Gemütern/Ge"-mü"-tern/' \
			-e 's/kaufmännischen/kauf"-män"-ni"-schen/' \
			-e 's/Kriegführung/Krieg"-füh"-rung/' \
			-e 's/Hundertvier/Hun"-dert"-vier/' \
			-e 's/während/wäh"-rend/' \
			-e 's/ernähren/er"-näh"-ren/' \
			-e 's/Geldhändlers/Geld"-händ"-lers/' \
			-e 's/Kappadokien/Kappa"-do"-kien/' \
			-e 's/Verhängnis/Ver"-häng"-nis/' \
			-e 's/Störung/Stö"-rung/' \
			-e 's/hellenisch/hel"-le"-nisch/' \
			-e 's/Unterdrückung/Unter"-drück"-ung/' \
			-e 's/Frühjahr/Früh"-jahr/' \
			-e 's/nächster/näch"-ster/' \
			-e 's/Stämmen/Stäm"-men/' \
			-e 's/allmählich/all"-mäh"-lich/' \
			-e 's/Überläufer/Über"-läu"-fer/' \
			-e 's/geübt/ge"-übt/' \
			-e 's/Plänen/Plä"-nen/' \
			-e 's/höchsten/höch"-sten/' \
			-e 's/Traians/Tra"-ians/' \
			-e 's/Abhängig/Ab"-hän"-gig/' \
			-e 's/Möglichkeit/Mög"-lich"-keit/' \
			-e 's/gewürdigt/ge"-wür"-digt/' \
			-e 's/vollständig/voll"-stän"-dig/' \
			-e 's/Wüstenstämme/Wüsten"-stäm"-me/' \
			-e 's/sardinischen/sar"-di"-ni"-schen/' \
			| sed -e 's/^ *$//' -e "s/$/ÿ/" \
			| tr -d '\012' | sed \
			-e 's/ *ÿ\\fnote{/\\relaxÿ$\\,$\\fnote{/g' \
			-e 's/ *ÿ{\\sl )/\\relaxÿ{\\sl )/g' \
			-e 's/ *ÿ{\\sl \./\\relaxÿ{\\sl ./g' \
			-e 's/ÿ\\hfill\\break/\\hfill\\break/g' \
			-e 's/\\hfill\\break \\hfill\\break/\\hfill\\break/g' \
			| tr 'ÿ' '\012')

		echo "$TEX" >> $OUTFILE
		echo "$FOOTER" >> $OUTFILE
	done

	# Military map of Italy after book 3
	if test $BUCH == "Buch_3" ; then
		echo '\centerline{\cmrkf Anhang: Militärkarte von Italien}' >> $OUTFILE
		echo '\vskip 0.4in' >> $OUTFILE
		echo '\noindent\epsfbox{karte00.ps}\par\vfill\eject' >> $OUTFILE
	fi

	# Various maps after book 8
	if test $BUCH == "Buch_8" -a $CHARTS == yes ; then
		echo '\centerline{\cmrkf Karte I.: Das Römische Reich und die Nachbarstaaten im I.-III. Jahrh.}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte01.ps}}\par\vfill\eject' >> $OUTFILE

		echo '\centerline{\cmrkf Karte II.: Hispania und Africa.}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte02.ps}}\par\vfill\eject' >> $OUTFILE

		echo '\centerline{\cmrkf Karte III.: Gallia}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte03.ps}}\par\vfill\eject' >> $OUTFILE

		echo '\centerline{\cmrkf Karte IV.: Britannia}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte04.ps}}\par\vfill\eject' >> $OUTFILE

		echo '\centerline{\cmrkf Karte V.: Germania}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte05.ps}}\par\vfill\eject' >> $OUTFILE

		echo '\centerline{\cmrkf Karte VI.: Donau- und Pontus-Provinzen}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte06.ps}}\par\vfill\eject' >> $OUTFILE

		echo '\centerline{\cmrkf Karte VII.: Griechenland}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte07.ps}}\par\vfill\eject' >> $OUTFILE

		echo '\centerline{\cmrkf Karte VIII.: Klein-Asien}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte08.ps}}\par\vfill\eject' >> $OUTFILE

		echo '\centerline{\cmrkf Karte IX.: Syrien und Mesopotamien}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte09.ps}}\par\vfill\eject' >> $OUTFILE

		echo '\centerline{\cmrkf Karte X.: Ägypten und Nabateisches Reich}' >> $OUTFILE
		echo '\medskip' >> $OUTFILE
		echo '\centerline{\epsfbox{karte10.ps}}\par\vfill\eject' >> $OUTFILE
	fi

	# footer for a book
	echo '\end' >> $OUTFILE

	# Do typesetting with TeX
	if $TEXPROG $OUTFILE ; then
		/usr/bin/dvips $DVIFILE
	fi

	# Produce PDF file as well if enabled
	if test $PDF == yes && test -r "$PSFILE" ; then
		/usr/bin/ps2pdf14 $PSFILE
	fi
done
exit 0