Find en Replace

Zelf heb ik deze veelvuldig gebruikt, erg handig als je een groot aantal pagina's hebt waarvoor hetzelfde stuk tekst moet vervangen voor iets anders (of verwijderen). Dit kan op 2 manieren. 

Manier 1

De 1ste manier werkt met een lijst match cases wat op de volgende manier wordt geformateerd:

--findReplace "find1:replace1, find2:replace2"

De actie findReplace krijgt als parameter een lijst mee waarvan de elementen zijn gescheiden door een komma. Het argument voor de dubbele punt geeft aan waar op gezocht wordt, het argument na de dubbele punt geeft aan wat daarvoor in de plaats moet komen.

Deze manier van Find & Replace lijkt in de meeste gevallen prima te werken, maar in mijn geval was het niet goed genoeg omdat het lijkt dat je hiermee geen dubbele punten kan verwijderen, aangezien dit onderdeel is van de syntax van de actie zelf. Voor dit soort gevallen is een andere manier van Find & Replace mogelijk.

Manier 2

De 2de manier werkt met regular expressions en wordt als volgt geformateerd:

--findReplaceRegex "(a )(test)(.*):\$1\$3#\$2#"

De actie is anders, namelijk findReplaceRegex. De actie is hetzelfde als findReplace afgezien van de parameter die er in gaat. Het argument voor de dubbele punt is de regex, het argument na de dubbele punt is hetgeen wat voor hetgene beschreven in de regex in de plaats moet komen. 

Praktijk voorbeeld

Ik heb manier 2 een aantal keer gebruikt om de functie en attribute beschrijvingen (80% van de wiki) van quick link bars te voorzien. In een bestand genaamd 'qlb_findReplaceQuickLink.txt' staat het volgende script: 

-a modifyPage --space @space@ --title "@title@" --content "" --findReplaceRegex "(Quick).*?(links).*?(Function overview).*?(Attribute overview).*?(Constants overview).*?(Dimensions overview): " --noConvert
-a modifyPage --space @space@ --title "@title@" --content "" --content2 "<links>" --noConvert

"@space@" en ''@title@" worden later vervangen door een space en title. De eerste regel verwijderd alle bestaande quick link bars. Dit was een noodzakelijke actie omdat bij het kopiëren van de artikels naar MODS de quick link bars mee werden gekopieerd, maar dan zonder hyperlinks (dus als platte tekst). Deze moesten eerst worden verwijderd voordat de quick link bar met de juiste hyperlinks kon worden toegevoegd aan het artikel.  

De actie findReplaceRegex in deze regel bepaald dus wat er verwijderd moet worden en wat niet. Deze regex zoekt naar alles wat de strings tussen haken bevat en vervangt het met een lege string. De --noConvert is trouwens een hele belangrijke flag die je moet setten, dit zorgt ervoor dat de HTML in de content wordt gezien als HTML en niet als platte tekst. Als je dit weglaat krijg je een hoop HTML tags als platte tekst, en dat is waarschijnlijk niet de bedoeling. 

Dit script wordt in CMD dan als volgt aangeroepen:

confluence --action runFromPageList --space "QUAESTOR" --title "Functions" --children --file qlb_findReplaceQuickLink

De strings ingevuld bij --space en --title vervangen dus "@space@" en ''@title@" in qlb_findReplaceQuickLink.txt. De actie runFromPageList zorgt ervoor dat dit script voor alle childpages van het artikel waarop je het aanroept wordt uitgevoerd, in dit geval dus alles wat onder "Functions" staat.

Dit script is te gebruiken voor vergelijkbare acties, alleen de title, space en regex moeten veranderd worden. Gebruik deze gigantisch handige webtool als je, net als ik, geen regexheld bent! Dit genereerd een regex die een opgegeven string matched. Houd er wel rekening mee dat dit geen 100% waterdichte methode is, er zijn verschillende soorten regex en het kan anders uitpakken dan gewenst. Let in elk geval op de volgende dingen in de CLI:

  • Als je op Windows zit en je wilt bijvoorbeeld $1 gebruiken om een replacement te doen, NIET de $ escapen. Als je op Unix zit, WEL de $ escapen. Zie dit topic: Using string replacement with CLI
  • Whitespace karakter (\s+) lijkt niet te werken, spatie ( ) lijkt wel te werken.
  • De meeste leestekens moeten escaped worden. Bijvoorbeeld de < en > moeten escaped worden. Dit geld alleen voor het linkerlid van de findReplaceRegex, want het rechterlid wordt al als string geintepreteerd!
Gebruik deze tool om je regex te testen. Let er wel op dat in sommige gevallen bepaalde karakters al dan niet escaped moeten worden. 

Voorbeeld Regex

Omdat we allemaal weten dat, zelfs met een keihandige tool als degene hierboven, het een gedoe is om een specifieke regex te maken ga ik in dit onderdeel een aantal regex neerzetten die ik heb gebruikt, met uitleg, zodat iedereen die bezig gaat met de CLI en vergelijkbare taken moet uitvoeren zoals ik bij de Quaestor documentatie in elk geval op dat vlak tijd kan besparen. Ik zal alle regex zo proberen uit te leggen dat iemand met beperkte kennis van regex er mee uit de voeten zou moeten kunnen.

Waarschuwing: de regex hier zijn niet uitgebreid getest. Gebruik deze alleen voor het opstellen van eigen regex, en test altijd in een apart artikel!

Attribute match regex

(?!@title@)(((@)+([A-Z0-9]*[_]*)+([\s+]?[\n]?)+))

Dit matched strings beginnende met @ met alleen maar hoofdletters of cijfers, al dan niet eindigend met een spatie of newline. Dit is gebruikt voor het toevoegen van links aan attributes. Dit matched @EEN_ATTRIBUUT en @EEN_ANDERE_ATTRIBUUT enzovoorts,  maar bijvoorbeeld niet @een_attribuut of @een_ATTRIBUUT

De volledige actie zag er als volgt uit:

-a getPageSource --space "QUAESTOR" --title "Attributes" --file temp-page-source.txt
-a storePage --space "QUAESTOR" --title "Attributes" --file temp-page-source.txt --content "" --findReplaceRegex "(?!@title@)(((@)+([A-Z0-9]*[_]*)+([\s+]?[\n]?)+)):<a href=/display/QUAESTOR/$0>$0</a>" --noConvert

De match $0 wordt gebruikt om de links op te stellen. De artikels waarnaar gelinked moest worden hadden in dit geval dezelfde naam als hetgene wat ik wilde matchen. Houd dat in het achterhoofd als je deze regex wilt gebruiken voor een vergelijkbare taak. 

Probleem met deze aanpak

Tijdens het maken van deze regular expression en CLI script kwam een probleem naar voren, na het aanpassen van de links met het script veranderden de links automatisch als de pagina daarna weer werd aangepast. Een link /display/QUAESTOR/@LOCAL werd bijvoorbeeld veranderd in mce_host/display/QUAESTOR/@LOCAL. Het lijkt er op dat bij het opnieuw opslaan van de links de gegenereerde HTML van de links verkeerd wordt geintepreteerd. Een mogelijke oplossing was het toevoegen van http://mods.marin.nl/ aan de rest van de link, maar hierdoor werkte het script niet meer. Dit probleem staat in dit topic beschreven, alleen is er geen oplossing gevonden. Wel is hier gemakkelijk een hack voor te schrijven, want alleen de mce_host moet veranderd worden. Een modifyPage actie met --findReplace "mce_host:mods.marin.nl" werkt prima. 

Uitleg

Deze regex bestaat uit 4 delen:

  • (?!@title@) geeft aan dat de match niet de title van het artikel mag zijn. De attributen met dezelfde naam als het artikel hoeven namelijk niet naar hetzelfde artikel gelinked te worden.

  • (@)+ geeft aan dat de match moet beginnen met een @, de + geeft aan dat er minimaal 1 moet inzitten. Dit zorgt er dus voor dat alleen de strings beginnende met @ worden gematched
  • ([A-Z0-9]*[_]*)+ geeft aan dat de match een 1 karaktergroep bevat waarin hoofdletters, cijfers en underscores kunnen voorkomen. de + geeft aan dat er 1 of meer van deze karaktergroep in de match moet voorkomen.

    • [A-Z0-9]* geeft aan dat er 0 of meer hoofdletters of cijfers in een karaktergroep moet zitten.
    • [_]* geeft aan dat er minimaal 0 of meer underscores in een karaktergroep moet zitten.  
  • ([\s+]?[\n]?) geeft aan dat de match aan het einde een spatie en newline KAN bevatten, maar dat hoeft niet. 

Problemen en Bugs

Aangezien de CLI een systeem in aanbouw is is het niet uitgesloten dat het volledig bug vrij is. In dit onderdeel zet ik de bugs en problemen neer die ik ben tegengekomen met daarbij mogelijke workarounds.

  • Regex quantifiers

Er lijkt een probleem te zijn met het gebruik van quantifiers in regex, De quantifiers * + en ? werken allemaal prima, maar zodra je {n}, {n,} of {n,n} gaat gebruiken werkt het ineens niet meer. 

  • No labels