Pyramid 1 - Tools of the Trade: Wizards
Ok, wohl so halbwegs mittelmäßig geraten...
Jedenfalls würde ich sagen, dass man mit dieser Filter-Methode, die Du da vorgelegt hast, ziemlich weit kommen müsste, wenn man den Filter praktisch durch die eigene Ergebnis-Selektion "lernen" lässt, so dass die Suche mit jedem erfassten PDF automatisch besser weiß was wir finden wollen...
Eine Idee wäre es dafür eine Whitelist und eine Blacklist zu definieren: Alle Wörter, die grad manuell rausgestrichen wurden, kommen i.d. Blacklist, wir wissen schon, dass wir diese definitiv nicht suchen, z.B. sowas wie example:27 someone:24 should:24 another:22 around:21 ...
Alle sehr gut aussagekräftigen Treffer, die wir gefunden haben kommen in eine Whitelist - das erfordert natürlich ein wenig Fingerspitzengefühl und ist quasi 80%ig mit ein wenig über den Daumen peilen, aber es geht ja sehr schnell, dass zuzuordnen und die weiteren Resulte damit sollten ziemlich bald ein hohes Niveau erreichen...
Im Beispiel würde ich sagen: magical:38, spells:30, wizard:29, necromancer:19, undead:19 waren die stärksten Treffer von der Aussagekräftigkeit in Bezug auf den Inhalt des PDFs.
Deine Idee mit etwas längeren Wörtern zu arbeiten finde ich sehr gut, eine einfache aber äusserst effektive Methode den ganzen "sprachlichen Kleinkram" auszublenden ohne gleich mit kompletten Sprachwörterbüchern arbeiten zu müssen. Um ein paar wichtige kurze Wörter nicht aus dem Blick zu verlieren wäre es sinnvoll diese zu Whitelisten, dann sollte das auch wirklich gut passen. "Curse" z.B. hier o. "Magic"; Perk u. Quirk wären weitere Ideen...