Każdy z nas cechuje się własną indywidualnością językową, co oznacza, że każdy na swój sposób wypowiada się czy pisze – chodzi tu zarówno o dobór słownictwa, jego zasób, pozycjonowanie wyrazów w zdaniach, jak i o egzekwowanie bądź nie zasad interpunkcji. Wychodząc z tego założenia, dałoby się ustalić autora niepodpisanego tekstu albo takiego oznaczonego tylko inicjałami. Oczywiście dysponując wcześniej próbkami prac danego człowieka.
Fizycy z krakowskiego Instytutu Fizyki Jądrowej PAN opracowali najskuteczniejszą jak dotychczas metodę ustalania autorstwa, a przy okazji udowodnili, że wystarczy zaledwie kilkanaście wyrazów, żeby powiązać tekst z autorem.
Stylometria to nauka zajmująca się opisywaniem stylu języka przy pomocy narzędzi statystycznych. Najczęściej bada się częstotliwość występowania poszczególnych wyrazów, ignorowana natomiast zupełnie jest zazwyczaj interpunkcja. A to właśnie na niej zasadza się sukces krakowskich naukowców. I na wykorzystaniu grafów.
My zaproponowaliśmy, żeby charakterystycznych cech stylu szukać w sieciowej reprezentacji tekstu, za pomocą grafów. Graf to zbiór punktów, czyli wierzchołków grafu, połączonych liniami, czyli krawędziami grafu. W najprostszym przypadku – w tak zwanej sieci nieważonej – wierzchołki odpowiadają poszczególnym wyrazom i są połączone krawędziami wtedy i tylko wtedy, gdy w tekście dane dwa wyrazy przynajmniej raz wystąpiły obok siebie. Na przykład dla zdania ‘Ala ma kota’ graf miałby trzy wierzchołki, po jednym dla każdego wyrazu, ale krawędzie byłyby tylko dwie, jedna między ‘Ala’ a ‘ma’, druga między ‘ma’ a ‘kota’, wyjaśnił Tomasz Stanisz, doktorant IFJ PAN.
Zaproponowana metoda stylometryczna opiera się na wykorzystaniu dokładniejszej wersji grafów, tzw. grafów ważonych, w których brana jest pod uwagę liczba wystąpień połączeń między konkretnymi wyrazami. Nie bez znaczenia okazała się również interpunkcja. Najwyższą skuteczność miało zapewnić traktowanie znaków interpunkcyjnych jako osobnych wyrazów i w takiej postaci zamieszczanie ich na grafach.
Naukowcy przetestowali swoje narzędzia na 96 książkach. Wzięli pod uwagę po sześć tytułów ośmiu anglojęzycznych pisarzy i ośmiu naszych rodzimych. Okazało się, że angielskich autorów udawało się im identyfikować z 90% skutecznością na podstawie próbki tekstu liczącej 10–12 wyrazów. W przypadku polskich autorów wygląda to jeszcze lepiej. 95% skuteczność zapewnia przeanalizowanie próbki liczącej zaledwie 5–6 wyrazów.
W porównaniu z językiem angielskim język polski wydaje się dawać większe możliwości ujawniania się stylu autora. Sądzimy, że podobną cechą charakteryzują się również pozostałe języki słowiańskie. Angielski jest bowiem językiem pozycyjnym, co oznacza, że istotna jest w nim kolejność wyrazów w zdaniu. Taki język pozostawia mniej miejsca na indywidualny styl wypowiedzi niż języki słowiańskie, w których o roli słowa czy wyrazu w zdaniu decyduje fleksja, czyli odmiana. Dopuszcza ona bowiem większą swobodę organizacji kolejności wyrazów w zdaniu przy niezmienionym jego znaczeniu, podsumował prof. dr hab. Stanisław Drożdż, kierownik grupy badawczej z IFJ PAN.
źródło: https://press.ifj.edu.pl/news/2019/04/11/
Przygotował Oskar Grzelak