Saif Mohammad wraz ze swoim zespołem badawczym z National Research Council Canada zastosowali analizę wydźwięku (często błędnie nazywaną analizą sentymentu), aby odkryć uczucia zakopane wewnątrz naszych e-maili. „Jest to skuteczny sposób generowania danych na temat emocjonalnej zawartości wewnątrz dużej ilości tekstu”, mówi Mohammad. „Istnieje wiele przeprowadzonych badań na podstawie pozytywnych i negatywnych emocji, ale przede wszystkim, poprzez te wszystkie dane możemy zrozumieć to, czego możemy się dowiedzieć poprzez te emocje”.
Zespół stworzył ogromną bazę danych wspomnianych „wydźwięków” z wykorzystaniem crowdsourcingu poprzez zatrudnienie ludzi do obsługi Amazon Mechanical Turk. Zadaniem ich było dopasowanie słów kluczowych do emocji. Przykładowo słowo „lody” parowano ze słowem „radość” lub „ogrodnictwo/prace w ogródku” z poczuciem „spokoju”. Porównując słowa z bazy danych wraz z treścią 32045 e-maili, które zostały ujawnione przy okazji skandalu finansowego w Enronie, okazało się możliwe określenie emocjonalnego tonu oraz zróżnicowanie płci nadawcy.
Rezultaty wykazały znaczącą różnicę między płciami. Kobiety miały tendencję do korzystania ze słów związanych z radością lub smutkiem, podczas gdy mężczyźni preferowali te odnoszące się do strachu i zaufania. Obie płcie dobierały bardziej radosne słowa, kiedy odbiorcą była kobieta. Mężczyźni dodatkowo pisząc do kobiet, stosowali słownictwo związane z wyczekiwaniem, jak „przygotowywać” czy „nadzieja”.
Zespół skupił się również na odkryciu cech osobowościowych na podstawie emocjonalnej zawartości emaili. „Jeśli bywasz zdenerwowany od czasu do czasu, to w porządku”, mówi Mohammad. „Jednak, jeśli złość permanentnie się pojawia, to już jest część twojej osobowości”. Uzbrojeni w zróżnicowaną bazę danych 585 emocji oraz powiązanych z nimi słowami, zbudowaną w oparciu o tweety oraz hashtagi z popularnego serwisu społecznościowego, zespół nauczył algorytm, aby ten mógł rozpoznawać typy osobowości na podstawie krótkiego, napisanego tekstu.
Tysiące przykładów, takich krótkich esejów naszej świadomości zostały ocenione przez psychologów, aby odzwierciedlały jeden element z tzw. Wielkiej Piątki, czyli pięcioczynnikowego modelu osobowości. Czynniki składające się na ten model opracowany przez Paula Costy oraz Roberta McCrae'a to:
- neurotyczność (vs stałość emocjonalna) – odzwierciedlającą przystosowanie emocjonalne versus emocjonalne niezrównoważenie; skłonność do przeżywania negatywnych emocji (strachu, zmieszania, gniewu, poczucia winy) oraz podatność na stres psychologiczny
- ekstrawersję (vs introwersja) – która odnosi się do jakości i ilości interakcji społecznych oraz poziomu aktywności, energii, a także zdolności do doświadczania pozytywnych emocji
- otwartość na doświadczenie – wskazującą na tendencję do pozytywnego wartościowania doświadczeń życiowych, tolerancję na nowość i ciekawość poznawczą
- ugodowość (vs antagonizm) – opisującą nastawienie do innych ludzi (pozytywne versus negatywne) przejawiające się w altruizmie versus antagonizmie
- sumienność (vs nieukierunkowanie) – która oddaje stopień zorganizowania, wytrwałości i motywacji jednostki w działaniach zorientowanych na cel
Zostały one wykorzystane również do wytrenowania wykorzystanego algorytmu w celu dopasowywania połączeń emocji do odpowiedniego wzorca. Podczas testów z ujawnionymi emailami okazało się, że wyniki w 99% były zgodne z oceną psychologów.
Zespół naukowców uważa, że możliwości przewidywania cech osobowości oraz rodzaju płci mogą pomóc rozpoznawać oznaki depresji, a także pomóc sądom w analizie popełnionego lub planowanego przestępstwa. Możliwości wynikające z tego potencjału są znacznie większe. Mohammad dodaje, że „jeśli chcesz dowiedzieć się co ludzie myślą na temat nowego modelu iPhone, to właśnie głęboka emocjonalna analiza tekstów pochodzących z mediów społecznościowych może zapewnić bardzo bogata wiedzę”.
Oczywiście zanim efekty badań będą rozpowszechnione na szeroką skalę, będą prowadzone dalsze prace w kierunku udoskonalenia procesu przewidywania. „Ogólnie rzecz biorcą to bardzo imponujące i ciekawe badania”, mówi Mike Thelwall z University of Wolverhampton w Wielkiej Brytanii. Ostrzega on również przed faktem, że dane z testowanych emaili należą do bardzo specyficznej grupy osób, zatem rezultaty nie koniecznie mogą mieć globalne odzwierciedlenie. Nikt nie porusza jednak kwestii dotyczących etyki i zgody na korzystanie z zawartości wysyłanych i otrzymywanych wiadomości drogą elektroniczną.
Słowniczek
Crowdsourcing – proces, w ramach którego organizacja (firma, instytucja publiczna, organizacja non-profit) przeprowadza outsourcing zadań wykonywanych tradycyjnie przez pracowników do niezidentyfikowanej, zwykle bardzo szerokiej grupy ludzi w formie open call (ang. crowd – tłum, ang. sourcing – czerpanie źródeł). Crowdsourcing umożliwia wszystkim użytkownikom Internetu partycypację w zadaniach, które kiedyś były zarezerwowane dla wąskiej grupy specjalistów. Termin „crowdsourcing“ został po raz pierwszy zdefiniowany i użyty przez dziennikarza magazynu Wired Jeffa Howe’a w artykule Rise of Crowdsoucing z 2006 r. (Wikipedia)
Amazon Mechanical Turk – crowdsourcing prostych zadań, których obecnie nie można wykonać automatycznie (np. poetykietowanie dużego zbioru obrazków lub zweryfikowanie tłumaczenia). Jest to jedna z usług internetowych udostępnianych przez firmę Amazon. Zleceniodawca (ang. requester) może umieszczać zadania – każde z nich to tzw. HIT (z ang. Human Intelligence Task). Możliwe jest przeglądanie istniejących zadań i ich wykonywanie za kwotę oferowaną przez zleceniodawcę. (Wikipedia)