Przedsiębiorstwo Michał Stańczyk, prace z zakresu przetwarzania języka naturalnego i ekstrakcji informacji

Michal Stanczyk (Alicante, Hiszpania), NIF: Y4099525L
kontakt: michal.jedrzej.stanczyk (at) gmail.com

(przedsiębiorstwo zakończyło działalność dn. 1 czerwca 2024)

Wykonane narzędzia NLP

autorski język zapytań do parsera języka angielskiego, fido voice 2013 (patent US US9152623B2)
autorski mini-język wzorców do przetwarzania nieustrukturyzowanego tekstu z implementacją Java, fido intelligence 2015
rozwijanie modułu detekcji języka ogłoszeń o pracę (j. niemiecki, niderlandzki, angielski, francuski, portugalski, hiszpański), jobfeed 2017
moduł tokenizacji i segmentacji tekstów (j.polski), sentione 2018
moduł detekcji emaili, url, kwot i walut, telefonów, nr pesel, zakresów wieku, zakresów cen (j.polski), senticonverse 2018
moduł anonimizacji tekstów czatów w j.polskim (nazwiska, telefony, numery kart, adresy), senticonverse 2018
moduł zamiany płci gramatycznej tekstów czatu (j.polski), senticonverse 2018
moduł klasyfikacji adresów url pod kątem prawdopodobieństwa posiadania UGC (j.polski, angielski, czeski, niemiecki, włoski, hiszpański), senticonverse 2018
moduł detekcji treści reklamowych, promocyjnych, konkursów i autopromocji strony/kanału (j.polski), affinity research 2019
język do budowy wzorców dopasowań wypowiedzi w tokenizowanym tekście (information extraction; agnostyczny językowo), affinity research 2019
regułowy detektor marek i produktów (NER) w j.polskim, affinity research 2020
programowalny komponent wspomagania budowy korpusów, SentiOne SA 2021
komponent optymalizacji/korekty wyników dla technik uczenia maszynowego, SentiOne SA 2022
heurystyczny model klasyfikacji języka dla tekstów potocznych, SentiOne SA 2022

Wykonane narzędzia IE

moduł regułowej detekcji aspektów dla restauracji (j.angielski), fido intelligence 2013
moduł regułowej detekcji aspektów dla hoteli (j.angielski i j.polski) działający offline na bardzo dużych nieoznaczonych korpusach (amazon AWS), fido labs 2014
moduł regułowej detekcji porad i sentymentu (restauracje, parki, muzea; j.angielski) działający w czasie rzeczywistym (amazon AWS), fido labs 2014
moduł regułowej detekcji opinii i uwag o hotelach (j.angielski) działający offline na bardzo dużych korpusach (amazon AWS), fido labs 2015
rozwijanie modułu detekcji języka ogłoszeń o pracę (j. niemiecki, niderlandzki, angielski, francuski, portugalski, hiszpański) działający w cyklach dobowych, jobfeed 2017
moduł tokenizacji i segmentacji tekstów (j.polski), sentione 2018
moduł regułowej detekcji aspektów produktów kosmetycznych w j.polskim o wysokiej precyzji celem powiększenia korpusu uczącego dla systemu ML, sentione 2018
moduł detekcji emaili, url, kwot i walut, telefonów, nr pesel, zakresów wieku, zakresów cen (j.polski), senticonverse 2018
moduł anonimizacji tekstów czatów w j.polskim (nazwiska, telefony, numery kart, adresy), senticonverse 2018
moduł zamiany płci gramatycznej tekstów czatu (j.polski), senticonverse 2018
moduł klasyfikacji adresów url pod kątem prawdopodobieństwa posiadania UGC (j.polski, angielski, czeski, niemiecki, włoski, hiszpański), senticonverse 2018
moduł detekcji treści reklamowych, promocyjnych, konkursów i autopromocji strony/kanału (j.polski) celem filtrowania nieoznaczonych korpusów, affinity research 2019

Anotowanie korpusów

2014 anotowanie próbek tekstów zawierających recenzje restauracji pod kątem aspektów i cech (język angielski oraz polski), następnie podobnie dla recenzji hoteli. Czas: miesiąc, rola: oznaczanie oraz konsultowanie w wypadku niezgodności z pozostałymi anotatorami.
2015 anotowanie próbek tekstów z platform mikroblogingowych oraz stron rekomendacyjnych pod kątem aspektów i sentymentu (opinie o hotelach, j.angielski). Czas: dwa tygodnie, rola: oznaczanie oraz konsultowanie w wypadku niezgodności z pozostałymi anotatorami.
2018 anotowanie próbek tekstów ze źródeł mieszanych (opinie, mikroblogi, blogi, komentarze; język polski) pod kątem płci gramatycznej celem zbudowania narzędzia do regułowej detekcji oraz zamiany tychże. Czas: tydzień, rola: oznaczający.
2019 anotowanie treści kryzysowych dla marek/producentów (źródła mieszane, język polski). Czas: dwa miesiące, rola: konsultacje przy ustalaniu i modyfikowaniu kategoryzacji i zakresu oznaczeń, współtworzenie wytycznych dla językoznawców; szkolenie językoznawców w wykorzystywaniu języka wzorców dla wyszukiwania nowych potencjalnych kryzysów. Projekt przerodził się w regułową detekcję ustalonych wcześniej treści kryzysowych w autorskim języku (z webowym środowiskiem do testowania rozwijania); rola: zainicjowanie skryptów, szkolenie, konsultacja i weryfikacja.

Uczestnictwo w projektach NLP realizowanych przez uczelnie we współpracy z firmami

Projekt grantowy PAKO, 2014. rola: konsultant, cel: regułowa analiza sentymentu w języku polskim, firma fido intelligence (ogłoszono upadłość).
Projekt grantowy Senti Cognitive Services, 2018-2020. rola: projektowanie, implementacja i używanie autorskich modułów przetwarzania języka naturalnego do budowy korpusów jak i jako samodzielne narzędzia, cel: inteligentne zbieranie treści z mediów społecznościowych, forów i czatów, detekcja nastrojów/zagrożeń marki, aspektów produktów, tematyki tekstów, j.polski. Osoby kontaktowe: Natalia Smolska (n.smolska@senti1.com)
Projekt grantowy Senti Deep Fusion, 2022-2023. rola: j.w.