Michal Stanczyk (Alicante, Hiszpania), NIF: Y4099525L
kontakt: michal.jedrzej.stanczyk (at) gmail.com
Wykonane narzędzia NLP
- autorski język zapytań do parsera języka angielskiego, fido voice 2013 (patent US US9152623B2)
- autorski mini-język wzorców do przetwarzania nieustrukturyzowanego tekstu z implementacją Java, fido intelligence 2015
- rozwijanie modułu detekcji języka ogłoszeń o pracę (j. niemiecki, niderlandzki, angielski, francuski, portugalski, hiszpański), jobfeed 2017
- moduł tokenizacji i segmentacji tekstów (j.polski), sentione 2018
- moduł detekcji emaili, url, kwot i walut, telefonów, nr pesel, zakresów wieku, zakresów cen (j.polski), senticonverse 2018
- moduł anonimizacji tekstów czatów w j.polskim (nazwiska, telefony, numery kart, adresy), senticonverse 2018
- moduł zamiany płci gramatycznej tekstów czatu (j.polski), senticonverse 2018
- moduł klasyfikacji adresów url pod kątem prawdopodobieństwa posiadania UGC (j.polski, angielski, czeski, niemiecki, włoski, hiszpański), senticonverse 2018
- moduł detekcji treści reklamowych, promocyjnych, konkursów i autopromocji strony/kanału (j.polski), affinity research 2019
- język do budowy wzorców dopasowań wypowiedzi w tokenizowanym tekście (information extraction; agnostyczny językowo), affinity research 2019
- regułowy detektor marek i produktów (NER) w j.polskim, affinity research 2020
- programowalny komponent wspomagania budowy korpusów, SentiOne SA 2021
- komponent optymalizacji/korekty wyników dla technik uczenia maszynowego, SentiOne SA 2022
- heurystyczny model klasyfikacji języka dla tekstów potocznych, SentiOne SA 2022
Wykonane narzędzia IE
- moduł regułowej detekcji aspektów dla restauracji (j.angielski), fido intelligence 2013
- moduł regułowej detekcji aspektów dla hoteli (j.angielski i j.polski) działający offline na bardzo dużych nieoznaczonych korpusach (amazon AWS), fido labs 2014
- moduł regułowej detekcji porad i sentymentu (restauracje, parki, muzea; j.angielski) działający w czasie rzeczywistym (amazon AWS), fido labs 2014
- moduł regułowej detekcji opinii i uwag o hotelach (j.angielski) działający offline na bardzo dużych korpusach (amazon AWS), fido labs 2015
- rozwijanie modułu detekcji języka ogłoszeń o pracę (j. niemiecki, niderlandzki, angielski, francuski, portugalski, hiszpański) działający w cyklach dobowych, jobfeed 2017
- moduł tokenizacji i segmentacji tekstów (j.polski), sentione 2018
- moduł regułowej detekcji aspektów produktów kosmetycznych w j.polskim o wysokiej precyzji celem powiększenia korpusu uczącego dla systemu ML, sentione 2018
- moduł detekcji emaili, url, kwot i walut, telefonów, nr pesel, zakresów wieku, zakresów cen (j.polski), senticonverse 2018
- moduł anonimizacji tekstów czatów w j.polskim (nazwiska, telefony, numery kart, adresy), senticonverse 2018
- moduł zamiany płci gramatycznej tekstów czatu (j.polski), senticonverse 2018
- moduł klasyfikacji adresów url pod kątem prawdopodobieństwa posiadania UGC (j.polski, angielski, czeski, niemiecki, włoski, hiszpański), senticonverse 2018
- moduł detekcji treści reklamowych, promocyjnych, konkursów i autopromocji strony/kanału (j.polski) celem filtrowania nieoznaczonych korpusów, affinity research 2019
Anotowanie korpusów
- 2014 anotowanie próbek tekstów zawierających recenzje restauracji pod kątem aspektów i cech (język angielski oraz polski), następnie podobnie dla recenzji hoteli. Czas: miesiąc, rola: oznaczanie oraz konsultowanie w wypadku niezgodności z pozostałymi anotatorami.
- 2015 anotowanie próbek tekstów z platform mikroblogingowych oraz stron rekomendacyjnych pod kątem aspektów i sentymentu (opinie o hotelach, j.angielski). Czas: dwa tygodnie, rola: oznaczanie oraz konsultowanie w wypadku niezgodności z pozostałymi anotatorami.
- 2018 anotowanie próbek tekstów ze źródeł mieszanych (opinie, mikroblogi, blogi, komentarze; język polski) pod kątem płci gramatycznej celem zbudowania narzędzia do regułowej detekcji oraz zamiany tychże. Czas: tydzień, rola: oznaczający.
- 2019 anotowanie treści kryzysowych dla marek/producentów (źródła mieszane, język polski). Czas: dwa miesiące, rola: konsultacje przy ustalaniu i modyfikowaniu kategoryzacji i zakresu oznaczeń, współtworzenie wytycznych dla językoznawców; szkolenie językoznawców w wykorzystywaniu języka wzorców dla wyszukiwania nowych potencjalnych kryzysów. Projekt przerodził się w regułową detekcję ustalonych wcześniej treści kryzysowych w autorskim języku (z webowym środowiskiem do testowania rozwijania); rola: zainicjowanie skryptów, szkolenie, konsultacja i weryfikacja.
Uczestnictwo w projektach NLP realizowanych przez uczelnie we współpracy z firmami
- Projekt grantowy PAKO, 2014. rola: konsultant, cel: regułowa analiza sentymentu w języku polskim, firma fido intelligence (ogłoszono upadłość).
- Projekt grantowy Senti Cognitive Services, 2018-2020. rola: projektowanie, implementacja i używanie autorskich modułów przetwarzania języka naturalnego do budowy korpusów jak i jako samodzielne narzędzia, cel: inteligentne zbieranie treści z mediów społecznościowych, forów i czatów, detekcja nastrojów/zagrożeń marki, aspektów produktów, tematyki tekstów, j.polski. Osoby kontaktowe: Natalia Smolska (n.smolska@senti1.com)
- Projekt grantowy Senti Deep Fusion, 2022-2023. rola: j.w.