Dlq sozdaniq klassifikatora my sledowali sistematicheskomu podhodu, kotoryj wklüchal neskol'ko klüchewyh shagow. Snachala my zagruzili nabor dannyh, kotoryj obychno sostoit iz nabora soobschenij, pomechennyh kak spam ili nezhelatel'naq pochta. Jetot nabor dannyh sluzhit osnowoj dlq obucheniq i ocenki nashego klassifikatora. Dalee my wypolnili predwaritel'nuü obrabotku dannyh i izwlechenie priznakow. Jeto wklüchalo preobrazowanie neobrabotannyh textowyh soobschenij w chislowye predstawleniq funkcij, kotorye mogli obrabatywat' algoritmy mashinnogo obucheniq.