Методы цифрового анализа текстовых сообщений для идентификации спама
Вид материала | Документы |
- Использование методов категоризации текстовых привязок и анализа графов для идентификации, 76.45kb.
- «Явление спама и борьба с ним», 264.65kb.
- Задачи и их решение Стандартные и нестандартные задачи Задачи «на работу» Задачи «на, 157.13kb.
- «Тайный смысл даты рождения: Нумерология и будущее.», 527.12kb.
- Федеральный закон, 98.81kb.
- Кий отчет, который содержит количественный и качественный анализ сообщений, попавших, 4199.36kb.
- «Система идентификации личности по отпечаткам пальцев. Подсистема анализа изображения», 1781kb.
- И. А. Терейковский Применение семантического анализа содержимого электронных писем, 279.31kb.
- Российская федерация федеральная служба по интеллектуальной собственности, патентам, 19.54kb.
- 1. А. Т. Фоменко. Методы статистического анализа нарративных текстов и приложения, 141.9kb.
Подход к исследованию математических моделей функциональных подсистем сложных биосистем
(на основе определения их базовых параметров)
Грунина Е.А1)., Кирьянов К.Г2).
1)Нижегородская медицинская академия, 2)Нижегородский госуниверситет.
Математическая модель (ММ) функциональной подсистемы сложной системы с её общепринятыми сопровождающими понятиями – это модель т.н. «Чёрного Ящика» в удобной для нас форме не автономного (нестационрного, открытого) дискретного по времени t Î [0,1,2,…,М–1] и уровню q Î [0,1,2,…,Q–1] автомата Хаффмена-Глушкова (подробнее см., например, в [1,2]):
xt+1 = g(xt,ut;p) – функция динамики, «переходов», xt,xt+1X(n); (1)
x0 = xн –начальное состояние, x0X(n);
yt = l(xt,ut;p) – функция наблюдения, «выходов», ytY(r); (2)
ut – «вход», utU(k);
yt – «выход», ytY(r);
p – «вектор свободных, рабочих параметров ММ», pP(s);
{q,n} – «вектор базовых параметров (БП) ММ»;
nu, ny – размерности подсостояний xt ,связанных с функциями g(..) и l(..);
k∙nur∙ny = n – «число скалярных компонет вектора состояния подсистемы».
Конкретизация целей исследования. Апробация теоретического подхода для возможности экспериментальной оценки влияния функционирования большой сложной системы произвольной природы (биологической, технической, социальной т.д., не имеющей как правило, строгого математического описания её работы), на менее сложные подсистемы (с целью возможного создания адекватных математических моделей (ММ) неавтономных подсистем (автономные подсистемы без связи с «окружением» рассмотрены в [1])) нового способа распознавания (оценки величины) размерности векторного изменяющегося во времени tÎ [0,1,2,…,М] и непосредственно не наблюдаемого состояния xt изучаемой (идентифицируемой) подсистемы сложной системы по отклонению оптимального БП («nopt») от значения n = 1 векторного процесса yt неавтономной подсистемы в предположении о виде функциии наблюдения yt=l(xt,ut;p) xt.
Результаы экспериментов по идентификации БП реальных «выходных»(yt) и модельных «входных» (ut) наборов данных кроветворной подсистемы сложной системы организма человка сведены в Таблицу. Для сокращения в ней показаны лишь некоторые характерные комбинации компонент полного экспериментально полученного вектора yt (yt1, yt2, yt3, yt4, yt5)Т = (Gt, Ert, Lt, Cpt, Rt)Т, где Gt – гемоглобин, Ert – эритроциты, Lt – лейкоциты, Cpt – цветовой показатель, Rt – РОЭ, а связь подсистемы с системой, как ранее в автономной ММ [1] либо не учитывалась совсем (столбец 1 Таблицы), либо учитывалась, как в неавтономной ММ [2] уравнениями (1) и (2) при yt = l(xt,ut;p) xt. При этом, в качестве вектора связи ut подсистемы с самой системой (с «окружением» подсистемы) через уравнение (1) рекомендуется брать либо реальные одномоментные процессы (со входов и выходов) других подсистем, «подозреваемых в связях» с изучаемой подсистемой, либо, при отсуствии априорной информации о возможности таких связей, гипотетические модельные процессы, например, в виде постоянных уровней (столбец 2 Таблицы) и меняющихся воздействий (столбец 3). Область поиска БП: qmin=3, qmax=50; t[0,1,2,…,M=23-1]; q, nu, ny - оптимальные БП по минимуму суммы условных энтропий Eu, Ey входа и выхода подсистемы [2].
| 1 | 2 | 3 |
№ | Связь изучамой подсистемы с «окружением» (самой сиcтемой) | ||
| Отсутствует, [1] | есть: ut =const [2] | есть: ut const [2] |
1 | k = 0, автономная ММ r =1, yt=Gt , qy=5, ny=4, Ey=9.287 | k = 1, ut 0 , r = 1, yt=Gt , q=5,nu=0,ny=4, Eu=0.00, Ey=9.287 | k =1, ut =sin2(t32) r =1, yt=Gt , q=13, nu=1, ny=1,Eu=3.70,Ey=3.700 |
2 | k = 0, автономная ММ r=2, yt =(Gt ,Lt)T, qy=4, ny=2, Ey=8.000 | k = 1, ut 0 r = 2, yt =(Gt ,Lt)T, q=4,nu=0, ny=2, Eu=0.00, Ey=8.00 | k =1, ut =sin2(t32) r =2, yt =(Gt ,Lt)T, q=4, nu=0, ny=2 Eu=0.00, Ey=8.00 |
3 | k = 0, автономная ММ r=3, yt =(Gt ,Lt Ert)T qy=4, ny=2, Ey=12.000 | k = 1, ut 0 r=3, yt =(Gt ,Lt Ert)T q=4,nu=0,ny=2,Eu=0.00,Ey=12.00 | k = 1, ut =sin2(t32) r = 3, yt =(Gt ,Lt Ert)T q=4,nu=0, ny=2,Eu=0.00, Ey=12.00 |
4 | k = 0, автономная ММ r=3, yt =(Gt ,Lt Rt)T qy=8, ny=1, Ey=9.000 | k = 1, ut 0 r = 3, yt =(Gt ,Lt Rt)T q=8, nu=0, ny=1,Eu=0.00, Ey=9.00 | k = 1, ut =sin2(t32) r = 3, yt =(Gt ,Lt Rt)T q=4, nu=1, ny=1,Eu=2.00,Ey=6.00 |
5 | k=0, автономная ММ r=4, yt =(Eri ,Lt ,Cpt ,Rt)T qy=4, ny=2, Ey=16.000 | k = 1, ut 0 r = 4, yt =(Eri ,Lt ,Cpt ,Rt)T q=3,nu=0,ny=2,Eu=0.00,Ey=12.67 | k = 1, ut =sin2(t32) r = 4, yt =(Eri ,Lt ,Cpt ,Rt)T q=3,nu=1,ny=1,Eu=1.584,Ey=6.33 |
6 | k = 0, автономная ММ r=5, yt =(Gt ,Eri ,Lt ,Cpt ,Rt )T qy=6, ny=1,Ey=12.924 | k = 1, ut 0 r = 5, yt =(Gt ,Eri ,Lt ,Cpt ,Rt )T q=6,nu=0,ny=1, Eu=0.00,Ey=12.92 | k = 1, ut =sin2(t32) r = 5, yt =(Gt ,Eri ,Lt ,Cpt ,Rt )T q=3,nu=1,ny=1,Eu=1.584,Ey=7.92 |
Выводы: 1) Предложена модификация способа, изложенного в [1], экспериментальнго определения достаточного числа и номеров наблюдаемых отведений (выходов) на случай открытой динамической подсистемы сложной системы [2] по значениям её базовых параметров nu = 0 и ny =1.
2) Минимальным полным набором проанализированных пяти компонент данных анализа крови является набор только из трёх компонент (Gt ,Lt Rt)T.
- Кирьянов К.Г., Грунина Е.А. Об определении достаточного числа отведений с изучаемой динамической системы. ННГУ, Н.Новгород: ТАЛАМ, 2005,с.__(nn.ru/rus/sci/books/05/index.phpl).
- Кирьянов К.Г, Горбунов А.А.,Туренко Д.Л. Структурная идентификация объектов на основе определения базовых параметров входных и выходных процессов. статья в настоящем сборнике.