Наивный байесовский классификатор для сигналов набора индикаторов. Рекомендательные системы: теорема Байеса и наивный байесовский классификатор Концепция вероятности понятным языком

«Есть три вида лжи: ложь,
наглая ложь и статистика».
Марк Твен

Статистика - это не заумные формулы и абстрактные выводы, это то, что имеет непосредственное отношение к реальной жизни и помогает принимать важные решения. Статистика вездесуща, начиная с вероятности выиграть в лотерею заканчивая прогнозной полицией. Хол Вариан, главный экономист компании Google, в интервью Нью-Йорк Таймс сказал, что в следующем десятилетии работа со статистическими данными станет the sexy job.

Если измерять ваши продвижения в футах, то соответствующую последовательность можно описать как 1 + ½ + ¼ + ⅛ … Сколько бы вы ни продвигались таким способом к стене (а вы будете делать это до бесконечности), совокупное расстояние, пройденное вами, не может превышать 2 метров, то есть вашего исходного расстояния от стены. С математической точки зрения, совокупное расстояние, пройденное вами, можно приравнять к 2 метрам, что весьма удобно в плане вычислений. Математик сказал бы, что сумма бесконечного ряда 1 метр+ ½ метра+ ¼ метра + ⅛ метра… сходится к 2 метрам, то есть именно то, что пытался объяснить преподаватель.

Теперь, исходя из собственного опыта вы можете утверждать, что благодаря интуиции математика и другие технические детали становятся гораздо понятнее.

В фильме 2002 года Minority Report Том Круз играет детектива, предотвращающего преступления. Его герой является сотрудником некоего бюро, которое использует определенную технологию для прогнозирования преступлений еще до того, как они будут совершены. И это уже не фантастика. В 2011 году в газете The New York Times вышла статья под заголовком: «Полиция прибывает на место до совершения преступления». В ней рассказывалось, что специальная компьютерная программа предсказала высокую вероятность совершения краж из автомобилей в этот день на подземной парковке, расположенной в деловом районе города Санта-Круз. Когда туда приехали детективы, они обнаружили двух женщин, слишком уж пристально всматривающихся в окна автомобилей. Одна из них уже неоднократно задерживалась за воровство, а у другой нашли запрещенные наркотики.

Система, использовавшаяся в Санта-Круз, была разработана двумя математиками, антропологом и криминалистом. Отдел полиции в Чикаго создал у себя целое подразделение аналитиков-прогнозистов. Частично его формирование объяснялось тем, что банды, терроризировавшие город, действовали по определенным шаблонам.

Корреляция измеряет степень связи между двумя явлениями. Например, существует корреляция между летними температурами и продажей мороженого. Когда повышается температура, растут объемы продажи мороженого. Две переменные положительно коррелированы, если изменение одной переменной вызывает изменение другой в том же направлении, то есть в направлении увеличения или уменьшения (например, взаимосвязь между ростом и весом человека). У более высоких людей больший вес (в среднем); низкорослые люди весят меньше. Корреляция отрицательна, если положительное изменение одной переменной обусловливает отрицательное изменение другой (например, связь между регулярным выполнением физических упражнений и весом человека).

Важным моментом в этом обсуждении является то, что корреляция не предполагает причинно-следственной связи: положительная или отрицательная корреляция между двумя переменными вовсе не обязательно означает, что изменения одной переменной вызывают изменения другой. Статистическая зависимость между A и B не доказывает, что A является причиной B. Вообще говоря, не исключено, что B - это причина A.

Допустим, согласно проводимому вами исследованию, регионы, которые тратят больше денег на школьное образование, демонстрируют более высокие темпы экономического роста, чем регионы, вкладывающие в школьное образование меньше денег. Наличие положительной и значимой зависимости между этими двумя переменными ничего нам не говорит о направлении этой зависимости. Инвестиции в программу школьного образования могут вызывать экономический рост. С другой стороны, регионы, демонстрирующие более высокие темпы экономического роста, могут себе позволить больше инвестировать в школьное образование; стало быть, сильная экономика может быть причиной увеличения расходов на образование.

Другой вариант: дополнительные траты на школьное образование могут стимулировать экономический рост, что позволяет вкладывать больше средств в образование, то есть причинно-следственные связи могут носить двусторонний характер. Следовательно, мы не должны использовать объясняющие переменные, зависящие от исхода, который мы пытаемся объяснить, - в противном случае результаты могут оказаться безнадежно запутанными.

Концепция вероятности понятным языком

В определенных случаях концепцию вероятности можно использовать для поимки мошенников. Фирма Caveon Test Security специализируется на так называемой экспертизе данных, позволяющей выявить некие закономерности, которые предполагают обман. Например, эта компания обратит внимание общественности на результаты экзаменов в том или ином учебном заведении или каком-либо другом месте их проведения, если обнаруженное количество идентичных неправильных ответов окажется крайне маловероятным (обычно речь идет о картине, которая складывается реже чем один раз на миллион).

При этом она руководствуется следующей математической логикой: когда большая группа учащихся правильно отвечает на какой-то вопрос, из этого нельзя сделать однозначный вывод. Здесь возможны два варианта: либо они дружно списали правильный ответ у кого-то из своих товарищей, либо все как один очень умные ребята. Но когда большая группа учащихся отвечает на какой-то вопрос неправильно, это настораживает: все не могут ответить одинаково неправильно - по крайней мере вероятность такого сценария чрезвычайно мала. Это говорит о том, что они списали неправильный ответ у кого-то из одноклассников.

Кроме того, Caveon Test Security выявляет экзамены, в ходе которых экзаменуемые отвечают на сложные вопросы значительно лучше, чем на простые (в таком случае предполагается, что ответы им были известны заранее), или количество исправлений неправильного ответа на правильный существенно превышает количество исправлений правильного ответа на неправильный (в таком случае предполагается, что после экзамена преподаватель или экзаменатор подменил листы с ответами).


Разумеется, нетрудно заметить ограничения, присущие использованию вероятностей. Достаточно большая группа экзаменуемых может абсолютно случайно дать одинаково неправильные ответы на какой-то вопрос; к тому же чем больше учебных заведений будет проверяться, тем выше вероятность натолкнуться на подобную картину. Однако никакая статистическая аномалия не опровергает принципиальную правильность предлагаемого подхода.

В книге «Голая статистика» автор постарался по возможности избегать употребления математических формул, уравнений и графиков. Статистика может быть действительно интересной и по большей части не так сложна, как кажется поначалу.

Фото обложки поста - .

P.S. Понравилось? Подписывайтесь на нашу рассылку. Раз в две недели мы будем присылать вам 10 лучших материалов из блога.

Статистика- наука, изучающая количественную сторону массовых социально- экономических явлений и процессов, в неразрывном единстве с их качественной стороной в конкретных условиях места и времени.

В естественных науках понятие «статистика» означает анализ массовых явлений, основанных на применении методов теории вероятности.

Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений.

Методологическими особенностями является изучение: массовости явлений, качественно однородных признаков того или иного явления в динамике.

Статистика включает ряд разделов, среди которых: общая теория статистики, экономическая статистика, отраслевые статистики- промышленная, сельского хозяйства, транспорта, медицинская.

11. Группы показателей для оценки состояния здоровья населения.

Здоровье населения характеризуется тремя группами основных показателей:

А) медико-демографические –отражают состояние и динамику демографических процессов:

    Статистика населения (плотность, размещение, социальный состав, состав по полу и возрасту, грамотность, образование, национальность, язык, культура.)

    Динамика населения (механическая эмиграция и иммиграция, естественная рождаемость, смертность, естественный прирост.)

    Семейное состояние (коэффициент брачности, разводов, средняя продолжительность брака.)

    Процессы воспроизводства (суммарная плодовитость, брутто-коэффициент и нетто-коэффициент.)

    Средняя ожидаемая продолжительность жизни

    Смертность (структура смертности, показатели смертности в зависимости от причины, характера заболеваемости и возраста.)

Б) показатели заболеваемости и травматизма (первичная заболеваемость, распространенность, накопленная заболеваемость, патологическая пораженность, индекс здоровья, летальность, травматизм, инвалидность.)

В) показатели физического развития:

    Антропометрические (рост, масса тела, окружность грудной клетки, головы, плеча, предплечья, голени, бедра)

    Физиометрические (жизненная ёмкость легких, мышечная сила кистей рук, становая сила)

    Соматоскопические (телосложение, развитие мускулатуры, степень упитанности, форма грудной клетки, форма голеней, стоп, выраженность вторичных половых признаков.)

    Медицинская статистика, ее разделы, задачи. Роль статистического метода в изучении здоровья населения и деятельности системы здравоохранения.

Медицинская (санитарная) статистика - изу­чает количественную сторону явлений и процессов, связанных с ме­дициной, гигиеной и здравоохранением.

Выделяют 3 раздела медицинской статистики:

1. Статистика здоровья населения - изучает состояние здоровья населения в целом или его отдельных групп (путем сбора и статис­тического анализа данных о численности и составе населения, его воспроизводстве, о естественном движении, физическом развитии, распространенности различных заболеваний, продолжительности жиз­ни и т.д.). Оценка показателей здоровья проводится в сопоставлении с общепринятыми оценочными уровнями и уровнями, полученными по различным регионам и в динамике.

2. Статистика здравоохранения - решает вопросы сбора, обработ­ки и анализа информации о сети учреждений здравоохранения (их размещении, оснащении, деятельности) и кадрах (о численности врачей, среднего и младшего медицинского персонала, о распределе­нии их по специальностям, стажу работы, о их переподготовке и т.д.). При анализе деятельности лечебно-профилактических учрежде­ний осуществляется сопоставление полученных данных с нормативны­ми уровнями, а также уровнями, полученными по другим регионам и в динамике.

3. Клиническая статистика - это использование статистических методов при обработке результатов клинических, экспериментальных и лабораторных исследований; она позволяет с количественной точ­ки зрения оценить достоверность результатов исследования и ре­шить ряд других задач (определение объема необходимого числа наблюдений при выборочном исследовании, сформировать эксперимен­тальную и контрольную группы, изучить наличие корреляционных и регрессионных связей, устранить качественную неоднородность групп и т. д.).

Задачами медицинской статистики являются:

1) изучение состояния здоровья населения, анализ количественных характеристик общественного здоровья.

2) выявление связей между показателями здоровья и различными фак­торами природной и социальной среды, оценка влияния этих фак­торов на уровни здоровья населения.

3) изучение материально- технической базы здравоохранения.

4) анализ деятельности лечебно-профилактических учреждений.

5) оценка эффективности (медицинской, социальной, экономической) проводимых лечебных, профилактических, противоэпидемических мероприятий и здравоохранения в целом.

6) использование статистических методов при проведении клинических и экспериментальных медико-биологических исследований.

Медицинская статистика является методом социальной диагности­ки, поскольку она позволяет дать оценку состояния здоровья насе­ления страны, региона и на этой основе разработать меры, направ­ленные на улучшение общественного здоровья. Важнейшим принципом статистики является применение ее для изу­чения не отдельных, единичных, а массовых явлений , с целью выявления их общих закономерностей. Эти закономерности проявляются, как правило, в массе наблюдений, то есть при изучении статистической совокупности.

В медицине статистика - ведущий метод, т.к.:

1) позволяет количественно измерить показатели здоровья населения и показатели деятельности медицинских учреждений

2) определяет силу влияния различных факторов на здоровье населения

3) определяет эффективность лечения и оздоровительных мероприятий

4) позволяет оценить динамику показателей здоровья и позволяет прогнозировать их

5) позволяет получить необходимые данные для разработки норм и нормативов здравоохранения.

    Статистическая совокупность. Определение, виды, свойства. Особенности исследования статистической совокупности.

Объектом любого статистического исследования является статис­тическая совокупность.

Статистическая совокупность - группа, состоящая из множества относительно однородных элементов, взятых вместе в известных гра­ницах пространства и времени и обладающих признаками сходства и различия.

Свойства статистической совокупности : 1) однородность единиц наблюдения 2) определенные границы пространства и времени изучаемого явления

Объектом статистического исследования в медицине и здравоохранении могут быть различные контингенты населения (население в целой или его отдельные группы, больные, умершие, родившиеся), лечебно-профилактические учреждения и др.

Различают два вида статистической совокупности :

а) генеральная совокупность

б) выборочная совокупность

1. выборочная совокупность формируется таким образом, чтобы обес­печить равную возможность для всех элементов исходной совокупнос­ти быть охваченными наблюдением.

2. выборочная совокупность должна быть репрезентативной (представительной), точно и полно отра­жать явление, т.е. давать такое же представление о явлении, как если бы изучалась вся генеральная совокупность.

Выборочная совокупность

1) должна быть репрезентативной, точно и полно отражать явление, т.е. давать такое же представление о явлении как если бы изучалась вся генеральная совокупность, для этого она должна:

а. быть достаточной по численности

б. обладать основными чертами генеральной совокупности (в отобранной части должны быть представлены все элементы в таком же соотношении, как и в генеральной)

2) при ее формировании должен соблюдаться

1) случайный отбор - отбор единиц наблюдения путем жеребьевки с помощью таблицы случайных чисел и т.д. При этом для каждой единицы обеспечивается равная возможность попасть в выборку.

2) механический отбор - единицы генеральной совокупности, последовательно расположенные по какому-либо признаку (по алфавиту, по датам обращения к врачу и т.д.), разбиваются на равные части; из каждой части в заранее обусловленном порядке отбирают каждую 5, 10 или n-ую единицу наблюдения таким образом, чтобы обеспечить необходимый объем выборки.

3) типический (типологический) отбор - предполагает обязательное предварительное расчленение генеральной совокупности на отдельные качественно однородные группы (типы) с последующей выборкой единиц наблюдения из каждой группы по принипам случайного или механического отбора.

4) серийный (гнездный, гнездовой) отбор - предполагает выборку из генеральной совокупности не отдельных единиц, а целых серий (организованной совокупности единиц наблюдений, например, организаций, районов и т.д.)

5) комбинированные способы - сочетание различных способов формирования выборочной.

    Выборочная совокупность, требования, предъявляемые к ней. Принципы и способы формирования выборочной совокупности.

Различают два вида статистической совокупности :

а) генеральная совокупность - совокупность, состоящая из всех единиц наблюдения, которые могут быть к ней отнесены в соответствии с целью исследования. При изучении общественного здоровья генеральная совокупность часто рассматривается в пределах конкретных территориальных гра­ниц или может ограничиваться другими признаками (полом, возрас­том и др.) в зависимости от цели исследования.

б) выборочная совокупность - часть генеральной, отобранная спе­циальным (выборочным) методом и предназначенная для характерис­тики генеральной совокупности.

Особенности проведения статистического исследования на выборочной совокупности:

1. выборочная совокупность формируется таким образом, чтобы обес­печить равную возможность для всех элементов исходной совокупнос­ти быть охваченными наблюдением.

2. выборочная совокупность должна быть репрезентативной (представительной), точно и полно отра­жать явление, т.е. давать такое же представление о явлении, как если бы изучалась вся генеральная совокупность.

Выборочная совокупность - часть генеральной совокупности, отобранная спе­циальным (выборочным) методом и предназначенная для характерис­тики генеральной совокупности.

Требования, предъявляемые к выборочной совокупности:

1) должна быть репрезентативной, точно и полно отражать явление, т.е. давать такое же представление о явлении как если бы изучалась вся генеральная совокупность, для этого она должна:

а. быть достаточной по численности

б. обладать основными чертами генеральной совокупности (в отобранной части должны быть представлены все элементы в таком же соотношении, как и в генеральной)

2) при ее формировании должен соблюдаться основной принцип формирования выборочной совокупности : равная возможность для каждой единицы наблюдения попасть в исследование.

Способы формирования статистической совокупности:

1) случайный отбор - отбор единиц наблюдения путем жеребьевки с помощью таблицы случайных чисел и т.д. При этом для каждой единицы обеспечивается равная возможность попасть в выборку.

2) механический отбор - единицы генеральной совокупности, последовательно расположенные по какому-либо признаку (по алфавиту, по датам обращения к врачу и т.д.), разбиваются на равные части; из каждой части в заранее обусловленном порядке отбирают каждую 5, 10 или n-ую единицу наблюдения таким образом, чтобы обеспечить необходимый объем выборки.

3) типический (типологический) отбор - предполагает обязательное предварительное расчленение генеральной совокупности на отдельные качественно однородные группы (типы) с последующей выборкой единиц наблюдения из каждой группы по принипам случайного или механического отбора.

4) серийный (гнездный, гнездовой) отбор - предполагает выборку из генеральной совокупности не отдельных единиц, а целых серий (организованной совокупности единиц наблюдений, например, организаций, районов и т.д.)

5) комбинированные способы - сочетание различных способов формирования выборочной.

В современном обществе важную роль в механизме управления экономикой играет статистика. Она осуществляет сбор, научную обработку, обобщение и анализ информации, характеризующей развитие экономики страны, уровня жизни населения и других общественных явлений и процессов.

Статистика как наука

Статистика — это ряды цифр, которые характеризуют различные стороны жизни государства.

Статистика — это род практической деятельности людей цель которой сбор, обработка и анализ информации.

Статистика — это наука, разрабатывающая статистическую методологию т.е. набор приемов и способов сбора, обработки и анализа информации.

Таким образом, с татистика — это общетеоретическая наука (комплекс научных дисциплин), которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, иэ состав, распределение, размещение в пространстве, движение во времени выявляя действующие взаимозависимости и закономерности в конкретных условиях места и времени.

Объектом изучения статистики является общество , протекающие в нём процессы и закономерности развития.

Статистика как наука представляет собой целостную систему научных дисциплин:
  • Общая теория статистики — разрабатывает теорию статистического исследования, являющуюся методологической основой остальных отраслей статистики.
  • (Макроэкономическая статистика). Использует методы общей теории статистики, изучает количественную сторону социально-экономических явлений и процессов на уровне национальной экономики.
  • Математическая статистика и теория вероятности. Изучает случайные величины, законы их распределени.
  • Международная статистика. Предетом международной статистики является количественная сторона явлений и процессов зарубежных стран и международных организаций.
  • Отраслевые статистики. Предетом изучения является количественная сторона деятельности различных отраслей экономики (Статистика промышленности, сельского хозяйства).

Общая теория статистики открывает курс изучения статистических дисциплин. Она является основополагающей дисциплиной для изучения отраслевых стастик, создаёт фундамент для усвоения и применения статистических методов анализа.

Общая теория статистики является наукой о наиболее общих принципах и методах социально-экономических явлений и решает другие общественные вопросы. Она разрабатывает систему категорий, рассматривает , статистических данных.

Общая теория статистики — методологическая основа всех отраслевых статистик.

При изложении основ теории статистики предполагается изучить следующие вопросы:
  • предмет, методы и задачи статистики и ее связь с и некоторыми другими смежными дисциплинами;
  • система статистических показателей и классификаций, используемых в экономической статистике, их содержание и область применения, взаимосвязи между показателями и классификациями статистики;
  • наиболее важные направления статистического анализа, основанного на данных экономики и финансов;
  • основные источники первичных данных и основы формирования статистической базы.

Предмет статистики — размеры и количественные соотношения качественно определенных социально-экономических явлений, закономерности их связи и развития в конкретных условиях места и времени.

Предмет статистики (статистика изучает):
  • Массовые общественные явления и их динамику при помощи статистических показателей. Требование массовости обусловлено действием закона больших чисел — при большом количестве наблюдений, действия случайных признаков взаимопогашаются. (численность населения, количество произведенной продукции)
  • Количественные и качественные явления (Цифровое освещение событий общества).
  • Количественную сторону общественных явлений в неразрывной связи с их качественным содержанием, наблюдает процесс перехода количественных изменений в качественные (закономерности).
  • Развитие явления во времени (динамику)