Ответы пользователя dmshar по тегу «Аналитика»

Где научиться профессионально искать и анализировать информацию?

dmshar @dmshar

Современное поколение почему-то твердо уверено, что любой ответ можно найти в интернет. В Гуугл или вот, последняя "панацея" - ChatGPT. Ну, на худой конец, вместо того, что-бы самому подумать, напрячься, поискать информацию, потом подумать, какая из них ложная или нет, потом опять подумать и обработать полученную информацию так, как нужно именно вам (а по дороге еще и хорошо потренировать свой мозг) - предпочитают пойти на форум, задать вопрос, лечь на диван посмотреть какой-нибудь фильмик (вариант - поиграть за компом в игруху) и дождаться, когда ответ преподнесут готовый, разжёванный, проверенный и подготовленный.
Вот только в реальности все не так.
1. Для того, что-бы задать вопрос - надо УЖЕ быть подготовленным, т.е. предварительно быть, что называется "в теме". Как минимум затем, что-бы правильные термины в запросе использовать, как максимум - задавать вопрос так, что бы он не был совсем дурацким.
2. Для того, что-бы из полученной горы информационного шлака извлечь полезную информацию - надо УЖЕ быть подготовленным, т.е. предварительно иметь в теме достаточно знаний и опыта, что-бы понимать, где шлак а где золото.
3. Для того, что-бы полученную информацию приспособить к своим конкретным потребностям - надо УЖЕ быть подготовленным, т.е. понимать свою тему настолько глубоко, что-бы можно было это препарирование сделать.
Неучи подумали - появился ChatGPT - ура, сейчас на любой вопрос получим ответ и будет нам счастье, и учиться не надо! А вот фиг вам. На вопрос - "кто победил на прошлом чемпионате мира", или "как починить кран в умывальнике" - да ответ получите, и скорее всего правильный. А вот там, где надо думать, где вопросы не на фактаж, а на "подумать" - уже явно заметен парадокс: что-бы понять и извлечь пользу из диалога с ChatGPT надо быть умнее самого ChatGPT! Иначе будет не счастье, а горе. Т.е. надо сначала стать специалистом, а потом уже общаться с ИИ. Беда заключается еще и в том, что не понимая этого, надеясь на ИИ или даже на ЕИ (в виде коллективного разума на форуме) конкретный человек отучивается думать самостоятельно. Потому что жить на подсказках - это как жить на наркотиках. Мозг, привыкший к наркоте (подсказкам) перестает вообще развиваться и человек просто деградирует. И вот этом, а не в мифическом восстании ИИ против человечества - основная угроза, которую ИИ и несет человечеству.
Так что ответ на ваши вопросы один - "учиться, учиться и еще раз учиться" - как говорил дедушка Ленин. Самостоятельно и серьезно. Т.е. сначала становимся специалистом хоть в чем-то, а потом думаем, как-же вооружиться инструментом УСИЛЕНИЯ наших знаний в виде Google, ChatGPT (или чего еще на тот момент придумают). А если нет базы - то усиляй не усиляй - все равно на выходе получишь пшик.

Ответ написан 19 авг. 2023

Комментировать

Можно ли стать бизнес-аналитиком самостоятельно?

dmshar @dmshar

Вы же хотите бизнес-анализом заниматься? Т.е. анализировать бизнес процессы? Вот поставьте себя на место работодателя, который выполняет бизнес-кейс "прием новичка на работу". И попробуйте смоделировать его логику принятия решений, которая бы заставила его предпочесть человека без специального образования человеку, который такое образование получил и может свои знания подтвердить тем или иным способом. Сумеете?

А вообще, в бизнес анализ приходят как правило одним из двух путей. Или от Data Science, постепенно отходя от теоретических моделей и все более погружаясь в те бизнес-модели и и бизнес-задачи, которые характерны для выбранной прикладной области. Или уже будучи специалистом в прикладной области, все более углубляясь в анализ данных. Но вот что-бы вообще без образования, т.е. без глубокого понимания ни методов анализа как такового, ни особенностей предметной области? Похоже - это чистая фантастика.

Ответ написан 27 апр. 2023

2 комментария

Есть ли в мире программистов спрос на аналитику поведения не-людей?

dmshar @dmshar

Какая-то каша в вопросе.
Во-первых, "аналитика данных" или точнее "Data Sience", "Data Analytics" etc. это наука, занимающаяся хоть изменением климата, хоть финансами, хоть технической диагностикой, хоть эпидемиологией и медициной, хоть информационной безопасностью, хоть психологией и маркетингом, и характеризующаяся в первую очередь набором своих методов и алгоритмов решения задач. Методы практически везде (почти) одинаковы, а вот интерпретация результатов делается на языке той предметной области, из которой к специалисту по данным пришел заказчик со своей задачей.
Во-вторых, паттерны поведения - это что? (Кроме иностранного слова, вносящего ореол таинственности и значительности говорящего). Ну вот "пользователи заходят на сайт в основном с 18 до 24 вечером по будням, и с 9 до 18 по субботам и воскресеньям и праздничным дням. Летом заходят чаще чем зимой - это "паттерн поведения"? Или "люди покупают чаше пиво с воблой, чем пиво с конфетами" - это паттерн поведения? Или - при повышении температуры на 5 градусов продажи бензина повышаются на 3%, а при снижении температуры до -3градусов количество пациентов с переломами конечностей в пунктах скорой помощи возрастает на 20% от среднегодового количества. " Или "уровень преступности положительно коррелирован с коэффициентом 0.73 с уровнем безработицы и отрицательно коррелирован с коэффициентом -0.62 с уровнем образования" - Вот это все - паттерны? Они связаны с "поведением"? Они о паттернах поведения людей?

Поэтому - на вопрос "Существуют ли вообще компании, не имеющие цели подстроить сервис под клиента, а работающие с базами данных ради исследования и выведения новых паттернов поведения?" надо прямо сказать "подстраивание поведение компании под клиента" - это только одна и не самая большая, и точно - не самая полезная ни для общества ни для экономики ниша использования аналитики данных.

Ответ написан более года назад

Комментировать

Где брать данные о появление новых AI инструментов?

dmshar @dmshar

godsplane, Если такой сайт уже есть, то зачем будет нужен ваш сайт? Но идея хорошая, попробуйте сами собирать такую информацию и выдавать ее в агрегированном виде. Вот это буде уже интересно.
Впрочем, вспомнил:
ai-news.ru
Конкурируйте!

Ответ написан более года назад

Комментировать

Как рассчитать mde и sample size?

dmshar @dmshar

" как называют то, что работает на основе мат закона для определенного распределения (не важно какого) и благодаря этому правилу оно может оценить различие двух распределений" - само это действие называется проверкой гипотезы об однородности. Критерием называют правило, на основании которого при этой проверке принимают решение. Критериев бывает много и всяких. Если данные подчиняются нормальному закону распределения - проверяют матожидание, средние, моменты более высоких порядков. Аналогичные критерии - есть и для других распределений (равномерного, экспоненциального). Если данные не подчиняются этим законом, или если есть подозрения что могут измениться не только параметры распределения, но и сам закон - применяют непараметрические критерии принятия решения (т.е. критерии свободные от распределений). Например - критерии Вилкоксона-Манна-Уитни, Ван-дер-Вардена, Медианный критерий, Фишера-Йэйтса, Ансари—Бредли, Клотца, и множество других). Могут еще сравниваться не указанные величины, а сами эмпирические функции распределения (Колмогорова-Смирнова, Крамера-фон Мизеса и др). А есть еще совершенно другой (информационно-энтропийный) подход на основании меры Кульбака — Лейблера. Есть методы основанные на метрическом подходе - от метрики Эвклида до метрики Васерштейна. Много чего есть еще.

Для каждого из критериев существуют свои правила построения доверительных интервалов.
sample size всегда, для любого критерия ищется как обратная задача - при выбранном критерии, выбранном уровне значимости находят такое значение n, которое обеспечит нужную ширину доверительного интервала. И да, от закона распределения эта величина зависит ровно настолько, насколько вы поверили, что правильно угадали этот самый закон распределения или отказались делать такое предположение вообще.

Ответ написан более года назад

Комментировать

Какая модель машинного обучение тут подойдёт?

dmshar @dmshar

Вопрос - а причем тут машинное обучение? Типичная задача оптимизации. Кстати, вы даже не определили, что такое "оптимальный остаток". Да, надо подумать и составить модель - опять же типичная задача эконометрики. Загляните к ним на форум, может помогут. Но к ML это отношения не имеет от слова совсем.

Ответ написан более года назад

2 комментария

Как оценить эффективность функции потерь для практических задач?

dmshar @dmshar

Вопрос некорректно сформулирован. Вернее - он сформулирован так, что ответить на него однозначно нельзя.
Потому-что на вопрос "Посоветуйте пожалуйста источники или литературу, что можно посмотреть по этой теме." - любой учебник по Machine Learning обязательно содержит хотя бы одну главу на эту тему.
А вот далее все зависит от ваших целей и задачи - а про этого мы без вас узнать ничего не можем
Если вы "Пробовала разные метрики" - это уже хорошо. Но вот непонятно, что вас смутило при этом. Почему возник вопрос? Что осталось непонятным?
Потому как в разных задачах помимо указанных вами (и еще ряда аналогичных) метрик используются и другие подходы, начиная от тривиальных ошибок I/II рода до AUC и ROC-кривых. А есть еще всякие информационное критерии Акаике, Байеса, Шварца и пр. И у каждого своя сфера применения и использования.
Главная проблема исследователя в области Data Sсience и Machine Learning лежит не в знании всяких методов - в данном случае метрик. Хотя и это немаловажно. А именно в умении "перевести" проблемы с языка прикладной области на язык математики перед применением инструментов, и в умении интерпретировать полученные результаты после их применения.
Поэтому для того, что-бы вам что-то конкретное советовать - надо понимать вашу конкретную задачу. "Предсказать количество пользователей" - это не цель, это просто некоторая учебная задача. Если это так, то и метод оценки вам должен быть задан. А вот если это реальная аналитическая проблема - тогда уже надо углубляться в проблему: зачем вы эти данные собираетесь предсказывать, что дальше делать с этими предсказаниями, как важны для вас ошибки и какие ошибки и т.д.
Так что увы, или уточняйте проблему, или самостоятельно копайте информацию по любым источникам, а лучше - книгам.

Ответ написан более года назад

2 комментария

Где найти бесплатные курсы по data analytics?

dmshar @dmshar

Я не понимаю. Вводный курс - прошли. Что такое Аналитика - как бы должны знать. А за одно уметь искать в интернет, самостоятельно.
Почему не взять то, что вам уже рассказали и не углубить каждую из пройденных тем??
Ну ладно, на курсах вам не объяснили, что для аналитика главное - уметь анализировать полученную информацию И вы хотите готовых программ обучения (ну, т.е. что-бы кто-то аз вас выполнил соответствующую аналитику открытой информации). ОК, так и их (программ этих) куча в интернет. Они вам чем-то не подходит? Чем именно?

Какие 3 безответные СТРАНИЦЫ Гуугла? Вы о чем? Ну вот просто набрал строку в Гуугл. Ответы из первой десятки:
https://openedu.ru/program/ITMOUniversity/DATAN/?s...
https://www.coursera.org/professional-certificates...
https://careerfoundry.com/en/blog/data-analytics/f...
https://sky.pro/courses/analytics/data_analytics/
https://www.udemy.com/course/data-analysis-with-ex...
https://karpov.courses/analytics
https://skillfactory.ru/data-analyst-pro#syllabus

Любой открываете, берете описание программы и самостоятельно идете по темам, изучаете. А если даже вдруг что-то не совсем то, что вы ожидаете - ну так проанализируйте, скомпонуйте то, что именно вам надо.

Ответ написан более года назад

15 комментариев

Как определить ключевые предикторы, если нет корреляции?

dmshar @dmshar

Давайте немного разберёмся.
Ваше первое утверждение:
осложнения (как зависимые параметры) зависят от предикторов, коими являются некие "вмешательства"
Ваше второе утверждение:
осложнения никак не коррелированы (т.е. нет связи а тем более нет зависимости ) с вмешательствами.
Вам не кажется, что тут явное противоречия? Именно в ваших утверждениях. Потому как я понимаю, зависимость между осложнениями и вмешательствами в каком-то виде должны присутствовать. Иначе, что же мы хотим изучать?
Смею предположить, что корреляция все-таки имеется, но вы ее не умеете фиксировать. Либо она слабо проявляется на отдельных предикторах, но имеется между некоторым набором предикторов и конкретным видом осложнений. И этого вы тоже скорее всего не проверяли. Не говоря уже о том, что эти самые предикторы (т.е. вмешательства) могут быть представлены либо в номинальной, либо в ранговой, либо даже в числовой шкале. И в зависимости от вариантов применяются различные методы выявления корреляции.
В любом случае, при решении подобных проблем без углубления в семантику как правило получить вразумительного решения не удается. Не уверен, что форум - это то место, где такую дискуссию стоит затевать. Хотя некоторые базовые вопросы, если они у вас есть, мы можем попробовать обговорить и тут. Но начинать точно надо не со столь глобального и не имеющего общего ответа вопроса, как "Как определить ключевые предикторы".

Ответ написан более года назад

Комментировать

Откуда брать данные для анализа отрасли и рынка?

dmshar @dmshar

Обратится в соответствующие аналитические агентства. За денежку - и не малую - они вам выдадут такую аналитику. Ну можно еще в Госстат обратиться, примерно на такой-же основе.

Ответ написан более двух лет назад

4 комментария

Как определить, сколько бизнес-аналитиков нужно на проект?

dmshar @dmshar

Просто вопрос. 10 офисов. По 3 системы в каждой. Как вы определили, что всего систем 30 "разных совершенно систем" ? Подчеркну - офисы ОДНОЙ и той-же компании.
И еще, вы можете привести наименования - я уже не говорю про 30 разных систем, но несколько систем типа 1С, которые могут использоваться в офисах одной и той-же компании? Или 10 совершенно разных "логистических систем" при том же условии? Ну хотя-бы 5. И просто представить, как компания должна была постараться, что-бы во всех офисах, занимающихся логистикой (бухгалтерией, кадрами... неважно чем) понатыкать РАЗНЫХ систем?

Пока из вашего вопроса понятно одно. Вам бы для начала хотя-бы одного бизнес-аналитика нанять, который поможет вам с вашей задачей разобраться.

Ответ написан более двух лет назад

2 комментария

Как привести выборку в нормальное распределение?

dmshar @dmshar

"Я вот хочу проверить две группы Т-Тестом" - хотеть можно что угодно. Но вот к исследованию данных это не имеет никакого отношения. Если у вас данные не подчиняются нормальному закону распределения, то использовать t-критерий Стьюдента крайне нерационально. Для таких случаев есть другие тесты, из группы непараметрических. Их много. Можно начать с теста Вилкоксона-Манна-Уитни, и/или критерия Колмогорова-Смирнова. Их стандартные реализации есть в scipy.stats. Впрочем, как и кучи других методов, которые могут применятся в таких случаях.

Ответ написан более двух лет назад

Комментировать

Нужна программа для сбора и визуализаци статистики. Есть у кого на примете такая?

dmshar @dmshar

Чем MS Excel не угодил? Простая, дает возможности, которые вы просили, отлично строит картинки и графики. Что значит "удобно" просматривать графики я правда не понял, но мои графики и картинки и рисовались и просматривались всегда отлично. Если скажете что не так - будем думать дальше.

Ответ написан более трёх лет назад

6 комментариев

Как провести анализ характера и частоты транзакций клиентов, основываясь на их возрасте?

dmshar @dmshar

Любой анализ надо начинать не с "я думаю" а с четкой постановки его (анализа) цели. Что вы хотите в его результате выявить? Или вы просто хотите "сбить" некоторую статистику, которую имеете по факту? Ну например, выявить, зависит-ли интересы клиента от его возраста. Даже для такого простейшего вопроса понятно, что данных у вас мало, и для получения более менее полезного ответа на вопрос надо вводить еще и признак пола клиента.
А так как вы написали - ну это не анализ, это просто структура реляционной базы для выполнения одной транзакции. Да для вашего запроса достаточно, но тогда непонятно, а вопрос-то в чем заключается?

Ответ написан более трёх лет назад

6 комментариев

Нулевая гипотеза. Как исправить формулировку?

dmshar @dmshar

А что собственно, неясно? Нулевая гипотеза для средних всегда принимается как гипотеза РАВЕНСТВА средних, которую надо опровергнуть (отклонить). Или "не отклонить". Альтернативная гипотеза действительно, как правило относится к той теории, которую собираются исследовать - в вашем случае, что тарифы влияют на выручку. Именно так работают все критерии и именно это (вероятность того, что мы ошибемся, приняв альтернативную гипотезу - в вашем случае, мы скажем что тариф влияет на выручку, хотя на самом деле это не так) и показывает значение p-value. Простым языком, "большое" его значение, говорит, что при отклонении нулевой гипотезы мы скорее всего ошибемся, а малое - что мы может быть и ошибемся, но вероятность такой ошибки крайне мала.
У вас же все наоборот. Вот и результат получаете такой, который невозможно нормально проинтерпретировать.
P.S. И да, увеличьте точность представления десятичных чисел, иначе вы вообще ничего никогда не увидите.

Ответ написан более трёх лет назад

Комментировать

Какой Roadmap для бизнес-аналитика?

dmshar @dmshar

А вы хоть на"текущем месте работы" когда вам предложили - поинтересовались, в чем конкретно будут состоять ваши функции. (Странно, что PМ этого не знает, ну да ладно). А то часто оказываются, что разные люди понимают одни и те-же термины (в данном случае -"бизнес анализ") совершенно по разному. Поэтому вам не с Roadmap начинать надо, а с выяснения того, что от вас требоваться будет. Конкретно, на вашем рабочем месте. А уж ознакомившись и поняв это - думать о построении всяких путей и дорожек достижения обозначенных (недостающих!!) знаний.

Ответ написан более трёх лет назад

Комментировать

Какой язык легче изучить для анализа данных?

dmshar @dmshar

Для человека незнакомого с программированием (и не горящим желанием его изучать) надо использовать не R или Python, а инструменты, где такого программирования практически нет, а основные - и довольно сложные - действия по анализу данных выполнить можно. Таких инструментов море - от банального EXCEL, который покроет процентов 80 всех ваших потребностей, до SPSS, от Rapid Miner до Н2О. Есть еще куча специализированных он-лайн сервисов - но там уже надо смотреть по вашей специализации - понятие "анализ финансовых данных" весьма широкое и включает множество субдоменов, для каждого их которых эти сервисы свои.

Ответ написан более трёх лет назад

Комментировать

Доверительный интервал и генеральная совокупность.Какая связь?

dmshar @dmshar

1. Вопрос: будут ли эти выборочные средние распределены нормально относительно величины приблизительно равной среднему росту в ген.совокупности?
Ответ: Да
2.Вопрос:Работает ли центральная предельная теорема?
Ответ: А кто и когда ее отменил?
3. Вопрос: Поэтому мы смотрим диапазон куда входят 95% всех значений и берем его как исчерпывающий результат?
Ответ: Мы сначала из внестатистических соображений выбираем уровень значимости. Он может быть и 0.95, и 0.9 и 0.0000001 - любой. А потом уж строим доверительный интервал, используя выбранный уровень значимости.
Что такое "исчерпывающий результат" - я такого термина в статистике не встречал. Поясните.

Ответ написан более трёх лет назад

Комментировать

Может ли sd=2, если размер выборки 25?

dmshar @dmshar

Господи, опять дисперсия, опять размах. Вы после этой темы
Как соотносится дисперсия с sd?
хоть один учебник открыли?
Кто, где, когда вам сказал, что "дисперсия приближается к размаху"???? А тем более, что "дисперсия должна быть близка к размеру выборки"???? Если у вас будет набор на 10000000 элементов, то дисперсия тоже будет "приближаться"???? Да хоть формулу дисперсии посмотрите для интереса. Там размер выборки в ЗНАМИНАТЕЛЕ!!! Подумайте, что это означает в конце концов.
P.S. Впрочем, подумал- надо бы узнать, в каком классе вы учитесь. Может я слишком многого от вас хочу?

Ответ написан более трёх лет назад

20 комментариев

Как соотносится дисперсия с sd?

dmshar @dmshar

Специально для вас сгенерировал нормальнораспределенные данные с вашими параметрами - М = 50, sd=10.
и построил их гистограмму.

Как легко видеть, в диапазоне от 20 до 80 лежат именно эти самые 99.7% данных. А что вы имели ввиду, когда писали "не сходится то что 60 это 99,73%" и "т.е 60 наблюдей в этом диапазоне [20;80] это 99,73% ?"- то непонятно, ни что вы в виду имели, ни что с чем не сходится. ни причем тут диапазон (60) а к проценту количества наблюдений (99,73%).

Ответ написан более трёх лет назад

15 комментариев

Войдите на сайт