Bigdata - на чем делать большую базу

Статус
В этой теме нельзя размещать новые ответы.
Сейчас учусь по DataScience
Всегда хотел спросить каких результатов ждут от использования ВigData. Наверное что-то типа определить тренд. Или оттуда можно извлекать более конкретные детализированные результаты?
 
Всегда хотел спросить каких результатов ждут от использования ВigData. Наверное что-то типа определить тренд. Или оттуда можно извлекать более конкретные детализированные результаты?
Самых разных. BigData - это всего-лишь некое абстрактное понятие, DataScience - набор инструментов и принципов работы с данными + постоянно растущий опыт. Любое исследование начинается с какого-то вопроса, а цель исследования - попытаться на этот вопрос ответить или прийти к выводу, который породит другие вопросы.

Исследовать можно что угодно, тренды, зависимости, делать прогнозирование рисков и т.д. Сфера применения тоже: от мировой медицины и эпидемиологии, до продаж в интернет магазине.
 
Записи будут такова типа :
noggano - Моя игра
noggano - Мама
noggano - урбан
Eminem - Not Afraid

По твоему примеру тебе может подойти как простой postgresql Для просмотра ссылки Войди или Зарегистрируйся так и к примеру mongoDb Для просмотра ссылки Войди или Зарегистрируйся. Как уже писали если есть опыт с SQL бери его.

Пока хватает оперативки - ни MapReduce, ни Hadoop тебе не нужны.

Все зависит от проблемы, я пару раз разворачивал кластер на хадубе и честно эта геморройна, слишком много всего и чтоб эта поддерживать в продукции тебе нужно пару тройку людей чтоб тока смотреть как бы там что не отвалилось.
 
воообще с большими данными лучше использовать postgresql нинадо особо погружаться в изучение + куча материала и хорошая производительность
 
У меня база на 30М+ записей на обычном домашнем компе под MySQL. Но придется настроить конфиги под такие объемы...
 
mongo nosql если джоинов не будет много
 
Согласен с Для просмотра ссылки Войди или Зарегистрируйся, что 30 млн записей это не очень большая БД. Главное правильно спанировать структуру, индексы, нормально запросы писать...
Но если хочется какой-то экзотики, можно попробовать aerospike - наверное это самая быстрая NoSQL база на текущий момент. По статьям на том же хабре - действительно самолёт. Но лично я её под высокой нагрузкой не тестил.

Для просмотра ссылки Войди или Зарегистрируйся
 
Сначала структуру данных сообразите. И основные запросы к базе.
Я бы в MongoDB положил.
 
20-30 млн не такой уж большой объём. Подойдёт postgresql, mysql, ms sql.
В зависимости от количества пользователей, вероятно, потребуется её проектирование: вертикальное и горизонтальное масштабирование, распределение нагрузки.
 
возможно ли физически стырить базу у конкурентов ?
Да. Через старый добрый SQL Inject, через плохо настроенный сервис, через плохо/невнимательно администрируемый сервер. Хотя лидирует конечно Для просмотра ссылки Войди или Зарегистрируйся.

И - присоединяюсь к мнениям о том, что 30 миллионов записей - это даже близко не BigData. Такой объем вытянет любая база данных. Хотя вопросу уже больше года и для автора он уже наверняка неактуален :)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху