Коротко: Питання на співбесіді Data Analyst охоплюють SQL, Python, статистику, BI-інструменти та бізнес-аналіз — і підготовка лише до одного блоку рідко дає результат. Цей гід структурує всі ключові теми з поясненням, що саме перевіряє інтерв’юер за кожним питанням. Матеріал підійде джунам, мідам і тим, хто переходить у data з суміжних ролей.
Вступ
Багато кандидатів, які готуються до співбесіди дата-аналітика, концентруються майже виключно на SQL — і потім губляться, коли інтерв’юер запитує про метрику, яка впала, або просить пояснити, як вони б організували A/B тест.
Технічна частина важлива, але вона рідко є єдиною причиною відмови. Інтерв’юери оцінюють і те, як кандидат думає вголос, і те, чи розуміє він бізнес-контекст своїх рішень.
У цій статті зібрані реальні питання на співбесіді дата-аналітика — з поясненням правильної відповіді та акцентом на те, що саме хоче почути інтерв’юер. SQL, Python, статистика, BI-інструменти, типові помилки та FAQ — все в одному місці.
Що взагалі перевіряють на співбесіді дата-аналітика — і чому це важливо розуміти заздалегідь
Роль дата-аналітика: що від тебе очікують у 2026
Роль дата-аналітика у 2026 — це не просто “людина, яка пише SQL-запити”. Від аналітика очікують здатності перетворювати сирі дані на конкретні бізнес-висновки, будувати дашборди, які справді читають, і комунікувати результати з командами, де не всі розуміють технічну термінологію.
Важливий нюанс: питання на інтерв’ю суттєво різняться залежно від типу компанії. У стартапі від аналітика можуть очікувати широкого стека і самостійності. У корпорації — глибини в конкретному інструменті та вміння працювати з процесами. Продуктова компанія фокусується на метриках і продуктовому мисленні, консалтинг — на структурованій комунікації та швидкій адаптації до нових доменів.
Зі скількох блоків складається типове інтерв’ю
Типова співбесіда дата-аналітика складається з трьох блоків:
- Технічна частина — SQL, Python, статистика, знання інструментів
- Аналітичне мислення — кейс-питання, продуктові метрики, розбір ситуацій з даними
- Soft skills та поведінкові питання — комунікація, робота в команді, досвід з реальних проєктів
На практиці кандидатів найчастіше “зарізають” не за незнання синтаксису, а за нездатність пояснити логіку рішення або за відповідь без прив’язки до контексту задачі.
SQL питання на співбесіді аналітика: від базових до просунутих
SQL — це ядро будь-якої технічної співбесіди для аналітика. Але рівень питань суттєво відрізняється залежно від позиції.
Базові SQL питання — що запитують у джунів
В чому різниця між INNER JOIN та LEFT JOIN?
INNER JOIN повертає лише ті рядки, де є збіг в обох таблицях. LEFT JOIN повертає всі рядки з лівої таблиці, а для правої — NULL там, де збігу немає.
На практиці: якщо потрібно знайти всіх користувачів і їхні замовлення (включно з тими, хто нічого не купив) — це LEFT JOIN. Якщо потрібні лише ті, хто зробив хоча б одне замовлення — INNER JOIN.
Що таке NULL і як з ним працювати в SQL?
NULL — це відсутність значення, а не нуль і не порожній рядок. Саме тому WHERE col = NULL не працює — правильно писати WHERE col IS NULL.
Корисні функції для роботи з NULL:
– COALESCE(col, 'default') — повертає перше не-NULL значення
– NULLIF(col, 0) — повертає NULL, якщо значення дорівнює 0 (зручно для уникання ділення на нуль)
Що таке GROUP BY і коли використовується HAVING?
GROUP BY групує рядки за значенням стовпця для агрегації. WHERE фільтрує рядки до групування, HAVING — після.
SELECT department, COUNT(*) as employee_count
FROM employees
WHERE status = 'active'
GROUP BY department
HAVING COUNT(*) > 10;Тут WHERE прибирає неактивних співробітників до агрегації, а HAVING залишає лише відділи з більш ніж 10 людьми.
Середній рівень: JOIN, підзапити та CTE
Що таке підзапит і коли краще використати CTE?
Підзапит (subquery) — це запит всередині іншого запиту. CTE (Common Table Expression) — іменований тимчасовий результат, визначений через WITH.
CTE переважно обирають, коли:
– Логіку потрібно перевикористати кілька разів у запиті
– Запит стає складним і підзапити погіршують читабельність
– Потрібно будувати рекурсивні структури
З точки зору продуктивності різниця залежить від конкретної СУБД та оптимізатора — тут важливо тестувати, а не робити узагальнень.
Просунуті SQL питання: Window Functions, CTE, оптимізація
Що таке Window Functions і наведи приклад?
Window Functions виконують обчислення по набору рядків, пов’язаних з поточним рядком, але не згортають результат в один рядок (на відміну від GROUP BY).
Типові функції: ROW_NUMBER(), RANK(), DENSE_RANK(), LAG(), LEAD(), SUM() OVER(), AVG() OVER().
Класичний приклад — дедуплікація або вибір останнього запису по кожному користувачу:
WITH ranked_orders AS (
SELECT
user_id,
order_id,
order_date,
amount,
ROW_NUMBER() OVER (
PARTITION BY user_id
ORDER BY order_date DESC
) AS rn
FROM orders
)
SELECT
user_id,
order_id,
order_date,
amount
FROM ranked_orders
WHERE rn = 1;
Цей запит вибирає останнє замовлення кожного користувача. PARTITION BY user_id — нумерація скидається для кожного користувача. ORDER BY order_date DESC — найновіше замовлення отримує rn = 1.
Як оптимізувати повільний SQL-запит?
Основні підходи:
– Перевірити наявність індексів на стовпцях, які використовуються у WHERE, JOIN та ORDER BY
– Уникати SELECT * — вибирати лише потрібні стовпці
– Фільтрувати дані якомога раніше — до JOIN, а не після
– Перевірити план виконання запиту (EXPLAIN / EXPLAIN ANALYZE)
– Уникати функцій у WHERE на індексованих стовпцях — це може “зламати” використання індексу
На що звертає увагу інтерв’юер: не лише правильний результат, а хід думок. Вміння пояснити, чому ти написав запит саме так, — це вже перевага.
Таблиця: порівняння типів JOIN
| Тип JOIN | Що повертає | Типовий use case |
|---|---|---|
INNER JOIN | Лише рядки зі збігом в обох таблицях | Знайти користувачів, які зробили замовлення |
LEFT JOIN | Всі рядки з лівої + збіги з правої (NULL якщо немає) | Всі користувачі, включно з тими, хто не купив |
RIGHT JOIN | Всі рядки з правої + збіги з лівої (NULL якщо немає) | На практиці його часто замінюють LEFT JOIN, просто міняючи таблиці місцями, щоб запит було легше читати. |
FULL OUTER JOIN | Всі рядки з обох таблиць, NULL де немає збігу | Порівняння двох датасетів, пошук розбіжностей |
Питання по Python для дата-аналітика: pandas, numpy та обробка даних
Python-питання на співбесіді аналітика часто простіші, ніж здаються. Головне — показати практичне мислення, а не академічне знання синтаксису.
Базові питання по Python — що запитують на старті
Яка різниця між list і tuple в Python?
list — мутабельний тип: його можна змінювати після створення. tuple — незмінний тип, тому краще підходить для фіксованих наборів значень. Якщо tuple містить лише hashable-елементи, його можна використовувати як ключ у словнику або елемент множини.
Що таке DataFrame у pandas і як він влаштований?
DataFrame — двовимірна таблична структура з рядками та стовпцями. Кожен стовпець — це Series з певним типом даних (int64, float64, object, datetime64 тощо). Рядки мають індекс, який за замовчуванням числовий, але може бути довільним.
Pandas і numpy: типові задачі на інтерв’ю
Як видалити дублікати у pandas?
# Видалити повні дублікати
df.drop_duplicates()
# Дублікати по конкретних стовпцях, зберегти перший запис
df.drop_duplicates(subset=['user_id', 'date'], keep='first')
# Зберегти останній запис
df.drop_duplicates(subset=['user_id'], keep='last')Як об’єднати два DataFrame?
merge() — аналог SQL JOIN, об’єднує по ключу. concat() — склеює таблиці по рядках або стовпцях.
# Аналог INNER JOIN
result = pd.merge(df_orders, df_users, on='user_id', how='inner')
# Аналог LEFT JOIN
result = pd.merge(df_orders, df_users, on='user_id', how='left')
# Склеїти два датасети вертикально
combined = pd.concat([df_2023, df_2024], ignore_index=True)Що таке groupby() і як він працює?
groupby() реалізує патерн Split-Apply-Combine: розбиває дані на групи, застосовує функцію, збирає результат.
# Метрики по сегментах користувачів
metrics = (
df.groupby('user_segment')
.agg(
total_revenue=('amount', 'sum'),
avg_order=('amount', 'mean'),
order_count=('order_id', 'count'),
unique_users=('user_id', 'nunique')
)
.reset_index()
)Як обробити пропущені значення (NaN)?
# Перевірити наявність пропусків
df.isnull().sum()
# Заповнити медіаною
df['age'] = df['age'].fillna(df['age'].median())
# Видалити рядки, де є пропуск у критичних стовпцях
df = df.dropna(subset=['user_id', 'date'])Вибір між fillna() і dropna() залежить від контексту: якщо пропусків мало і дані критичні — видаляємо. Якщо пропусків багато або видалення спотворить вибірку — заповнюємо.
Як відповідати на питання про обробку даних і ETL-логіку
Що таке vectorization і чому краще уникати циклів у pandas?
Pandas і numpy виконують операції над масивами даних через оптимізований C-код під капотом. Цикл for у Python обробляє кожен рядок послідовно в інтерпретованому режимі — це суттєво повільніше на великих датасетах.
Замість:
for i, row in df.iterrows():
df.at[i, 'tax'] = row['amount'] * 0.2Краще:
df['tax'] = df['amount'] * 0.2Питання про бази даних, інструменти та стек аналітика
SQL vs NoSQL: як правильно відповісти на класичне питання
В чому різниця між реляційними та нереляційними базами даних?
Реляційні (SQL) бази — структуровані таблиці зі схемою, зв’язки через ключі, ACID-транзакції. Підходять для структурованих даних з чіткими зв’язками: фінанси, CRM, операційні системи.
Нереляційні (NoSQL) бази зазвичай мають гнучкішу модель даних або іншу схему зберігання: документи, ключ-значення, графи, широкі колонки. Вони корисні там, де структура даних часто змінюється, потрібне горизонтальне масштабування або специфічна модель доступу.
Коли б ти обрав NoSQL замість SQL?
Типові сценарії для NoSQL:
– Логи та події з непередбачуваною структурою
– Документи з варіативними полями (MongoDB)
– Графові зв’язки між сутностями (Neo4j)
– Кеш та сесії з мільйонами операцій читання (Redis)
Що таке OLAP vs OLTP і навіщо аналітику це знати?
- OLTP (Online Transaction Processing) — операційні системи для поточних транзакцій. Багато коротких операцій читання/запису. Приклад: система замовлень інтернет-магазину.
- OLAP (Online Analytical Processing) — аналітичні системи для агрегованих запитів по великих обсягах даних. Приклад: Data Warehouse, де дата-аналітик будує звіти.
Аналітик працює переважно з OLAP-системами, але розуміння OLTP важливе — щоб знати, звідки приходять дані і які є обмеження на їх якість.
Питання про BI-інструменти: Tableau, Power BI, Looker
Які BI-інструменти ти використовував і в чому їх різниця?
Коротке порівняння:
| Інструмент | Сильні сторони | Типова екосистема |
|---|---|---|
| Power BI | Глибока інтеграція з Microsoft-стеком, DAX для складних обчислень | Microsoft Azure, Excel, Teams |
| Tableau | Гнучка візуалізація, зручний drag-and-drop, сильна спільнота | Різні стеки, Salesforce |
| Looker | LookML як мова моделювання, Git-інтеграція, code-first підхід. | Google Cloud |
Примітка: Looker і Looker Studio — це різні продукти. Looker орієнтований на централізоване BI-моделювання через LookML, тоді як Looker Studio більше підходить для легших звітів і self-service dashboarding.
Excel vs Python — і коли що доречно використовувати
Коли ти використовуєш Excel, а коли Python?
Excel добре підходить для швидкого ad-hoc аналізу на невеликих даних, спілкування з нетехнічними стейкхолдерами та побудови простих фінансових моделей і pivot-таблиць
Python доцільніший, коли дані або трансформації стають занадто великими, повторюваними чи складними для ручної роботи в Excel: потрібна автоматизація, відтворюваність, інтеграція в пайплайн або обробка багатьох файлів/джерел.
5 ключових інструментів аналітика:
- SQL — основний інструмент для роботи з даними в будь-якій базі
- Python / pandas — обробка, трансформація та автоматизація аналізу
- BI-інструмент (Power BI / Tableau / Looker) — візуалізація та дашборди для стейкхолдерів
- Excel / Google Sheets — швидкий аналіз, комунікація результатів, прості моделі
- Git — версіонування коду та SQL-скриптів, особливо важливе в командній роботі
Що таке ETL/ELT і яка різниця?
- ETL (Extract, Transform, Load) — дані трансформуються до завантаження в сховище. Традиційний підхід.
- ELT (Extract, Load, Transform) — дані спочатку завантажуються в сховище “як є”, трансформація відбувається всередині. Сучасний підхід, поширений з хмарними DWH (BigQuery, Snowflake, Redshift) та інструментами на кшталт dbt.
Статистика, метрики та аналітичне мислення: питання, які відрізняють сильного кандидата
Базові питання зі статистики для аналітика
Що таке середнє, медіана і мода — і коли яку міру використовувати?
- Середнє — сума всіх значень, поділена на кількість. Чутливе до викидів.
- Медіана — значення посередині відсортованого ряду. Стійка до викидів.
- Мода — найчастіше значення. Корисна для категоріальних даних.
Якщо розподіл скошений (наприклад, доходи або час завантаження сторінки), медіана дає точніше уявлення про “типове” значення, ніж середнє.
Що таке стандартне відхилення і дисперсія?
Дисперсія — середнє квадратичне відхилення від середнього. Стандартне відхилення — корінь квадратний з дисперсії, в тих самих одиницях, що й дані. Обидва показують розкид значень навколо середнього: чим більше — тим більший розкид.
Продуктові метрики та бізнес-аналіз: як думати як аналітик
Що таке A/B тест і як ти б його організував?
A/B тест — контрольований експеримент, де дві групи користувачів отримують різний досвід (контрольна група — поточна версія, тестова — нова).
Базова структура:
1. Сформулювати гіпотезу: “Якщо змінити X, то метрика Y зросте на Z%”
2. Визначити метрику успіху та guardrail-метрики (які не повинні погіршитися)
3. Розрахувати необхідний розмір вибірки (через статистичну потужність)
4. Рандомно розподілити користувачів між групами
5. Запустити на визначений термін, не зупиняючи достроково
6. Перевірити статистичну значущість результату
Примітка: Не зупиняти тест достроково — критично важлива вимога. Якщо зупинити тест у момент, коли результат «виглядає значущим», підвищується ризик хибнопозитивного висновку (p-hacking). Тривалість тесту визначається заздалегідь на основі розрахунку необхідного розміру вибірки — через статистичну потужність (зазвичай 80%) і очікуваний розмір ефекту. Також важливо враховувати novelty effect: нова фіча може тимчасово підвищувати метрики просто через новизну, а не реальну цінність.
Що таке p-value і як його інтерпретувати?
p-value — це ймовірність отримати результат настільки ж екстремальний або більш екстремальний, ніж спостережуваний, за умови що нульова гіпотеза (H₀) правдива. Якщо p < 0.05 (типовий поріг α), результат вважається статистично значущим — тобто ми відхиляємо H₀.
Важливо розуміти поширені помилки інтерпретації, які часто перевіряють на інтерв’ю:
- p-value не показує ймовірність того, що H₀ правдива
- p-value не вимірює розмір ефекту і не гарантує практичну значущість
- Результат може бути статистично значущим, але бізнесово нерелевантним (наприклад, +0.01% конверсії при p=0.001)
- Поріг 0.05 — це конвенція, а не абсолютне правило
Як би ти виміряв успіх нової фічі в продукті?
Структурований підхід:
1. Визначити, яку проблему вирішує фіча
2. Обрати первинну метрику (наприклад, conversion rate, retention, revenue per user)
3. Визначити guardrail-метрики — що не повинно погіршитися
4. Визначити часовий горизонт вимірювання
5. Перевірити, чи є достатньо даних для статистичного висновку
Кейс-питання: як розбирати відкриті задачі на інтерв’ю
Метрика впала на 20% — що робиш?
Це одне з найпоширеніших кейс-питань на співбесіді дата-аналітика. Структурований підхід:
- Перевірка даних — чи не проблема в трекінгу або пайплайні? Чи є аномалії в сирих даних?
- Часовий контекст — коли саме почалося падіння? Чи збігається з деплоєм, акцією, зовнішньою подією?
- Сегментація — в якому сегменті падіння? По платформі, гео, каналу, типу користувача?
- Гіпотези — на основі сегментації формулюємо можливі причини
- Верифікація — перевіряємо гіпотези через дані
Кейс-питання — це можливість показати структурованість мислення. Немає єдиної правильної відповіді, є логічний процес. Завжди уточнюй контекст задачі перед тим, як відповідати — це вже сигнал для інтерв’юера.
Що таке retention і як його рахувати?
Retention — відсоток користувачів, які повернулися через певний період після першої взаємодії.
Розрізняють два підходи до розрахунку:
- Classic (Day-N) retention: користувачі, які повернулися саме на N-й день / когорта дня 0 × 100%. Дає точний зріз активності в конкретний день.
- Range (Rolling) retention: користувачі, які повернулися хоч раз протягом N днів / когорта дня 0 × 100%. Дає м’якшу картину і частіше використовується для Day-7, Day-30.
На інтерв’ю варто уточнити, який саме retention розраховувати — це вже покаже зрілість аналітичного мислення.
Типові горизонти: Day-1, Day-7, Day-30. Cohort analysis — стандартний інструмент для аналізу retention по когортах (групах користувачів, що прийшли в один період).
Типові помилки на співбесіді дата-аналітика — і як їх уникнути
Технічні помилки: що видає непідготовленого кандидата
Помилка 1: Вчити синтаксис напам’ять замість розуміння логіки.
Інтерв’юер завжди перевіряє розуміння. Знати, що ROW_NUMBER() нумерує рядки — недостатньо. Потрібно пояснити, коли і чому ти б його застосував.
Помилка 2: Мовчати, коли не знаєш відповіді.
Проговорити хід думок вголос — набагато краще, ніж зависнути в тиші. “Я не знаю точної відповіді, але ось як би я підійшов до цього” — це сильна позиція.
Помилка 3: Кидатися писати запит без уточнення умови.
Відразу запитай: які дані є? Який очікуваний результат? Які edge cases? Це показує аналітичне мислення, а не поспіх.
Помилка 4: Ігнорувати бізнес-контекст у технічних відповідях.
Аналітик має думати про цінність для бізнесу. Відповідь “я написав запит, який повертає правильний результат” слабша за “я написав запит, який допоміг команді знайти сегмент з найвищим відтоком”.
Поведінкові та комунікаційні пастки
Помилка 5: Ігнорувати підготовку до поведінкових питань.
“Розкажи про складну ситуацію з даними” або “як ти переконував стейкхолдера, який не погоджувався з твоїми висновками” — ці питання потребують підготовки. STAR-метод (Situation, Task, Action, Result) допомагає структурувати відповідь.
Найсильніші кандидати — ті, хто вміє сказати «я не знаю точної відповіді, але ось як би я підійшов до цього» — і далі демонструють логіку. Це набагато сильніша позиція, ніж мовчання або вигадана відповідь.
FAQ: питання про співбесіду дата-аналітика
Питання: Що запитують на співбесіді дата-аналітика?
Відповідь: Типова співбесіда дата-аналітика складається з трьох блоків. Технічна частина охоплює SQL (JOIN, Window Functions, CTE, оптимізація запитів), Python з pandas, базову статистику і знання BI-інструментів. Аналітична частина — це кейс-питання: розбір падіння метрики, організація A/B тесту, вибір метрик для оцінки фічі. Поведінкові питання перевіряють комунікацію, вміння працювати зі стейкхолдерами і досвід з реальних проєктів. Найчастіша причина відмови — не незнання синтаксису, а невміння пояснити логіку рішення і прив’язати відповідь до бізнес-контексту.
Питання: Який SQL потрібно знати дата-аналітику для співбесіди?
Відповідь: Для позиції джуна достатньо впевненого розуміння SELECT, JOIN (INNER, LEFT, RIGHT, FULL OUTER), GROUP BY, HAVING, підзапитів і базових агрегатних функцій. Для мід-рівня обов’язкові Window Functions (ROW_NUMBER, RANK, LAG, LEAD, SUM OVER), CTE і базове розуміння оптимізації запитів через EXPLAIN. Просунутий рівень передбачає знання рекурсивних CTE, партиціонування, роботи з великими таблицями і специфіки конкретних СУБД (PostgreSQL, BigQuery, Snowflake). На будь-якому рівні важливо не просто писати правильний запит, а пояснювати, чому саме так.
Питання: Чи потрібен Python на співбесіді дата-аналітика?
Відповідь: У багатьох продуктових компаніях і технологічних стартапах Python є важливою перевагою або вимогою, особливо якщо роль включає автоматизацію, обробку даних у pandas чи роботу з аналітичними пайплайнами. Водночас є позиції, де основний акцент робиться на SQL, BI та Excel. На практиці від аналітика очікують базової роботи з pandas: читання даних, злиття датафреймів, обробка пропусків, groupby-агрегації. Глибоке знання алгоритмів і написання класів — зазвичай не в зоні відповідальності аналітика, це скоріше вимоги до дата-інженера або ML-інженера.
Підсумок: як підготуватися до співбесіди дата-аналітика системно
Підготовка до співбесіди дата-аналітика — це не марафон зі зазубрювання синтаксису. Це тренування здатності думати структуровано, прив’язувати технічні рішення до бізнес-контексту і пояснювати логіку вголос.
Практичний план підготовки за тижнями:
Тиждень 1 — SQL. Повторіть JOIN, GROUP BY, Window Functions і CTE. Вирішіть 20–30 задач на Stratascratch або LeetCode (рівень Medium). Для кожного запиту вмійте пояснити, чому саме такий підхід.
Тиждень 2 — Python і статистика. Перегляньте pandas: merge, groupby, обробка пропусків, робота з датами. Повторіть базову статистику: розподіли, p-value, кореляція, A/B тести. Вмійте пояснити кожну концепцію простими словами без формул.
Тиждень 3 — кейси і поведінкові питання. Тренуйте кейси на падіння метрики, вибір метрик, організацію тесту. Підготуйте 3–5 STAR-відповідей на поведінкові питання з реальних проєктів або навчання.
Тиждень 4 — моки і деталі. Проведіть mock-інтерв’ю з кимось із колег або через спільноти. Перечитайте своє CV і переконайтеся, що можете детально розповісти про кожен проєкт, метрику та результат.
Найкращий спосіб підготуватися — розібрати одне реальне кейс-питання вже сьогодні, а не відкладати до «коли буду готовий». Готовність приходить через практику, а не через читання.