New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

New workflow to generate embeddings in a single workflow #1296

Merged

natoverse merged 56 commits into main from new_workflow

Nov 1, 2024

Contributor

gaudyb commented Oct 18, 2024

Description

New workflow to separate text embedding generation in a new single workflow to generate new parquet files with just id/embedding columns.

Proposed Changes

New workflow called: create_final_embeddings.
Remove all embeddings configuration in all other workflows.
Standardize text embed configurations for all embeddings.
New standard for parquet embeddings files: <original_table_name>_<source_column>_embeddings.parquet with just id/embedding columns.


          New workflow to generate embeddings in a single workflow

24c830b

gaudyb requested review from a team as code owners

October 18, 2024 20:34


          New workflow to generate embeddings in a single workflow

0d54218

gaudyb requested review from natoverse, AlonsoGuevara and andresmor-ms

October 18, 2024 20:44


          version change

411b679

AlonsoGuevara reviewed

View reviewed changes

graphrag/config/enums.py Show resolved Hide resolved

AlonsoGuevara reviewed

View reviewed changes

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved

AlonsoGuevara reviewed

View reviewed changes

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved

AlonsoGuevara reviewed

View reviewed changes

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved


          clean tests without any embeddings references

00690cd

AlonsoGuevara reviewed

View reviewed changes

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved

AlonsoGuevara reviewed

View reviewed changes

graphrag/index/run/profiling.py Outdated Show resolved Hide resolved

AlonsoGuevara reviewed

View reviewed changes

graphrag/index/workflows/v1/subflows/create_final_text_units.py Show resolved Hide resolved

AlonsoGuevara reviewed

View reviewed changes

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved

AlonsoGuevara reviewed

View reviewed changes

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved

gaudyb and others added 3 commits

October 18, 2024 15:34


          clean tests without any embeddings references

922a7cf


          remove code

0a13615


          Merge branch 'main' into new_workflow

cbe94c1

AlonsoGuevara reviewed

View reviewed changes

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved

natoverse reviewed

View reviewed changes

graphrag/config/enums.py Show resolved Hide resolved

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved

graphrag/index/run/profiling.py Outdated Show resolved Hide resolved

graphrag/index/workflows/v1/create_final_entities.py Outdated Show resolved Hide resolved

graphrag/index/workflows/v1/create_final_relationships.py Outdated Show resolved Hide resolved

Collaborator

natoverse commented Oct 21, 2024

Please remember to rename the new workflow to remove "create_final" so it is more clear that it doesn't have a direct output.

Collaborator

natoverse commented Oct 21, 2024

Please add a test under test_verbs that confirms all selected embeddings tables are created. You can test this by providing a storage instance in the test, and then confirming that all requested tables exist. You can also read any of the tables and assert that they have mock embeddings values.

andresmor-ms reviewed

View reviewed changes

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved

andresmor-ms reviewed

View reviewed changes

graphrag/index/flows/create_final_embeddings.py Outdated Show resolved Hide resolved


          Merge branch 'main' into new_workflow

977d025

AlonsoGuevara requested changes

View reviewed changes

Contributor

AlonsoGuevara left a comment

Overall comment, I don't like that we just remove the embeddings smoke tests. Can you please add tests to check for these outputs?


          Merge remote-tracking branch 'origin/main' into new_workflow

9dd9fc8

gaudyb dismissed jgbradley1’s stale review via

7d600ed

October 30, 2024 18:46

gaudyb added 6 commits

October 30, 2024 12:48


          merge conflict solved

399393d


          format fixed

b2343f7


          merge conflict solved

b65cfd7


          format fixed

7db6667


          fix return dataframe

7c86c6e


          Merge remote-tracking branch 'origin/main' into new_workflow

2c10a7f

gaudyb requested a review from natoverse

October 31, 2024 18:02

gaudyb added 7 commits

October 31, 2024 12:54


          snapshot fix

3eca0b6


          format fix

46a27c2


          embeddings param implemented

0931df8


          validation fixes

d4e6d1e


          fix map

dd11006


          fix map

dff8839


          fix properties

4a2211a

natoverse requested changes

View reviewed changes

graphrag/config/defaults.py Outdated Show resolved Hide resolved

graphrag/index/create_pipeline_config.py Outdated Show resolved Hide resolved

graphrag/index/flows/generate_text_embeddings.py Outdated Show resolved Hide resolved

graphrag/index/workflows/v1/create_final_entities.py Outdated Show resolved Hide resolved

graphrag/index/workflows/v1/create_final_relationships.py Outdated Show resolved Hide resolved


          config updates

9fed605

natoverse previously approved these changes

View reviewed changes


          smoke test fixed

cab502b

gaudyb dismissed natoverse’s stale review via

cab502b

October 31, 2024 21:15

gaudyb and others added 3 commits

October 31, 2024 15:23


          settings change

8a26964


          Update collection config and rework back-compat

05ab9cb


          Repalce . with - for embedding store

bd1c99a

natoverse requested a review from AlonsoGuevara

November 1, 2024 21:52

AlonsoGuevara approved these changes

View reviewed changes

natoverse merged commit 17658c5 into main

15 checks passed

natoverse deleted the new_workflow branch

November 1, 2024 22:01

xxll88 reviewed

View reviewed changes

graphrag/index/update/entities.py

xxll88 Nov 2, 2024

"Column(s) ['description_embedding'] do not exist"

xxll88 mentioned this pull request

[Bug]: (#1296) KeyError: "Column(s) ['description_embedding'] do not exist" #1345

Closed

3 tasks

prasodani reviewed

View reviewed changes

graphrag/index/operations/embed_text/embed_text.py

+                  if embed_column not in input.columns:
+                      msg = f"Column {embed_column} not found in input dataframe with columns {input.columns}"
+                      raise ValueError(msg)
+                  title = title_column or embed_column

prasodani Nov 10, 2024

While trying to index, embed_text fails due to this change.
title is re-initialised in the while loop below leading to a key error. Using some other variable name will fix it.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Reviewers

andresmor-ms andresmor-ms left review comments

xxll88 xxll88 left review comments

prasodani prasodani left review comments

AlonsoGuevara AlonsoGuevara approved these changes

natoverse natoverse left review comments

jgbradley1 jgbradley1 left review comments

Labels

None yet